Qwen3.5 모델 양자화, 왜 커뮤니티 버전은 성능이 떨어지나

5 hours ago 2

AI 모델을 더 작고 빠르게 압축하는 기술인 '양자화(quantization)'에서 커뮤니티가 배포한 MLX 포맷 Qwen3.5 모델들이 도구 호출 오류, 무의미한 출력, 환각(hallucination) 현상을 보이는 원인이 기술적으로 규명됐다. AI 파인튜닝 도구 업체 Unsloth가 150개 이상의 벤치마크 실험을 통해 원인과 해법을 제시한 내용이다.

핵심 요약

양자화란 모델의 숫자 데이터를 낮은 정밀도(비트 수)로 압축해 파일 크기와 연산량을 줄이는 기술이다
대부분의 커뮤니티 양자화 도구는 모든 레이어에 동일한 비트 수를 적용하는 '균일 양자화'를 사용한다
Qwen3.5는 일반적인 자기주의(self-attention) 레이어와 GatedDeltaNet이라는 선형 어텐션 레이어가 번갈아 구성된 하이브리드 구조다
문제의 핵심은 linear_attn.out_proj 레이어인데, 이 레이어는 4비트 압축 시 정보 손실 민감도가 출력 레이어(lm_head) 대비 약 120배에 달한다
균일 양자화는 중요하지 않은 부분에 정밀도를 낭비하고, 정작 민감한 레이어를 파괴하는 구조적 문제를 안고 있다

Unsloth의 해법

각 레이어의 실제 민감도에 따라 비트 수를 달리 배분하는 '혼합 비트 양자화' 방식을 적용했다
민감도가 낮은 MLP 레이어는 3비트, 어텐션 Q/K/V 레이어는 5비트에 AWQ(가중치 보정 기법) 적용, 가장 민감한 출력 레이어는 bf16 전체 정밀도를 유지한다
캘리브레이션(보정) 데이터로 위키피디아가 아닌 대화, 코딩, 도구 호출 예제를 사용해 실제 사용 환경에 맞는 중요도 계산이 가능하다

장단점

장점: 도구 호출, 구조화된 출력, 코드 생성 품질이 기존 커뮤니티 버전 대비 크게 향상된다. 동일 GGUF 버전과 동등한 성능을 MLX에서 구현했다
단점: 일부 민감한 레이어를 bf16으로 유지해야 하므로 디스크 용량이 순수 저비트 모델보다 더 크다

차별점

기존 커뮤니티 도구들이 구조를 고려하지 않고 일괄 압축하는 반면, Unsloth는 150개 이상의 KLD(정보 손실 측정 지표) 실험과 121개 설정 비교를 통해 레이어별 최적 비트 수를 과학적으로 도출했다
보정 데이터의 질이 압축 품질을 결정한다는 점을 실증적으로 밝힌 것도 주목할 부분이다

시사점