AI 모델을 더 작고 빠르게 압축하는 기술인 '양자화(quantization)'에서 커뮤니티가 배포한 MLX 포맷 Qwen3.5 모델들이 도구 호출 오류, 무의미한 출력, 환각(hallucination) 현상을 보이는 원인이 기술적으로 규명됐다. AI 파인튜닝 도구 업체 Unsloth가 150개 이상의 벤치마크 실험을 통해 원인과 해법을 제시한 내용이다.
핵심 요약
- 양자화란 모델의 숫자 데이터를 낮은 정밀도(비트 수)로 압축해 파일 크기와 연산량을 줄이는 기술이다
- 대부분의 커뮤니티 양자화 도구는 모든 레이어에 동일한 비트 수를 적용하는 '균일 양자화'를 사용한다
- Qwen3.5는 일반적인 자기주의(self-attention) 레이어와 GatedDeltaNet이라는 선형 어텐션 레이어가 번갈아 구성된 하이브리드 구조다
- 문제의 핵심은 linear_attn.out_proj 레이어인데, 이 레이어는 4비트 압축 시 정보 손실 민감도가 출력 레이어(lm_head) 대비 약 120배에 달한다
- 균일 양자화는 중요하지 않은 부분에 정밀도를 낭비하고, 정작 민감한 레이어를 파괴하는 구조적 문제를 안고 있다
Unsloth의 해법
- 각 레이어의 실제 민감도에 따라 비트 수를 달리 배분하는 '혼합 비트 양자화' 방식을 적용했다
- 민감도가 낮은 MLP 레이어는 3비트, 어텐션 Q/K/V 레이어는 5비트에 AWQ(가중치 보정 기법) 적용, 가장 민감한 출력 레이어는 bf16 전체 정밀도를 유지한다
- 캘리브레이션(보정) 데이터로 위키피디아가 아닌 대화, 코딩, 도구 호출 예제를 사용해 실제 사용 환경에 맞는 중요도 계산이 가능하다
장단점
- 장점: 도구 호출, 구조화된 출력, 코드 생성 품질이 기존 커뮤니티 버전 대비 크게 향상된다. 동일 GGUF 버전과 동등한 성능을 MLX에서 구현했다
- 단점: 일부 민감한 레이어를 bf16으로 유지해야 하므로 디스크 용량이 순수 저비트 모델보다 더 크다
차별점
- 기존 커뮤니티 도구들이 구조를 고려하지 않고 일괄 압축하는 반면, Unsloth는 150개 이상의 KLD(정보 손실 측정 지표) 실험과 121개 설정 비교를 통해 레이어별 최적 비트 수를 과학적으로 도출했다
- 보정 데이터의 질이 압축 품질을 결정한다는 점을 실증적으로 밝힌 것도 주목할 부분이다
시사점
- AI 모델 압축은 단순히 비트 수를 줄이는 문제가 아니라 모델 내부 구조를 이해하는 기술이 필수적이라는 점이 다시 확인됐다
- 커뮤니티에서 배포되는 경량화 모델을 실무에 사용할 때, 배포자의 양자화 방식과 보정 데이터를 반드시 확인해야 한다는 실용적 교훈을 남긴다

5 hours ago
2
![[MK시그널] 로보티즈, 美 빅테크에 로봇 손 부품 공급 및 피지컬AI 수혜주 등에 주가 상승세, MK시그널 추천 후 상승률 12.83% 기록](https://pimg.mk.co.kr/news/cms/202603/20/news-p.v1.20260320.5ea8839301ed4284a9cb365ffae9579b_R.png)








English (US) ·