GLM-5.2, Artificial Analysis 오픈 가중치 모델 1위 등극
1 week ago
11
- Z ai의 GLM-5.2는 Artificial Analysis Intelligence Index v4.1에서 51점을 기록해 오픈 가중치 모델 선두에 올랐고, 비용 대비 성능에서도 Pareto frontier에 위치함
- 모델 크기는 GLM-5.1과 같은 744B 전체 / 40B 활성 파라미터지만 점수는 11점 높아 MiniMax-M3, DeepSeek V4 Pro(max), Kimi K2.6을 앞섬
- 개선 폭은 대부분의 평가에서 나타났으며, 특히 과학적 추론 영역의 CritPt와 HLE 상승이 두드러짐
- GDPval-AA v2에서는 1524점으로 MiniMax-M3와 DeepSeek V4 Pro(max)를 앞섰고, GPT-5.5(xhigh reasoning)와 비슷한 수준에 놓임
- 태스크당 43k 출력 토큰을 써 토큰 효율은 낮은 편이지만, 같은 지능 수준 모델 중 태스크당 비용은 가장 낮은 축에 있음
Intelligence Index v4.1에서 오픈 가중치 선두
- GLM-5.2는 Artificial Analysis Intelligence Index v4.1에서 51점을 기록해 오픈 가중치 모델 중 1위에 오름
- 주요 오픈 가중치 모델 점수는 다음과 같음
- MiniMax-M3: 44
- DeepSeek V4 Pro(max): 44
- Kimi K2.6: 43
- GLM-5.2는 GLM-5.1과 같은 744B 전체 파라미터 / 40B 활성 파라미터 규모지만, Intelligence Index v4.1 점수는 11점 높음
평가별 성능 개선
- GLM-5.2는 GLM-5.1 대비 대부분의 평가에서 점수가 상승함
- 특히 과학적 추론 관련 평가에서 개선 폭이 큼
- CritPt: +16점, 21%
- HLE: +12점, 40%
- GPQA Diamond: +3점, 89%
- 다른 평가에서도 고르게 개선됨
- AA-LCR: +9점, 71%
- tau3 banking: +15점, 27%
- SciCode: +7점, 50%
- TerminalBench v2.1: +16점, 78%
GDPval-AA v2와 에이전트 성능
- GLM-5.2는 실세계 에이전트 성능 지표인 GDPval-AA v2에서 1524점을 기록함
- 오픈 가중치 모델 비교에서는 가장 높은 점수임
- GLM-5.2: 1524
- MiniMax-M3: 1418
- DeepSeek V4 Pro(max): 1328
- 이 결과는 GPT-5.5(xhigh reasoning) 의 1514점과 사실상 비슷한 수준임
- GDPval-AA v2는 기존 GDPval-AA에서 평가 방식을 바꿈
- Elo 기준선을 인간 성능 1000으로 설정
- frontier-model judge의 순환 패널 도입
- 더 긴 에이전트 궤적을 다루기 위해 턴 제한을 100에서 250으로 상향
비용, 가격, 토큰 사용량
- GLM-5.2는 Intelligence vs Cost per Task 차트에서 Pareto frontier에 있으며, 같은 지능 수준 모델 중 태스크당 비용이 가장 낮은 축에 있음
- 태스크당 비용은 GLM-5.1보다 높지만, 더 높은 Intelligence 점수를 감안하면 비용 대비 위치가 유리함
- GLM-5.2: 약 $0.46
- GLM-5.1: $0.25
- Kimi K2.6: $0.31
- MiniMax-M3: $0.18
- DeepSeek V4 Pro(max): $0.05
- first-party API 가격은 GLM-5.1과 같은 수준임
- 1M 입력 토큰당 $1.4
- 1M 출력 토큰당 $4.4
- 1M cache hit 토큰당 $0.26
- Intelligence Index 태스크당 43k 출력 토큰을 사용하며, 이 중 37k는 reasoning 토큰임
- 출력 토큰 사용량은 주요 오픈 가중치 모델보다 높은 편임
- GLM-5.1: 26k
- MiniMax-M3: 24k
- Kimi K2.6: 35k
- DeepSeek V4 Pro(max): 37k
- 같은 지능 수준의 오픈 가중치 모델 중 토큰 효율은 낮은 편이며, Intelligence vs Output Tokens 차트에서 가장 매력적인 사분면에는 들지 않음
모델 세부 사항과 접근성
- GLM-5.2의 라이선스는 MIT임
- 컨텍스트 윈도우는 1M 토큰으로, GLM-5.1의 200K에서 증가함
- Z ai의 first-party API와 여러 third-party 제공자에서 사용할 수 있음
-
DeepInfra
-
Novita
-
Nebius
-
Parasail
-
Siliconflow
-
GMI Cloud
-
Baseten
- Fireworks
- GLM-5.2는 AA-Omniscience Index에서 4점을 기록해 GLM-5.1의 2점보다 높음
- 정확도는 25.1% 로 GLM-5.1의 24.2%보다 높음
- hallucination rate는 28.1% 로 GLM-5.1의 29.4%보다 낮음
- attempt rate는 47% 로 동일함
- 모델 비교는 Artificial Analysis의 GLM-5.2 페이지에서 확인할 수 있음
-
Homepage
-
Tech blog
- GLM-5.2, Artificial Analysis 오픈 가중치 모델 1위 등극