GLM-5.2, Artificial Analysis 오픈 가중치 모델 1위 등극

1 week ago 11
  • Z ai의 GLM-5.2는 Artificial Analysis Intelligence Index v4.1에서 51점을 기록해 오픈 가중치 모델 선두에 올랐고, 비용 대비 성능에서도 Pareto frontier에 위치함
  • 모델 크기는 GLM-5.1과 같은 744B 전체 / 40B 활성 파라미터지만 점수는 11점 높아 MiniMax-M3, DeepSeek V4 Pro(max), Kimi K2.6을 앞섬
  • 개선 폭은 대부분의 평가에서 나타났으며, 특히 과학적 추론 영역의 CritPt와 HLE 상승이 두드러짐
  • GDPval-AA v2에서는 1524점으로 MiniMax-M3와 DeepSeek V4 Pro(max)를 앞섰고, GPT-5.5(xhigh reasoning)와 비슷한 수준에 놓임
  • 태스크당 43k 출력 토큰을 써 토큰 효율은 낮은 편이지만, 같은 지능 수준 모델 중 태스크당 비용은 가장 낮은 축에 있음

Intelligence Index v4.1에서 오픈 가중치 선두

  • GLM-5.2는 Artificial Analysis Intelligence Index v4.1에서 51점을 기록해 오픈 가중치 모델 중 1위에 오름
  • 주요 오픈 가중치 모델 점수는 다음과 같음
    • MiniMax-M3: 44
    • DeepSeek V4 Pro(max): 44
    • Kimi K2.6: 43
  • GLM-5.2는 GLM-5.1과 같은 744B 전체 파라미터 / 40B 활성 파라미터 규모지만, Intelligence Index v4.1 점수는 11점 높음

평가별 성능 개선

  • GLM-5.2는 GLM-5.1 대비 대부분의 평가에서 점수가 상승함
  • 특히 과학적 추론 관련 평가에서 개선 폭이 큼
    • CritPt: +16점, 21%
    • HLE: +12점, 40%
    • GPQA Diamond: +3점, 89%
  • 다른 평가에서도 고르게 개선됨
    • AA-LCR: +9점, 71%
    • tau3 banking: +15점, 27%
    • SciCode: +7점, 50%
    • TerminalBench v2.1: +16점, 78%

GDPval-AA v2와 에이전트 성능

  • GLM-5.2는 실세계 에이전트 성능 지표인 GDPval-AA v2에서 1524점을 기록함
  • 오픈 가중치 모델 비교에서는 가장 높은 점수임
    • GLM-5.2: 1524
    • MiniMax-M3: 1418
    • DeepSeek V4 Pro(max): 1328
  • 이 결과는 GPT-5.5(xhigh reasoning) 의 1514점과 사실상 비슷한 수준임
  • GDPval-AA v2는 기존 GDPval-AA에서 평가 방식을 바꿈
    • Elo 기준선을 인간 성능 1000으로 설정
    • frontier-model judge의 순환 패널 도입
    • 더 긴 에이전트 궤적을 다루기 위해 턴 제한을 100에서 250으로 상향

비용, 가격, 토큰 사용량

  • GLM-5.2는 Intelligence vs Cost per Task 차트에서 Pareto frontier에 있으며, 같은 지능 수준 모델 중 태스크당 비용이 가장 낮은 축에 있음
  • 태스크당 비용은 GLM-5.1보다 높지만, 더 높은 Intelligence 점수를 감안하면 비용 대비 위치가 유리함
    • GLM-5.2: 약 $0.46
    • GLM-5.1: $0.25
    • Kimi K2.6: $0.31
    • MiniMax-M3: $0.18
    • DeepSeek V4 Pro(max): $0.05
  • first-party API 가격은 GLM-5.1과 같은 수준임
    • 1M 입력 토큰당 $1.4
    • 1M 출력 토큰당 $4.4
    • 1M cache hit 토큰당 $0.26
  • Intelligence Index 태스크당 43k 출력 토큰을 사용하며, 이 중 37k는 reasoning 토큰임
  • 출력 토큰 사용량은 주요 오픈 가중치 모델보다 높은 편임
    • GLM-5.1: 26k
    • MiniMax-M3: 24k
    • Kimi K2.6: 35k
    • DeepSeek V4 Pro(max): 37k
  • 같은 지능 수준의 오픈 가중치 모델 중 토큰 효율은 낮은 편이며, Intelligence vs Output Tokens 차트에서 가장 매력적인 사분면에는 들지 않음

모델 세부 사항과 접근성

  • GLM-5.2의 라이선스는 MIT
  • 컨텍스트 윈도우는 1M 토큰으로, GLM-5.1의 200K에서 증가함
  • Z ai의 first-party API와 여러 third-party 제공자에서 사용할 수 있음
    • DeepInfra

    • Novita

    • Nebius

    • Parasail

    • Siliconflow

    • GMI Cloud

    • Baseten

      • Fireworks
      • GLM-5.2는 AA-Omniscience Index에서 4점을 기록해 GLM-5.1의 2점보다 높음
      • 정확도는 25.1% 로 GLM-5.1의 24.2%보다 높음
      • hallucination rate는 28.1% 로 GLM-5.1의 29.4%보다 낮음
      • attempt rate는 47% 로 동일함
      • 모델 비교는 Artificial Analysis의 GLM-5.2 페이지에서 확인할 수 있음
Read Entire Article