CursorBench 3.1 모델 평가 결과

2 hours ago 2
  • Cursor의 코딩 모델 평가표에서 Fable 5 Max가 72.9%로 1위를 기록해, 상위권 경쟁의 기준점이 됨
  • Fable 5 계열은 Max, Extra High, High, Medium이 1~4위를 모두 차지하며 다른 모델군과 뚜렷한 격차를 보임
  • 5위권 이후에는 Opus 4.7 Max 64.8%, GPT-5.5 Extra High 64.3%, Fable 5 Low 64.2%, Opus 4.8 Max 63.8%, Composer 2.5 63.2%가 이어짐
  • CursorBench 3.1은 코드베이스 이해, 버그 찾기, 계획, 코드 리뷰 중심 작업을 추가하고 일부 편집 작업의 채점 기준을 개선함
  • 평균 작업당 비용은 공개 토큰 가격과 작업별 사용 토큰으로 계산되며, 작은 점수 차이는 통계적으로 의미 없을 수 있음

상위권은 Fable 5가 독식

  • CursorBench 3.1 표는 모델별 순위, 점수, 평균 작업당 비용, 사용량 관련 수치를 함께 비교함
  • 1위부터 4위까지는 모두 Fable 5 계열임
    • Fable 5 Max: 72.9%, $18.02, 63,842, 76
    • Fable 5 Extra High: 72.0%, $13.74, 48,754, 63
    • Fable 5 High: 70.6%, $10.81, 37,173, 54
    • Fable 5 Medium: 69.8%, $8.27, 28,507, 47
  • 5~10위 구간에서는 Opus, GPT-5.5, Fable, Composer 모델이 섞여 있음
    • Opus 4.7 Max: 64.8%, $11.02, 62,989, 96
    • GPT-5.5 Extra High: 64.3%, $4.37, 17,905, 46
    • Fable 5 Low: 64.2%, $5.70, 18,882, 36
    • Opus 4.8 Max: 63.8%, $7.59, 77,370, 60
    • Composer 2.5: 63.2%, $0.55, 15,152, 37
    • GPT-5.5 High: 62.6%, $3.59, 13,329, 40

중하위권 모델별 점수

  • 11~20위는 Opus, Sonnet, GPT-5.5 모델이 주로 차지함
    • Opus 4.8 Extra High: 62.1%, $6.14, 55,622, 54
    • Opus 4.7 Extra High: 61.6%, $7.11, 43,942, 72
    • Sonnet 5 Max: 61.2%, $6.87, 93,485, 93
    • Opus 4.7 High: 59.4%, $5.01, 32,227, 59
    • GPT-5.5 Medium: 59.2%, $2.22, 9,065, 35
    • Opus 4.8 High: 58.4%, $4.41, 36,788, 45
    • Sonnet 5 Extra High: 58.4%, $5.23, 58,228, 86
    • Sonnet 5 High: 57.0%, $3.74, 41,735, 66
    • Opus 4.8 Medium: 56.6%, $3.83, 31,684, 41
    • Sonnet 5 Medium: 54.9%, $2.57, 27,469, 53
  • 21~36위에는 GLM, Kimi, Gemini, Sonnet, Composer 등이 포함됨
    • GLM 5.2 Max: 54.6%, $3.11, 51,312, 83
    • Opus 4.8 Low: 54.3%, $2.93, 22,726, 36
    • Opus 4.7 Medium: 52.7%, $2.93, 19,193, 41
    • Kimi K2.7 Code: 52.7%, $1.92, 32,902, 70
    • Composer 2: 52.2%, $0.56, 14,163, 40
    • GLM 5.2 High: 50.7%, $2.46, 30,621, 76
    • Gemini 3.5 Flash: 49.8%, $1.94, 35,105, 79
    • Sonnet 4.6 Max: 49.0%, $3.09, 40,280, 55
    • GPT-5.5 Low: 48.8%, $1.19, 4,923, 24
    • Sonnet 4.6 High: 48.8%, $3.06, 37,352, 57
    • Opus 4.7 Low: 48.3%, $1.87, 13,164, 29
    • Sonnet 5 Low: 47.7%, $1.46, 17,028, 37
    • Kimi 2.6: 47.6%, $1.27, 24,783, 56
    • Sonnet 4.6 Medium: 46.0%, $2.64, 31,360, 50
    • Sonnet 4.6 Low: 41.5%, $1.89, 21,211, 50
    • Kimi 2.5: 31.9%, $0.87, 9,446, 30

CursorBench 3.1의 평가 범위

  • CursorBench 3.1은 코드베이스 이해, 버그 찾기, 계획, 코드 리뷰에 초점을 둔 문제를 도입함
  • 일부 편집 작업의 채점 기준도 개선됨
  • CursorBench 3.0은 편집, 리팩터링, 버그 수정 문제에 초점을 둔 초기 작업 세트였음

비용 계산과 해석 제약

  • 평균 작업당 비용은 각 모델의 공개 per-million-token pricing을 사용해 계산됨
  • 입력, 캐시 읽기, 캐시 쓰기, 출력 가격을 모두 포함함
  • 각 모델이 CursorBench 3.1 작업에서 사용한 토큰에 가격을 적용한 뒤, 작업 전체 평균을 냄
  • 결과에는 변동성이 남아 있으며, 작은 점수 차이는 통계적으로 의미 없을 수 있음
Read Entire Article