CursorBench 3.1 모델 평가 결과

2 hours ago 2

Cursor의 코딩 모델 평가표에서 Fable 5 Max가 72.9%로 1위를 기록해, 상위권 경쟁의 기준점이 됨
Fable 5 계열은 Max, Extra High, High, Medium이 1~4위를 모두 차지하며 다른 모델군과 뚜렷한 격차를 보임
5위권 이후에는 Opus 4.7 Max 64.8%, GPT-5.5 Extra High 64.3%, Fable 5 Low 64.2%, Opus 4.8 Max 63.8%, Composer 2.5 63.2%가 이어짐
CursorBench 3.1은 코드베이스 이해, 버그 찾기, 계획, 코드 리뷰 중심 작업을 추가하고 일부 편집 작업의 채점 기준을 개선함
평균 작업당 비용은 공개 토큰 가격과 작업별 사용 토큰으로 계산되며, 작은 점수 차이는 통계적으로 의미 없을 수 있음

상위권은 Fable 5가 독식

CursorBench 3.1 표는 모델별 순위, 점수, 평균 작업당 비용, 사용량 관련 수치를 함께 비교함
1위부터 4위까지는 모두 Fable 5 계열임
- Fable 5 Max: 72.9%, $18.02, 63,842, 76
- Fable 5 Extra High: 72.0%, $13.74, 48,754, 63
- Fable 5 High: 70.6%, $10.81, 37,173, 54
- Fable 5 Medium: 69.8%, $8.27, 28,507, 47
5~10위 구간에서는 Opus, GPT-5.5, Fable, Composer 모델이 섞여 있음
- Opus 4.7 Max: 64.8%, $11.02, 62,989, 96
- GPT-5.5 Extra High: 64.3%, $4.37, 17,905, 46
- Fable 5 Low: 64.2%, $5.70, 18,882, 36
- Opus 4.8 Max: 63.8%, $7.59, 77,370, 60
- Composer 2.5: 63.2%, $0.55, 15,152, 37
- GPT-5.5 High: 62.6%, $3.59, 13,329, 40

중하위권 모델별 점수

11~20위는 Opus, Sonnet, GPT-5.5 모델이 주로 차지함
- Opus 4.8 Extra High: 62.1%, $6.14, 55,622, 54
- Opus 4.7 Extra High: 61.6%, $7.11, 43,942, 72
- Sonnet 5 Max: 61.2%, $6.87, 93,485, 93
- Opus 4.7 High: 59.4%, $5.01, 32,227, 59
- GPT-5.5 Medium: 59.2%, $2.22, 9,065, 35
- Opus 4.8 High: 58.4%, $4.41, 36,788, 45
- Sonnet 5 Extra High: 58.4%, $5.23, 58,228, 86
- Sonnet 5 High: 57.0%, $3.74, 41,735, 66
- Opus 4.8 Medium: 56.6%, $3.83, 31,684, 41
- Sonnet 5 Medium: 54.9%, $2.57, 27,469, 53
21~36위에는 GLM, Kimi, Gemini, Sonnet, Composer 등이 포함됨
- GLM 5.2 Max: 54.6%, $3.11, 51,312, 83
- Opus 4.8 Low: 54.3%, $2.93, 22,726, 36
- Opus 4.7 Medium: 52.7%, $2.93, 19,193, 41
- Kimi K2.7 Code: 52.7%, $1.92, 32,902, 70
- Composer 2: 52.2%, $0.56, 14,163, 40
- GLM 5.2 High: 50.7%, $2.46, 30,621, 76
- Gemini 3.5 Flash: 49.8%, $1.94, 35,105, 79
- Sonnet 4.6 Max: 49.0%, $3.09, 40,280, 55
- GPT-5.5 Low: 48.8%, $1.19, 4,923, 24
- Sonnet 4.6 High: 48.8%, $3.06, 37,352, 57
- Opus 4.7 Low: 48.3%, $1.87, 13,164, 29
- Sonnet 5 Low: 47.7%, $1.46, 17,028, 37
- Kimi 2.6: 47.6%, $1.27, 24,783, 56
- Sonnet 4.6 Medium: 46.0%, $2.64, 31,360, 50
- Sonnet 4.6 Low: 41.5%, $1.89, 21,211, 50
- Kimi 2.5: 31.9%, $0.87, 9,446, 30

CursorBench 3.1의 평가 범위

CursorBench 3.1은 코드베이스 이해, 버그 찾기, 계획, 코드 리뷰에 초점을 둔 문제를 도입함
일부 편집 작업의 채점 기준도 개선됨
CursorBench 3.0은 편집, 리팩터링, 버그 수정 문제에 초점을 둔 초기 작업 세트였음

비용 계산과 해석 제약

평균 작업당 비용은 각 모델의 공개 per-million-token pricing을 사용해 계산됨
입력, 캐시 읽기, 캐시 쓰기, 출력 가격을 모두 포함함
각 모델이 CursorBench 3.1 작업에서 사용한 토큰에 가격을 적용한 뒤, 작업 전체 평균을 냄
결과에는 변동성이 남아 있으며, 작은 점수 차이는 통계적으로 의미 없을 수 있음

Read Entire Article