Claude 4.7 토크나이저 비용 측정 결과

5 hours ago 1

Claude 4.7은 이전 버전보다 평균 1.3~1.45배 더 많은 토큰을 생성, 동일한 가격 체계에서 세션당 20~30% 비용 증가 발생
영어 및 코드 콘텐츠에서 토큰 증가가 두드러지며, CJK(중국어·일본어·한국어) 콘텐츠는 거의 변화 없음
더 세분화된 토큰화로 인해 명령어 준수도(Instruction Following) 가 약 5%p 향상, 특히 형식 오류가 감소
캐시 프리픽스와 대화 이력의 토큰 수가 늘어나 캐시 비용과 레이트 리밋 소모 속도가 함께 상승
결과적으로 Claude 4.7은 정확도와 세밀한 명령 수행 향상을 얻는 대신 추가 토큰 비용을 감수해야 하는 구조로 평가됨

Claude 4.7 토크나이저 측정 결과

Anthropic의 Claude Opus 4.7은 이전 버전인 4.6보다 1.0~1.35배 더 많은 토큰을 사용한다고 명시되어 있으나, 실제 측정에서는 1.45~1.47배 수준으로 확인됨
동일한 가격과 쿼터 조건에서 토큰 수가 늘어나 맥스 윈도우 소모 속도 증가, 캐시 프리픽스 비용 상승, 레이트 리밋 조기 도달 등의 영향 발생
실험은 비용 측정과 명령어 준수도 측정의 두 부분으로 구성됨

Anthropic API의 POST /v1/messages/count_tokens 엔드포인트를 사용해 동일한 콘텐츠를 4.6과 4.7 모델에 각각 입력, 순수 토크나이저 차이만 비교
두 가지 샘플 세트를 사용
- 실제 Claude Code 사용자가 전송한 7개 실사용 샘플
- 영어, 코드, 구조화 데이터, CJK, 이모지, 수학 기호 등 12개 인공 샘플
실제 Claude Code 콘텐츠 결과
- 7개 실사용 샘플의 가중 평균 비율 1.325배 (8,254 → 10,937 토큰)
- 주요 예시
- CLAUDE.md 파일: 1.445배
- 사용자 프롬프트: 1.373배
- 블로그 포스트: 1.368배
- 코드 diff: 1.212배
콘텐츠 유형별 결과 (12개 인공 샘플)
- 영어 및 코드 콘텐츠 평균: 1.345배
- CJK(중국어·일본어·한국어) 콘텐츠 평균: 1.01배
- 세부 예시
- 기술 문서: 1.47배
- Shell script: 1.39배
- TypeScript 코드: 1.36배
- 영어 산문: 1.20배
- JSON: 1.13배
- 일본어·중국어 산문: 1.01배

CJK, 이모지, 기호 콘텐츠는 1.005~1.07배 수준으로 거의 변화 없음
- 비라틴어 어휘는 크게 변경되지 않은 것으로 보임
영어 및 코드 콘텐츠는 1.20~1.47배 증가, 코드가 산문보다 더 큰 영향을 받음
- 코드의 반복 문자열(키워드, import, 식별자 등)이 세분화되어 더 많은 토큰으로 분할됨
영어의 문자당 토큰 비율은 4.33→3.60, TypeScript는 3.66→2.69로 감소
- 동일한 텍스트가 더 작은 단위로 분리되어 표현됨

Anthropic은 4.7에서 “명령어를 더 문자 그대로 따르는 경향” 을 강조
더 작은 토큰 단위는 단어 수준 주의(attention) 를 강화해 정확한 명령 수행, 문자 단위 작업, 도구 호출 정밀도 향상에 기여
Notion, Warp, Factory 등 파트너들은 도구 실행 오류 감소를 보고
다만, 토큰화 외에도 모델 가중치와 사후 학습(post-training) 이 함께 변경되어 원인 분리는 불가능

IFEval 벤치마크(2023, Google) 사용: “정확히 N단어로 답하라”, “쉼표 없이 작성하라” 등 541개 프롬프트 중 20개 샘플 테스트
결과
- 엄격 모드 프롬프트 단위: 4.6 → 85%, 4.7 → 90% (+5pp)
- 엄격 모드 명령 단위: 86% → 90% (+4pp)
- 느슨한 모드에서는 차이 없음
개선은 주로 형식(formatting) 관련 오류 감소에서 발생
단일 프롬프트(change_case:english_capital)에서만 명확한 차이 확인
표본 수가 적어(+5pp는 통계적으로 불확실), 작지만 일관된 개선으로 평가됨

80회 왕복 대화 세션 가정
- 정적 프리픽스: 6K 토큰 (CLAUDE.md 2K + 도구 정의 4K)
- 대화 이력: 턴당 2K씩 증가, 80턴 시 160K 도달
- 입력/출력: 턴당 500 / 1,500 토큰
- 캐시 적중률: 95%
4.6 기준 세션 비용
- | 항목 | 계산 | 비용 |
- | --- | --- | --- |
- | 첫 캐시 쓰기 | 8K × $6.25/MTok | $0.05 |
- | 캐시 읽기 (79회) | 79 × 86K × $0.50/MTok | $3.40 |
- | 신규 입력 | 79 × 500 × $5/MTok | $0.20 |
- | 출력 | 80 × 1,500 × $25/MTok | $3.00 |
- | 총합 | | 약 $6.65 |
4.7 기준 세션 비용
- CLAUDE.md: 1.445배 → 2K → 2.9K
- 도구 정의: 1.12배 → 4K → 4.5K
- 대화 이력: 1.325배 → 160K → 212K
- 사용자 입력: 1.325배 → 500 → 660
- 평균 캐시 프리픽스: 약 115K 토큰
- | 항목 | 계산 | 비용 |
- | --- | --- | --- |
- | 첫 캐시 쓰기 | 10K × $6.25/MTok | $0.06 |
- | 캐시 읽기 (79회) | 79 × 115K × $0.50/MTok | $4.54 |
- | 신규 입력 | 79 × 660 × $5/MTok | $0.26 |
- | 출력 | 80 × 1,500–1,950 × $25/MTok | $3.00–$3.90 |
- | 총합 | | 약 $7.86–$8.76 |
- 세션당 20~30% 비용 증가, 토큰 단가 변화 없이 발생
- Max 요금제 사용자는 동일 시간 창 내에서 세션 종료 시점이 더 빨라짐

“입력 대부분이 캐시 읽기라 영향 미미하다”
- 캐시 적중률이 높을 경우 비용 영향은 작지만, TTL 만료, 캐시 무효화, 모델 전환 시에는 전체 비율로 비용 증가
“1.35배는 상한이 아니라 범위다”
- 실제 측정값은 상한 근처(1.325배)에 집중, 일부 파일은 이를 초과
- 실제 사용 시 상한 기준으로 계획하는 것이 안전