Claude 4.7 토크나이저 비용 측정 결과
5 hours ago
1
- Claude 4.7은 이전 버전보다 평균 1.3~1.45배 더 많은 토큰을 생성, 동일한 가격 체계에서 세션당 20~30% 비용 증가 발생
- 영어 및 코드 콘텐츠에서 토큰 증가가 두드러지며, CJK(중국어·일본어·한국어) 콘텐츠는 거의 변화 없음
- 더 세분화된 토큰화로 인해 명령어 준수도(Instruction Following) 가 약 5%p 향상, 특히 형식 오류가 감소
- 캐시 프리픽스와 대화 이력의 토큰 수가 늘어나 캐시 비용과 레이트 리밋 소모 속도가 함께 상승
- 결과적으로 Claude 4.7은 정확도와 세밀한 명령 수행 향상을 얻는 대신 추가 토큰 비용을 감수해야 하는 구조로 평가됨
Claude 4.7 토크나이저 측정 결과
- Anthropic의 Claude Opus 4.7은 이전 버전인 4.6보다 1.0~1.35배 더 많은 토큰을 사용한다고 명시되어 있으나, 실제 측정에서는 1.45~1.47배 수준으로 확인됨
- 동일한 가격과 쿼터 조건에서 토큰 수가 늘어나 맥스 윈도우 소모 속도 증가, 캐시 프리픽스 비용 상승, 레이트 리밋 조기 도달 등의 영향 발생
- 실험은 비용 측정과 명령어 준수도 측정의 두 부분으로 구성됨
비용 측정 방법
- Anthropic API의 POST /v1/messages/count_tokens 엔드포인트를 사용해 동일한 콘텐츠를 4.6과 4.7 모델에 각각 입력, 순수 토크나이저 차이만 비교
- 두 가지 샘플 세트를 사용
- 실제 Claude Code 사용자가 전송한 7개 실사용 샘플
- 영어, 코드, 구조화 데이터, CJK, 이모지, 수학 기호 등 12개 인공 샘플
-
실제 Claude Code 콘텐츠 결과
- 7개 실사용 샘플의 가중 평균 비율 1.325배 (8,254 → 10,937 토큰)
- 주요 예시
- CLAUDE.md 파일: 1.445배
- 사용자 프롬프트: 1.373배
- 블로그 포스트: 1.368배
- 코드 diff: 1.212배
-
콘텐츠 유형별 결과 (12개 인공 샘플)
- 영어 및 코드 콘텐츠 평균: 1.345배
- CJK(중국어·일본어·한국어) 콘텐츠 평균: 1.01배
- 세부 예시
- 기술 문서: 1.47배
- Shell script: 1.39배
- TypeScript 코드: 1.36배
- 영어 산문: 1.20배
- JSON: 1.13배
- 일본어·중국어 산문: 1.01배
토크나이저의 변화 패턴
- CJK, 이모지, 기호 콘텐츠는 1.005~1.07배 수준으로 거의 변화 없음
- 비라틴어 어휘는 크게 변경되지 않은 것으로 보임
- 영어 및 코드 콘텐츠는 1.20~1.47배 증가, 코드가 산문보다 더 큰 영향을 받음
- 코드의 반복 문자열(키워드, import, 식별자 등)이 세분화되어 더 많은 토큰으로 분할됨
- 영어의 문자당 토큰 비율은 4.33→3.60, TypeScript는 3.66→2.69로 감소
- 동일한 텍스트가 더 작은 단위로 분리되어 표현됨
더 많은 토큰을 사용하는 이유
- Anthropic은 4.7에서 “명령어를 더 문자 그대로 따르는 경향” 을 강조
- 더 작은 토큰 단위는 단어 수준 주의(attention) 를 강화해 정확한 명령 수행, 문자 단위 작업, 도구 호출 정밀도 향상에 기여
- Notion, Warp, Factory 등 파트너들은 도구 실행 오류 감소를 보고
- 다만, 토큰화 외에도 모델 가중치와 사후 학습(post-training) 이 함께 변경되어 원인 분리는 불가능
명령어 준수도 테스트
- IFEval 벤치마크(2023, Google) 사용: “정확히 N단어로 답하라”, “쉼표 없이 작성하라” 등 541개 프롬프트 중 20개 샘플 테스트
- 결과
- 엄격 모드 프롬프트 단위: 4.6 → 85%, 4.7 → 90% (+5pp)
- 엄격 모드 명령 단위: 86% → 90% (+4pp)
- 느슨한 모드에서는 차이 없음
- 개선은 주로 형식(formatting) 관련 오류 감소에서 발생
- 단일 프롬프트(change_case:english_capital)에서만 명확한 차이 확인
- 표본 수가 적어(+5pp는 통계적으로 불확실), 작지만 일관된 개선으로 평가됨
Claude Code 세션 단위 비용 계산
- 80회 왕복 대화 세션 가정
- 정적 프리픽스: 6K 토큰 (CLAUDE.md 2K + 도구 정의 4K)
- 대화 이력: 턴당 2K씩 증가, 80턴 시 160K 도달
- 입력/출력: 턴당 500 / 1,500 토큰
- 캐시 적중률: 95%
-
4.6 기준 세션 비용
- | 항목 | 계산 | 비용 |
- | --- | --- | --- |
- | 첫 캐시 쓰기 | 8K × $6.25/MTok | $0.05 |
- | 캐시 읽기 (79회) | 79 × 86K × $0.50/MTok | $3.40 |
- | 신규 입력 | 79 × 500 × $5/MTok | $0.20 |
- | 출력 | 80 × 1,500 × $25/MTok | $3.00 |
- | 총합 | | 약 $6.65 |
-
4.7 기준 세션 비용
- CLAUDE.md: 1.445배 → 2K → 2.9K
- 도구 정의: 1.12배 → 4K → 4.5K
- 대화 이력: 1.325배 → 160K → 212K
- 사용자 입력: 1.325배 → 500 → 660
- 평균 캐시 프리픽스: 약 115K 토큰
- | 항목 | 계산 | 비용 |
- | --- | --- | --- |
- | 첫 캐시 쓰기 | 10K × $6.25/MTok | $0.06 |
- | 캐시 읽기 (79회) | 79 × 115K × $0.50/MTok | $4.54 |
- | 신규 입력 | 79 × 660 × $5/MTok | $0.26 |
- | 출력 | 80 × 1,500–1,950 × $25/MTok | $3.00–$3.90 |
- | 총합 | | 약 $7.86–$8.76 |
- 세션당 20~30% 비용 증가, 토큰 단가 변화 없이 발생
- Max 요금제 사용자는 동일 시간 창 내에서 세션 종료 시점이 더 빨라짐
프롬프트 캐시 영향
- 모델별 캐시 분리로 인해 4.7 전환 시 기존 4.6 캐시 무효화
- 첫 세션은 캐시 미적용 상태로 시작, 더 큰 프리픽스 비용 발생
- 캐시 볼륨 자체가 1.3~1.45배 증가, 읽기·쓰기 모두 동일 비율로 상승
- 동일 대화 로그라도 토큰 수가 달라짐, 과거 대비 청구량·모니터링 수치에 단절 발생
반론 및 해석
-
“입력 대부분이 캐시 읽기라 영향 미미하다”
- 캐시 적중률이 높을 경우 비용 영향은 작지만, TTL 만료, 캐시 무효화, 모델 전환 시에는 전체 비율로 비용 증가
-
“1.35배는 상한이 아니라 범위다”
- 실제 측정값은 상한 근처(1.325배)에 집중, 일부 파일은 이를 초과
- 실제 사용 시 상한 기준으로 계획하는 것이 안전
결론
- 영어 및 코드 중심 작업에서 토큰 사용량 1.3~1.45배 증가
- 명령어 준수도는 약 +5pp 개선, 소폭이지만 실질적 향상
- 세션당 비용은 20~30% 상승, 토큰 단가 동일
- 결과적으로 더 높은 정확도와 세밀한 명령 수행을 위해 추가 비용을 지불하는 구조로 평가됨
-
Homepage
-
Tech blog
- Claude 4.7 토크나이저 비용 측정 결과