GPT-5.5 Codex의 추론 토큰 클러스터링이 성능 저하로 이어질 수 있음

6 hours ago 6
  • OpenAI Codex 이슈 #30364는 gpt-5.5 응답의 reasoning_output_tokens가 516, 1034, 1552 같은 고정값에 몰리는 현상이 복잡한 Codex 작업의 품질 저하와 관련될 수 있다고 보고함
  • 분석 대상은 2026년 2월 1일~6월 27일 UTC의 Codex token_count 메타데이터이며, 390,195개 응답 레코드와 865개 세션에서 exact 516 이벤트 3,363건이 확인됨
  • gpt-5.5는 전체 응답의 19.3%였지만 exact-516 이벤트의 82.0% 를 차지했고, reasoning_output_tokens >= 516 중 exact 516 비율은 44.0%로 non-GPT-5.5의 1.3%보다 훨씬 높았음
  • 월별 exact-516 비율은 2026년 2월 0.11%에서 5월 53.30%, 6월 35.84%로 증가했지만, 같은 기간 평균 및 P90 추론 토큰 수는 낮아져 단순히 추론 토큰 사용량이 늘어난 현상은 아니었음
  • 이후 댓글에서는 Codex CLI, Codex Desktop, OpenCode에서 유사한 516 클러스터링과 일부 오답 재현이 공유됐고, 임시 대응으로 518·n−2 패턴을 감지해 추론을 이어가는 로컬 프록시도 제안됨

이슈의 핵심 문제

  • Codex 이슈 #30364는 gpt-5.5 응답의 token_count 메타데이터에서 reasoning_output_tokens = 516에 과도하게 몰리는 패턴을 보고함
  • 추가로 1034, 1552 근처에서도 고정 경계처럼 보이는 스파이크가 나타난다고 함
  • 제기된 범위는 숨겨진 chain-of-thought 절단을 증명한다는 주장이 아님
    • 더 좁은 주장은 Codex 텔레메트리에서 gpt-5.5에 특이적인 고정 토큰 클러스터링 이상 현상이 보인다는 것
    • 이 패턴이 임계값 기반 추론 예산 동작과 일관돼 보인다는 수준의 문제 제기임
  • 관련 이슈 #29353는 gpt-5.5 실행이 정확히 516 reasoning tokens에서 끝나며 잘못된 답을 반환한 작업 단위 재현을 다뤘고, 이번 이슈는 더 큰 기간의 집계 증거를 추가함

분석 환경과 데이터

  • 제품은 Codex, 가장 관련된 모델은 gpt-5.5
  • 데이터 소스는 Codex token_count 메타데이터
  • 분석 기간은 2026년 2월 1일~6월 27일 UTC
  • 집계 수치:
    • 응답 수준 토큰 레코드: 390,195개
    • 세션: 865개
    • exact reasoning_output_tokens = 516 이벤트: 3,363건
    • gpt-5.5의 전체 응답 비중: 19.3%
    • gpt-5.5의 exact-516 이벤트 비중: 82.0%
    • gpt-5.5 exact-516 / >=516 비율: 44.0%
    • non-GPT-5.5 exact-516 / >=516 비율: 1.3%

모델별·월별 패턴

  • 모델별 exact 516 / >=516 비율은 gpt-5.5에서 가장 두드러짐
    • gpt-5.5: 75,401개 레코드, 44.0%
    • gpt-5.4: 25,214개 레코드, 19.8%
    • gpt-5.2: 247,575개 레코드, 0.34%
    • gpt-5.3-codex: 13,333개 레코드, 0.0%
    • gpt-5.3-codex-spark: 26,179개 레코드, 0.0%
  • 월별 exact-516 클러스터링은 2026년 5월에 급증함
    • 2월: 0.11%
    • 3월: 2.45%
    • 4월: 4.25%
    • 5월: 53.30%
    • 6월: 35.84%
  • 같은 기간 전체 추론 토큰 강도는 낮아짐
    • 평균 reasoning tokens: 2월 268.1 → 5월 106.9 → 6월 168.5
    • P90 reasoning tokens: 2월 772 → 5월 344 → 6월 515
  • 이 조합 때문에 exact-516 증가는 단순한 추론 토큰 사용량 증가로 설명하기 어렵다는 문제가 제기됨

요청된 내부 검증 항목

  • Codex 팀에 gpt-5.5의 추론 예산, 라우팅, 절단, fallback, scheduler 동작이 516/1034/1552 근처 종료를 유발하는지 조사해 달라고 요청함
  • 해당 동작이 의도된 것이라면 exact 516이 정상 종료 지점인지, 예산 상한인지, degraded tier인지, 다른 내부 임계값인지 알려 달라는 요청이 포함됨
  • 제안된 검증 절차:
    • 모델별 reasoning_output_tokens가 포함된 token_count 이벤트 조회
    • 0, 516, 1034, 1552 exact-value 카운트 비교
    • 모델·일자별 count(reasoning_output_tokens = 516) / count(reasoning_output_tokens >= 516) 계산
    • gpt-5.5와 gpt-5.2, gpt-5.4, Codex 전용 변형 비교
    • GPT-5.2와 GPT-5.5에서 복잡한 작업을 다시 실행하고, exact-516 응답과 더 긴 reasoning 응답을 분리해 품질 평가

댓글에서 나온 추가 재현과 교차 데이터

  • GitHub Actions는 관련 중복 후보로 #29353을 표시함
  • 여러 사용자가 같은 문제를 겪었다고 댓글을 남겼고, 한 사용자는 이전 이슈보다 이번 이슈가 더 데이터 기반 보고라고 평가함
  • sinnet3000은 Codex CLI와 OpenCode의 로컬 세션 저장소에서 교차 클라이언트 데이터를 제시함
    • Codex ~/.codex/sessions와 archived_sessions의 약 22.7k token_count 이벤트에서 gpt-5.5는 records 4,300, >=516 156, exact 516 88, 비율 56.4%
    • OpenCode opencode.db의 약 32.1k assistant messages에서 gpt-5.5는 records 6,977, >=516 126, exact 516 90, 비율 71.4%
    • Kimi, DeepSeek, MiMo, MiniMax, Gemini, Qwen, GLM 등 볼륨이 있는 non-OpenAI 모델 합산 약 24k records에서는 exact 516이 0건
    • 이 데이터는 답의 정오답을 평가하지 않았고, exact 516 클러스터링 존재 여부만 확인했다는 caveat가 붙음
  • kyleboddy는 Windows 11 Codex Desktop에서 관련된 행동 차이를 보고함
    • 5개 fresh projectless Codex Desktop threads에서 같은 candy prompt를 실행
    • 빠른 direct-final_answer 실행은 29를 반환해 오답
    • 더 느리고 commentary가 먼저 나온 실행들은 21을 반환해 정답
    • fresh Windows-host Desktop threads에서는 exact reasoning_output_tokens를 추출하지 못했으므로 해당 오답 실행이 정확히 516이었다고 말할 수는 없다고 밝힘
  • 같은 사용자는 로컬 세션 메타데이터에서 gpt-5.5 / xhigh의 고정값 클러스터링도 집계함
    • records 16,141, sessions 51, 평균 reasoning 149.7, P90 429
    • =516 438건, >=516 1,298건, 비율 33.74%
    • =1034 52건, =1552 14건, =2070 16건, =2588 12건, =3106 5건

Codex Linux CLI 재현 결과

  • kyleboddy는 Codex Linux CLI에서도 동일 candy prompt를 사용해 재현했다고 함
  • 환경:
    • 제품: Codex CLI
    • 버전: codex-cli 0.142.5
    • 플랫폼: Ubuntu Linux 6.8.0-111-generic, x86_64
    • Node: v24.14.0
    • 인증 모드: ChatGPT
    • 테스트 모델: gpt-5.5
    • reasoning efforts: xhigh, high
    • 대조 모델: gpt-5.4 xhigh
  • prompt는 외부 도구를 쓰지 말고, 촉각으로 shape를 구분할 수 있는 candy bag 문제의 최소 draw 수를 묻는 내용임
  • 기대 답은 brute-force enumeration으로 21이라고 독립 확인함
    • shape를 촉각으로 구분할 수 있으므로 9 round + 12 star candies를 계획할 수 있다는 설명이 포함됨
  • 결과:
    • gpt-5.5 xhigh 완료된 4회 실행은 모두 reasoning_output_tokens = 516이었고, 최종 답 23, 26, 28, 15로 모두 오답
    • gpt-5.5 high 3회 실행도 모두 516이었고, 답은 22, 21, 27로 1회만 정답
    • gpt-5.4 xhigh 3회 실행은 6211, 12274, 10876 reasoning tokens를 사용했고 모두 21로 정답
  • 이 결과는 gpt-5.5가 Codex에서 고정 516-token 경로에 들어갈 수 있고, 그 경로가 작업 품질 저하와 상관될 수 있다는 좁은 주장에 힘을 보탬

임시 우회책 제안

  • dzshzx는 upstream fix를 기다리는 동안 Codex 앞단에 두는 로컬 Responses 프록시 codexcomp를 제안함
  • 동작 방식은 518·n−2 패턴을 절단으로 간주하고 추론을 이어가는 구조임
    • reasoning_tokens == 518·n − 2, 즉 516, 1034, 1552 등으로 끝난 round를 truncated로 처리
    • tentative output을 버리고, 해당 round의 reasoning items와 encrypted_content를 다음 입력으로 재생
    • phase:"commentary"와 "Continue thinking..." 메시지를 함께 넣음
    • 모든 round를 하나의 downstream response로 접어 Codex에는 완성된 답처럼 보이게 함
  • 설정은 공식 top-level openai_base_url 키를 사용함
    • 예: openai_base_url = "http://127.0.0.1:8787/v1";
    • built-in openai provider는 유지돼 session grouping, remote compaction, remote-control이 계속 동작한다고 함
  • 실제 로그 예시는 두 번 연속 516 이후 세 번째 round에서 clean 종료하고 최종 답이 맞은 사례를 제시함
    • round 1: reason=516 → continue
    • round 2: reason=516 → continue
    • round 3: reason=291 → clean
  • caveat:
    • 비공식 우회책이며 upstream의 비계약 동작에 의존함
    • continuation round는 추가 실제 토큰을 사용함
    • n window와 3-continuation cap으로 제한됨
    • loopback-only, auth passthrough이며 credentials를 읽거나 저장하지 않는다고 함
Read Entire Article