Tokenmaxxing은 죽었다, Tokenmaxxing 만세

8 hours ago 3
  • 기업의 AI 도입 초기에 토큰 사용량을 성과 평가와 연결한 tokenmaxxing은 무의미한 비용을 만들었지만, AI 도구 사용을 조직에 강제로 퍼뜨리는 역할도 했음
  • Meta에서는 개인별 토큰 사용량이 평가와 연결되자, 토큰 수치를 올리기 위해 두 에이전트를 하루 종일 대화시키는 식의 형식적 사용까지 나타남
  • 과거 장시간 에이전트 실행은 작은 오류가 쌓이는 누적 오류(compounding error) 때문에 위험했지만, 최근에는 더 많은 토큰이 더 나은 결과를 만드는 누적 정확성(compounding correctness) 흐름이 부상함
  • 보안 분야에서는 Mythos 같은 모델에 큰 토큰 예산을 투입해 취약점을 찾는 방식이 등장했고, 방어자가 공격자보다 더 많은 계산을 써야 하는 구조가 만들어지고 있음
  • 앞으로는 비싼 최상위 모델에 무제한 지출하기보다, 저렴한 오픈 모델을 루프로 더 많이 돌리는 방식이 tokenmaxxing의 실용적 중심이 될 수 있음

무의미한 토큰 소모로 시작된 tokenmaxxing

  • tokenmaxxing은 임원이 직원들에게 많은 토큰을 쓰도록 유도하면서, 실제 가치가 낮은 작업에도 토큰이 소모되는 현상을 가리킴
  • 대표 사례로 Meta는 성과 평가를 개인별 토큰 사용량과 연결했다는 비판을 받음
    • 한 Meta 직원은 토큰 수치를 올리기 위해 두 에이전트를 하루 종일 서로 대화하게 했다고 전함
  • 겉으로는 경영진이 수익 없이 비용만 태우는 것처럼 보였지만, AI 도구 사용을 강제로 확산하려는 정책으로도 볼 수 있음
  • 몇 달 전만 해도 조직 안에는 AI 도구 사용을 강하게 거부하는 시니어 인력이 많았고, 설득에 성공해도 도구를 이상하거나 나쁜 결과가 나오기 쉬운 방식으로 쓰는 일이 있었음
  • 이런 상황에서 위에서 내려오는 토큰 사용 압박은 벽을 뚫기 위한 둔탁한 강제 수단으로 작동함

비용 압박으로 끝난 첫 번째 무제한 사용 정책

  • tokenmaxxing 정책은 일정 부분 효과를 냈고, 지금은 거의 모든 팀이 최소한 조금은 AI로 코딩하는 상태가 됨
  • 많은 팀은 아직 Ramp Inspect나 Stripe Minions 같은 자체 시스템을 만들지는 못했지만, 기본적으로 Cursor를 사이드바에서 쓰는 수준에는 도달함
  • 토큰 사용량이 크게 늘어난 가운데 OpenAI와 Anthropic은 상장을 추진하는 상황에서 구독 제공량을 제한하고 API 가격을 올림
  • 토큰 보조금도 줄어들면서, 무제한 토큰 사용 정책을 되돌리는 팀이 생김
  • 기존 의미의 무제한 tokenmaxxing은 비용 검토를 버티기 어려운 단계에 가까워짐

누적 오류에서 누적 정확성으로

  • AI 도구의 기대는 사람이 계속 감독하지 않아도 어렵고 지루한 작업을 처리하게 하는 데 있음
    • 대규모 코드 마이그레이션
    • 매일 아침 경쟁사 조사
    • 인바운드와 아웃바운드 흐름 처리
  • 과거에는 AI를 오래 실행할수록 모델의 작은 오류와 환각이 프로젝트 안에 쌓여 되돌리기 어려워졌음
  • 이 현상은 누적 오류(compounding error) 로 불렸고, 사람의 감독이 많이 필요했기 때문에 에이전트를 24시간 돌릴 이유도 적었음
  • 지금은 더 많은 토큰을 쓰면 정답 가능성이 높아지는 누적 정확성(compounding correctness) 환경으로 바뀌고 있음
  • 토큰 지출이 결과 품질과 연결된다면, 다시 토큰을 많이 쓰려는 인센티브가 생김

보안 분야에서 먼저 보이는 토큰 예산 경쟁

  • 사이버 보안에서는 이미 토큰 지출이 성과와 직접 연결되는 사례가 나타남
  • Cybersecurity is Proof of Work Now는 Anthropic의 Mythos를 예로 들며, 시스템을 강화하려면 공격자가 악용에 쓰는 것보다 더 많은 토큰을 취약점 발견에 써야 한다고 봄
  • AISI는 Mythos 시도 1회당 100M 토큰을 예산으로 잡았고, 이는 시도당 $12,500, 10회 실행에 $125,000 규모임
  • 100M 토큰 예산을 받은 모델들은 수익 체감 징후를 보이지 않았고, AISI는 테스트된 토큰 예산 범위에서 모델들이 예산이 늘수록 계속 진전했다고 밝힘
  • 이 구조에서는 영리함보다 계산 작업량과 지불 가능한 토큰 예산이 더 중요해짐

루프와 장시간 에이전트 실행

  • Boris Cherny가 Claude Code 무대에서 말한 loops에 대한 관심도 같은 흐름과 연결됨
  • loops의 기본 구조는 에이전트가 자기 턴을 끝낼 때까지 실행한 뒤, 끝나면 같은 프롬프트를 다시 시작하는 방식임
  • 무거운 명세를 자동으로 나누고, 에이전트가 시간이 지나며 부분별로 해결하게 만들 수 있음
  • 이 개념은 새로운 것은 아니며, 지난해 7월부터 있었고 한때 “Ralph Wiggum loop”라고 불림
  • 예전에는 프롬프트 설계와 에이전트 동작에 대한 깊은 이해가 필요했지만, 누적 정확성 덕분에 반복할수록 더 나아지는 근사적 결과를 기대하기 쉬워짐

오픈 모델이 만드는 비용 대비 반복 실행

  • 장기적으로 tokenmaxxing의 승자는 오픈 모델 플랫폼일 수 있음
  • 최상위 연구소 모델에 토큰을 대량 지출하는 방식은 CFO 검토를 통과하기 어려움
  • 오픈 모델이 좋아질수록, 저렴한 모델을 루프 안에서 더 많이 돌리는 방식이 매력적이 됨
  • 예를 들어 Claude가 반복당 1.1배 개선을 주고 GLM 5.2가 1.05배 개선을 주지만 비용이 약 5분의 1이라면, GLM 5.2 루프를 5배 더 돌리는 편이 더 나을 수 있음
  • “Other things” 섹션에서도 GLM 5.2는 최첨단은 아니지만 frontier 모델보다 훨씬 저렴하다고 평가됨
    • GLM 5.2: 입력 100만 토큰당 약 $1.4, 출력 100만 토큰당 약 $4
    • Opus 4.X 시리즈: 입력 100만 토큰당 $5, 출력 100만 토큰당 $25
    • Haiku 4.5: 입력 100만 토큰당 $1, 출력 100만 토큰당 $5
    • GLM 5.2는 Haiku보다 강하고, 일부 벤치마크에서는 GPT 5.5보다 강한 경우도 있다고 함

개발자용 지출과 파이프라인용 지출의 차이

  • tokenmaxxing에는 서로 다른 두 형태가 있음
  • 첫 번째는 개발자용 토큰 지출
    • 개발자가 Claude Code 같은 도구를 쓰고 loops를 실행하며 많은 토큰을 소비함
    • 엔지니어 생산성을 높인다면 좋은 지출이 될 수 있음
  • 두 번째는 파이프라인용 토큰 지출
    • 개발자는 여전히 손으로 코드를 쓰고, 그 코드로 특정 작업을 위한 일회성 에이전트를 만듦
    • 이 에이전트들은 비결정적이고 취약한 방식으로 동작하면서 많은 토큰을 소비함
    • 파이프라인이 실제로 작동할 때만 좋은 지출이지만, 그런 에이전트들은 결정적 파이프라인만큼 정확하지 않았음
  • 환각 비용을 줄이려 품질 확인 에이전트를 추가하고, 그 확인 에이전트의 오류를 잡기 위해 또 다른 에이전트를 붙이면 토큰 비용이 3배가 됨
  • 일회성 파이프라인형 도구는 특정 작업용 에이전트보다, 특정 작업에 맞춘 외피를 씌운 범용 플랫폼으로 처리되는 흐름이 커지고 있음

소프트웨어 팩토리와 극단적 토큰 지출

  • 자연스러운 종착점은 소프트웨어 팩토리, 더 나아가 다크 팩토리
  • 이 구조에서는 코드베이스가 사람의 감독 없이 코드를 만들고, 리뷰하고, 버그를 고치고, 테스트를 작성함
  • 사람은 명세를 넣고 애플리케이션을 받는 역할만 맡음
  • StrongDM의 소프트웨어 팩토리는 이 방향을 극단까지 밀고 나간 사례로 언급됨
  • StrongDM 쪽은 엔지니어가 하루 $1000의 토큰을 쓰는 것을 목표로 해야 한다고 주장했지만, 이는 과장과 홍보 성격이 강하다고 평가됨
  • 자체 소프트웨어 팩토리는 월 $600 정도를 쓴다고 하며, 지금 엔지니어 1명당 시니어 Google 엔지니어 수준의 비용을 토큰에 쓰는 것은 과하다고 봄
  • 다만 토큰에 큰돈을 쓰려는 인센티브는 잠재적으로 존재하며, 아직 확산을 기다리는 상태임
Read Entire Article