MiMo-V2.5-Pro-UltraSpeed: 초당 1000토큰을 생성하는 1T 모델

4 days ago 6

1조(1T) 파라미터 모델에서 디코딩 속도 1000 tokens/s를 처음으로 돌파한 모델
전용 하드웨어가 아닌 commodity GPU만으로 속도를 달성했으며, 단일 표준 8-GPU 노드에서 1000+ tps 출력 구현
FP4 양자화와 DFlash speculative decoding을 결합한 모델-시스템 codesign이 핵심 기술
API는 신청 기반·기간 한정으로 제공되며, 3배 가격에 약 10배 생성 속도를 표방
1000 tps 돌파는 단순 속도 향상이 아니라 Coding Agent·실시간 의사결정 등 AI 응용 패러다임 자체를 바꾸는 전환점

Xiaomi MiMo-V2.5-Pro-UltraSpeed 출시

TileRT와 협업해 1조 파라미터 모델에서 디코딩 속도 1000 tokens/s를 처음 돌파, 실시간 응답과 즉각적 반복이 가능한 수준의 속도 제공
실시간 생성 속도 비교에서 최대 약 1200 tokens/s 도달
모델이 충분히 빨라지면 기다리는 도구가 아니라 사고의 연장(extension of thinking)으로 작동한다는 관점 제시

기간 한정 · 신청 기반 제공

API는 한정 프로모션 가격으로 출시, MiMo-V2.5-Pro 대비 3배 비용에 약 10배 생성 속도 제공 (API 전용, Token Plan 미지원)
고속 추론 리소스 제약으로 신청 기반·기간 한정 운영, 승인 사용자만 2026년 6월 9일~6월 23일 23:59 (UTC+8) 동안 API 이용 가능
신청 방법
- API 플랫폼은 platform.xiaomimimo.com/ultraspeed, 신청해도 승인 보장되지 않으며 실제 비즈니스 수요가 있는 기업·전문 개발자 우선
- 표준 모델 접근은 MiMo-V2.5 시리즈를 통해 제공
Chat 체험 (트라이얼 중 무료)
- 승인 사용자에게 2주간 무료 Chat 접근 제공, 진입점은 ultraspeed.xiaomimimo.com
- 계정당 하루 최대 10회 대기열 진입, 세션당 최대 30분, 5분 이상 유휴 시 자동 해제

1000 tokens/s — 속도를 넘어선 패러다임 전환

1T 규모에서 1000 tps 돌파는 단순히 빠른 타자기가 아니라 AI 응용 패러다임 자체를 근본적으로 흔드는 변화
속도가 곧 지능으로 전환
- 동일한 실제 시간(wall-clock) 내에서 수십 개의 추론 경로를 병렬 실행(Best-of-N / Tree Search), 백그라운드에서 자동 검증·자가 수정해 추론 품질 직접 향상
Coding Agent의 생산성 한계 해제
- 기존에는 추론 지연(inference latency)이 병목이라 개발자가 화면 앞에서 대기, 1000 tps에서는 코드 생성 속도와 생산 효율이 패러다임 수준으로 가속
실시간 의사결정 루프 진입
- 밀리초 단위 "think-respond" 사이클로 1T 플래그십 모델이 고빈도 퀀트 트레이딩 신호 생성, 즉시 이상거래 차단, 지능형 입찰, 실시간 대화 등 시간 민감 시나리오에 결합 가능
- 수술 보조·의료 영상 분석 같은 생사 상황에 적용 시, 병변 분석·위험 예측을 단축한 매 초가 외과의에게 추가 자유도를 부여한다는 관점 제시

극한의 모델-시스템 Codesign

1T 모델에서 1000+ tps는 단일 기법이 아니라 MiMo 모델 팀과 TileRT 시스템 팀의 극한 codesign 결과물
유사 속도를 위해 업계가 흔히 의존하는 전용 하드웨어(Cerebras의 Wafer-Scale, Groq의 on-chip SRAM 커스텀 아키텍처)와 달리, commodity GPU에서 모델-시스템 codesign만으로 달성
모델 측은 대역폭 병목을 겨냥한 FP4 양자화로 모델 크기·메모리 접근 부담 축소, 동시에 블록 단위 마스킹 병렬 예측 기반 DFlash 도입으로 검증 단계당 수용 토큰 길이 증가
시스템 측 TileRT는 해당 알고리듬 특성에 맞춘 컴파일 엔진과 연산 커널 제공, 단일 표준 8-GPU commodity 노드에서 1000+ tps 출력 실현
3.1 FP4 Quantization
- 1T 규모에서 기존 8비트(FP8/INT8)·16비트 추론은 메모리 점유와 대역폭 압박이 과도, 비트 폭 축소가 디코딩 속도에 직접 기여
- 검증된 사실상 무손실 FP4(MXFP4) 포맷 채택, 전체 모델에 단순 적용 시 복잡한 추론·논리·코드 생성에서 성능 저하 발생
- MoE(Mixture of Experts) 아키텍처에서 파라미터 대부분을 차지하고 양자화 내성이 가장 높은 Experts만 선택적으로 FP4로 양자화, 그 외 모듈은 원래 정밀도 유지
- FP4 QAT(Quantization-Aware Training) 로 모델 크기 축소·하드웨어 대역폭 활용 극대화, 전반적 성능은 원본과 사실상 동등 수준 유지
3.2 DFlash Speculative Decoding
- 전통 speculative decoding은 작은 draft 모델이 후속 토큰을 추측하고 대형 모델이 검증하는 방식, draft 품질이 수용률을 좌우하지만 강한 draft일수록 연산 비용 증가라는 본질적 긴장 존재
- DFlash는 draft 모델이 단일 forward pass로 마스킹된 블록 전체를 채워 "autoregressive drafting"의 직렬 제약 제거
- Muon 2차 최적화기와 모델 self-distillation을 사용해 draft 단계 오버헤드를 이론적 최소치 근처까지 압축
  - draft 모델은 Sliding Window Attention(SWA) 만 사용, MiMo-V2 시리즈의 SWA 설계와 자연스럽게 정렬되고 완전한 prefix 의존 제거로 예측당 연산을 context 길이 비례에서 상수로 축소
  - 학습 시 mask-signal 샘플링을 GPU-local 샤드로 내려, 단일 시퀀스가 한 스텝에서 수만 개 독립 학습 신호 생성하면서 디바이스 간 통신 오버헤드 회피
- 블록 크기를 8로 제한해 검증 오버헤드 축소·동시성 증가, 높은 수용 길이가 곧바로 높은 추론 처리량으로 전환
- 시나리오별 평균 수용 길이(Acceptance Length)
  - Coding 6.30 (일부 샘플 최대 7.14, 8개 draft 토큰 중 6~7개 수용)
  - Math / Reasoning 5.56
  - Agent 4.29
- 의미적으로 더 분산되고 불확실성이 높은 일반 대화 시나리오에서는 현재 수용률이 아직 낮아 지속 최적화 진행 중
3.3 TileRT 초저지연 추론 커널 / 시스템
- 1000 tokens/s 동작 주파수에서 각 연산자의 수명이 마이크로초 단위로 압축, 전통 추론 시스템의 "operator boundaries"가 핵심 병목으로 부상
- 연산자 실행 시작·하드웨어 동기화·전역 메모리 왕복마다 실행 흐름이 끊겨 가시적 "Execution Gaps" 발생
- TileRT의 패러다임급 실행 모델 혁신
  - Persistent Engine Kernel: 연산자별 실행 시작 방식 폐기, 전체 연산 파이프라인을 GPU 내부에 상시 상주·흐르게 유지해 데이터 이동과 연산의 극한 중첩(overlap) 달성
  - Warp Specialization(이기종 파이프라인 협업): Tile 수준에서 통신·데이터 이동·텐서 연산을 더 세밀하게 물리적 분해, 동질적 lock-step 모델을 깨고 GPU를 정밀 조율된 이기종 실행 시스템으로 전환
- 마이크로초 단위 하드웨어-소프트웨어 심층 융합 (Codesign)
  - 모델 계층은 MoE Experts 혼합 FP4 양자화와 1조 파라미터 아키텍처용 SWA 정렬 DFlash speculative decoding 채택, TileRT는 이 알고리듬 특성·양자화 방식과 긴밀히 결합해 맞춤형 컴파일 엔진·연산 커널 제공
  - 두 팀이 하드웨어 물리에 기반한 공동 엔지니어링 트레이드오프를 통해 실행 압력을 하드웨어 경계 안에서 부드럽게 수렴
  - TileRT는 차세대 AI 인프라·초저지연 추론에 집중하는 시스템 아키텍처 팀으로, persistent kernel·tile 파이프라인·이기종 협업의 풀스택 돌파로 복잡한 이기종 환경에서 극한의 연산 활용 달성