MiMo-V2.5-Pro-UltraSpeed: 초당 1000토큰을 생성하는 1T 모델

4 days ago 6
  • 1조(1T) 파라미터 모델에서 디코딩 속도 1000 tokens/s를 처음으로 돌파한 모델
  • 전용 하드웨어가 아닌 commodity GPU만으로 속도를 달성했으며, 단일 표준 8-GPU 노드에서 1000+ tps 출력 구현
  • FP4 양자화DFlash speculative decoding을 결합한 모델-시스템 codesign이 핵심 기술
  • API는 신청 기반·기간 한정으로 제공되며, 3배 가격에 약 10배 생성 속도를 표방
  • 1000 tps 돌파는 단순 속도 향상이 아니라 Coding Agent·실시간 의사결정 등 AI 응용 패러다임 자체를 바꾸는 전환점

Xiaomi MiMo-V2.5-Pro-UltraSpeed 출시

  • TileRT와 협업해 1조 파라미터 모델에서 디코딩 속도 1000 tokens/s를 처음 돌파, 실시간 응답과 즉각적 반복이 가능한 수준의 속도 제공
  • 실시간 생성 속도 비교에서 최대 약 1200 tokens/s 도달
  • 모델이 충분히 빨라지면 기다리는 도구가 아니라 사고의 연장(extension of thinking)으로 작동한다는 관점 제시

기간 한정 · 신청 기반 제공

  • API는 한정 프로모션 가격으로 출시, MiMo-V2.5-Pro 대비 3배 비용에 약 10배 생성 속도 제공 (API 전용, Token Plan 미지원)
  • 고속 추론 리소스 제약으로 신청 기반·기간 한정 운영, 승인 사용자만 2026년 6월 9일~6월 23일 23:59 (UTC+8) 동안 API 이용 가능
  • 신청 방법

    • API 플랫폼은 platform.xiaomimimo.com/ultraspeed, 신청해도 승인 보장되지 않으며 실제 비즈니스 수요가 있는 기업·전문 개발자 우선
    • 표준 모델 접근은 MiMo-V2.5 시리즈를 통해 제공
  • Chat 체험 (트라이얼 중 무료)

    • 승인 사용자에게 2주간 무료 Chat 접근 제공, 진입점은 ultraspeed.xiaomimimo.com
    • 계정당 하루 최대 10회 대기열 진입, 세션당 최대 30분, 5분 이상 유휴 시 자동 해제

1000 tokens/s — 속도를 넘어선 패러다임 전환

  • 1T 규모에서 1000 tps 돌파는 단순히 빠른 타자기가 아니라 AI 응용 패러다임 자체를 근본적으로 흔드는 변화
  • 속도가 곧 지능으로 전환

    • 동일한 실제 시간(wall-clock) 내에서 수십 개의 추론 경로를 병렬 실행(Best-of-N / Tree Search), 백그라운드에서 자동 검증·자가 수정해 추론 품질 직접 향상
  • Coding Agent의 생산성 한계 해제

    • 기존에는 추론 지연(inference latency)이 병목이라 개발자가 화면 앞에서 대기, 1000 tps에서는 코드 생성 속도와 생산 효율이 패러다임 수준으로 가속
  • 실시간 의사결정 루프 진입

    • 밀리초 단위 "think-respond" 사이클로 1T 플래그십 모델이 고빈도 퀀트 트레이딩 신호 생성, 즉시 이상거래 차단, 지능형 입찰, 실시간 대화 등 시간 민감 시나리오에 결합 가능
    • 수술 보조·의료 영상 분석 같은 생사 상황에 적용 시, 병변 분석·위험 예측을 단축한 매 초가 외과의에게 추가 자유도를 부여한다는 관점 제시

극한의 모델-시스템 Codesign

  • 1T 모델에서 1000+ tps는 단일 기법이 아니라 MiMo 모델 팀과 TileRT 시스템 팀의 극한 codesign 결과물

  • 유사 속도를 위해 업계가 흔히 의존하는 전용 하드웨어(Cerebras의 Wafer-Scale, Groq의 on-chip SRAM 커스텀 아키텍처)와 달리, commodity GPU에서 모델-시스템 codesign만으로 달성

  • 모델 측은 대역폭 병목을 겨냥한 FP4 양자화로 모델 크기·메모리 접근 부담 축소, 동시에 블록 단위 마스킹 병렬 예측 기반 DFlash 도입으로 검증 단계당 수용 토큰 길이 증가

  • 시스템 측 TileRT는 해당 알고리듬 특성에 맞춘 컴파일 엔진과 연산 커널 제공, 단일 표준 8-GPU commodity 노드에서 1000+ tps 출력 실현

  • 3.1 FP4 Quantization

    • 1T 규모에서 기존 8비트(FP8/INT8)·16비트 추론은 메모리 점유와 대역폭 압박이 과도, 비트 폭 축소가 디코딩 속도에 직접 기여
    • 검증된 사실상 무손실 FP4(MXFP4) 포맷 채택, 전체 모델에 단순 적용 시 복잡한 추론·논리·코드 생성에서 성능 저하 발생
    • MoE(Mixture of Experts) 아키텍처에서 파라미터 대부분을 차지하고 양자화 내성이 가장 높은 Experts만 선택적으로 FP4로 양자화, 그 외 모듈은 원래 정밀도 유지
    • FP4 QAT(Quantization-Aware Training) 로 모델 크기 축소·하드웨어 대역폭 활용 극대화, 전반적 성능은 원본과 사실상 동등 수준 유지
  • 3.2 DFlash Speculative Decoding

    • 전통 speculative decoding은 작은 draft 모델이 후속 토큰을 추측하고 대형 모델이 검증하는 방식, draft 품질이 수용률을 좌우하지만 강한 draft일수록 연산 비용 증가라는 본질적 긴장 존재
    • DFlash는 draft 모델이 단일 forward pass로 마스킹된 블록 전체를 채워 "autoregressive drafting"의 직렬 제약 제거
    • Muon 2차 최적화기와 모델 self-distillation을 사용해 draft 단계 오버헤드를 이론적 최소치 근처까지 압축
      • draft 모델은 Sliding Window Attention(SWA) 만 사용, MiMo-V2 시리즈의 SWA 설계와 자연스럽게 정렬되고 완전한 prefix 의존 제거로 예측당 연산을 context 길이 비례에서 상수로 축소
      • 학습 시 mask-signal 샘플링을 GPU-local 샤드로 내려, 단일 시퀀스가 한 스텝에서 수만 개 독립 학습 신호 생성하면서 디바이스 간 통신 오버헤드 회피
    • 블록 크기를 8로 제한해 검증 오버헤드 축소·동시성 증가, 높은 수용 길이가 곧바로 높은 추론 처리량으로 전환
    • 시나리오별 평균 수용 길이(Acceptance Length)
      • Coding 6.30 (일부 샘플 최대 7.14, 8개 draft 토큰 중 6~7개 수용)
      • Math / Reasoning 5.56
      • Agent 4.29
    • 의미적으로 더 분산되고 불확실성이 높은 일반 대화 시나리오에서는 현재 수용률이 아직 낮아 지속 최적화 진행 중
  • 3.3 TileRT 초저지연 추론 커널 / 시스템

    • 1000 tokens/s 동작 주파수에서 각 연산자의 수명이 마이크로초 단위로 압축, 전통 추론 시스템의 "operator boundaries"가 핵심 병목으로 부상
    • 연산자 실행 시작·하드웨어 동기화·전역 메모리 왕복마다 실행 흐름이 끊겨 가시적 "Execution Gaps" 발생
    • TileRT의 패러다임급 실행 모델 혁신

      • Persistent Engine Kernel: 연산자별 실행 시작 방식 폐기, 전체 연산 파이프라인을 GPU 내부에 상시 상주·흐르게 유지해 데이터 이동과 연산의 극한 중첩(overlap) 달성
      • Warp Specialization(이기종 파이프라인 협업): Tile 수준에서 통신·데이터 이동·텐서 연산을 더 세밀하게 물리적 분해, 동질적 lock-step 모델을 깨고 GPU를 정밀 조율된 이기종 실행 시스템으로 전환
    • 마이크로초 단위 하드웨어-소프트웨어 심층 융합 (Codesign)

      • 모델 계층은 MoE Experts 혼합 FP4 양자화와 1조 파라미터 아키텍처용 SWA 정렬 DFlash speculative decoding 채택, TileRT는 이 알고리듬 특성·양자화 방식과 긴밀히 결합해 맞춤형 컴파일 엔진·연산 커널 제공
      • 두 팀이 하드웨어 물리에 기반한 공동 엔지니어링 트레이드오프를 통해 실행 압력을 하드웨어 경계 안에서 부드럽게 수렴
      • TileRT는 차세대 AI 인프라·초저지연 추론에 집중하는 시스템 아키텍처 팀으로, persistent kernel·tile 파이프라인·이기종 협업의 풀스택 돌파로 복잡한 이기종 환경에서 극한의 연산 활용 달성

추가 데모 영상

  • 10초 만에 Snake 게임을 만드는 데모
  • MacOS 인터페이스를 1분만에 재생성하는 데모

오픈소스 및 전망

  • HuggingFace에 MiMo-V2.5-Pro-FP4-DFlash 체크포인트 오픈소스 공개, FP4 양자화 가중치와 DFlash 모델 파라미터 포함
  • MiMo-V2.5에 대한 UltraSpeed 지원 준비 중
Read Entire Article