Kimi 벤더 검증기 - 추론 제공자의 정확성 검증

4 hours ago 1

오픈소스 모델 배포 이후 서로 다른 인프라에서 발생하는 추론 구현 편차를 검증해, 모델 자체 한계와 엔지니어링 오류를 구분할 수 있게 한 공개소스 도구
공식 API 기준으로 OCRBench 91.0, AIME2025 avg@32 98.4, MMMU Pro Vision 78.8를 제시하고, 각 평가의 Temperature, TopP, MaxTokens 설정과 K2VV 평가 결과 파일까지 함께 공개
커뮤니티에서 보고된 벤치마크 이상 징후를 조사한 결과 상당수가 디코딩 파라미터 오용에서 비롯됐고, Thinking 모드에서는 Temperature 1.0과 TopP 0.95 강제 및 콘텐츠 재전달 검증 적용
검증 절차는 파라미터 제약 확인을 위한 사전 검증 뒤 OCRBench, MMMU Pro, AIME2025, K2VV ToolCall, SWE-Bench 등을 사용해 Vision 전처리, 장문 출력, 도구 호출, agentic coding까지 점검하는 구조
전체 워크플로는 NVIDIA H20 8-GPU 서버 두 대에서 순차 실행 기준 약 15시간이 소요되며, 공개 리더보드와 조기 접근 제공을 통해 정확성 우선 검증 확산 추진

신뢰 사슬 재구축

Kimi Vendor Verifier(KVV) 공개소스화와 함께, 오픈소스 모델 사용자가 추론 구현 정확성을 검증할 수 있도록 설계됨
Kimi K2.6 모델 공개와 동시에 배포됐으며, 모델 공개만으로는 충분하지 않고 다양한 환경에서 올바르게 동작하는지 확인하는 과정이 필요함
오픈소스 모델 생태계에서 가중치 공개와 배포 경로 다양화가 진행될수록, 품질 통제 가능성이 낮아지는 구조 드러남
사용자가 모델 자체 성능 결함과 엔지니어링 구현 편차를 구분하지 못하면, 오픈소스 생태계에 대한 신뢰가 무너질 수 있음

해결 방식

개별 이상 징후에서 구조적 이슈로 확대
- K2 Thinking 공개 이후, 커뮤니티에서 벤치마크 점수 이상 현상 관련 피드백이 자주 접수됨
- 조사 결과 상당수 사례가 디코딩 파라미터 오용에서 비롯된 것으로 확인됨
- 즉각적 완화 조치로 API 수준 1차 방어선 구축
  - Thinking 모드에서 Temperature=1.0, TopP=0.95 강제
  - thinking 콘텐츠가 올바르게 다시 전달되는지 필수 검증 적용
- 특정 LiveBenchmark 평가에서 서드파티 API와 공식 API 사이에 큰 차이 관측됨
- 다양한 인프라 제공자를 광범위하게 테스트한 결과, 이런 차이가 광범위하게 존재함을 확인함
검증 절차와 운영
- 공식 API 기준 벤치마크 수치 공개
  - OCRBench 정확도 91.0
  - AIME2025 avg@32 98.4
  - MMMU Pro Vision 정확도 78.8
- 평가 설정값 함께 명시
  - 세 항목 모두 Temperature 1.0, TopP 0.95 사용
  - MaxTokens는 OCRBench 16384, AIME2025 98304, MMMU Pro Vision 65536
- Kimi API K2VV 평가 결과 파일 링크 제공, F1 점수 계산 용도 명시
- Pre-Verification 단계 운영
  - temperature, top_p 등 API 파라미터 제약이 올바르게 강제되는지 검증
  - 모든 테스트 통과 후에만 벤치마크 평가 진행
- OCRBench 사용
  - 멀티모달 파이프라인 대상 5분 스모크 테스트 역할
- MMMU Pro 사용
  - 다양한 시각 입력 테스트를 통해 Vision 입력 전처리 검증
- AIME2025 사용
  - 장문 출력 스트레스 테스트 역할
  - 짧은 벤치마크로는 드러나지 않는 KV cache 버그와 양자화 성능 저하 포착
- K2VV ToolCall 사용
  - 트리거 일관성(F1)과 JSON Schema 정확성 측정
  - 에이전트에서 도구 오류 누적 전 조기 탐지
- SWE-Bench 사용
  - 전체 agentic coding 테스트 역할
  - sandbox 의존성 때문에 공개소스화하지 않음
- vLLM, SGLang, KTransformers 커뮤니티와 함께 작업
- 증상 탐지에 그치지 않고 근본 원인 수정 지향
- 배포 후 불만 접수를 기다리는 대신, 인프라 제공자에게 조기 접근 권한 제공
- 사용자가 문제를 겪기 전에 각 제공자가 자신의 스택을 검증할 수 있도록 구성
- 벤더 결과에 대한 공개 리더보드 지속 운영 예정
- 이런 투명성이 벤더의 정확성 우선순위 제고로 이어지도록 설계됨
- 전체 평가 워크플로 검증 완료
  - NVIDIA H20 8-GPU 서버 두 대 사용
  - 순차 실행 기준 약 15시간 소요
- 장시간 추론 시나리오에 맞춰 스크립트 최적화 적용
  - 스트리밍 추론
  - 자동 재시도
  - 체크포인트 재개 메커니즘 포함
- 가중치가 공개된 만큼, 이를 올바르게 실행하는 지식 역시 공개돼야 한다는 원칙 명시
- 벤더 커버리지 확대와 더 가벼운 agentic 테스트 탐색 진행 중
- 연락처 contact-kvv@kimi.com 공개