Kimi 벤더 검증기 - 추론 제공자의 정확성 검증
4 hours ago
1
- 오픈소스 모델 배포 이후 서로 다른 인프라에서 발생하는 추론 구현 편차를 검증해, 모델 자체 한계와 엔지니어링 오류를 구분할 수 있게 한 공개소스 도구
- 공식 API 기준으로 OCRBench 91.0, AIME2025 avg@32 98.4, MMMU Pro Vision 78.8를 제시하고, 각 평가의 Temperature, TopP, MaxTokens 설정과 K2VV 평가 결과 파일까지 함께 공개
- 커뮤니티에서 보고된 벤치마크 이상 징후를 조사한 결과 상당수가 디코딩 파라미터 오용에서 비롯됐고, Thinking 모드에서는 Temperature 1.0과 TopP 0.95 강제 및 콘텐츠 재전달 검증 적용
- 검증 절차는 파라미터 제약 확인을 위한 사전 검증 뒤 OCRBench, MMMU Pro, AIME2025, K2VV ToolCall, SWE-Bench 등을 사용해 Vision 전처리, 장문 출력, 도구 호출, agentic coding까지 점검하는 구조
- 전체 워크플로는 NVIDIA H20 8-GPU 서버 두 대에서 순차 실행 기준 약 15시간이 소요되며, 공개 리더보드와 조기 접근 제공을 통해 정확성 우선 검증 확산 추진
신뢰 사슬 재구축
- Kimi Vendor Verifier(KVV) 공개소스화와 함께, 오픈소스 모델 사용자가 추론 구현 정확성을 검증할 수 있도록 설계됨
- Kimi K2.6 모델 공개와 동시에 배포됐으며, 모델 공개만으로는 충분하지 않고 다양한 환경에서 올바르게 동작하는지 확인하는 과정이 필요함
- 오픈소스 모델 생태계에서 가중치 공개와 배포 경로 다양화가 진행될수록, 품질 통제 가능성이 낮아지는 구조 드러남
- 사용자가 모델 자체 성능 결함과 엔지니어링 구현 편차를 구분하지 못하면, 오픈소스 생태계에 대한 신뢰가 무너질 수 있음
해결 방식
-
개별 이상 징후에서 구조적 이슈로 확대
- K2 Thinking 공개 이후, 커뮤니티에서 벤치마크 점수 이상 현상 관련 피드백이 자주 접수됨
- 조사 결과 상당수 사례가 디코딩 파라미터 오용에서 비롯된 것으로 확인됨
- 즉각적 완화 조치로 API 수준 1차 방어선 구축
- Thinking 모드에서 Temperature=1.0, TopP=0.95 강제
- thinking 콘텐츠가 올바르게 다시 전달되는지 필수 검증 적용
- 특정 LiveBenchmark 평가에서 서드파티 API와 공식 API 사이에 큰 차이 관측됨
- 다양한 인프라 제공자를 광범위하게 테스트한 결과, 이런 차이가 광범위하게 존재함을 확인함
-
검증 절차와 운영
- 공식 API 기준 벤치마크 수치 공개
- OCRBench 정확도 91.0
- AIME2025 avg@32 98.4
- MMMU Pro Vision 정확도 78.8
- 평가 설정값 함께 명시
- 세 항목 모두 Temperature 1.0, TopP 0.95 사용
- MaxTokens는 OCRBench 16384, AIME2025 98304, MMMU Pro Vision 65536
- Kimi API K2VV 평가 결과 파일 링크 제공, F1 점수 계산 용도 명시
- Pre-Verification 단계 운영
- temperature, top_p 등 API 파라미터 제약이 올바르게 강제되는지 검증
- 모든 테스트 통과 후에만 벤치마크 평가 진행
- OCRBench 사용
- 멀티모달 파이프라인 대상 5분 스모크 테스트 역할
- MMMU Pro 사용
- 다양한 시각 입력 테스트를 통해 Vision 입력 전처리 검증
- AIME2025 사용
- 장문 출력 스트레스 테스트 역할
- 짧은 벤치마크로는 드러나지 않는 KV cache 버그와 양자화 성능 저하 포착
- K2VV ToolCall 사용
- 트리거 일관성(F1)과 JSON Schema 정확성 측정
- 에이전트에서 도구 오류 누적 전 조기 탐지
- SWE-Bench 사용
- 전체 agentic coding 테스트 역할
- sandbox 의존성 때문에 공개소스화하지 않음
- vLLM, SGLang, KTransformers 커뮤니티와 함께 작업
- 증상 탐지에 그치지 않고 근본 원인 수정 지향
- 배포 후 불만 접수를 기다리는 대신, 인프라 제공자에게 조기 접근 권한 제공
- 사용자가 문제를 겪기 전에 각 제공자가 자신의 스택을 검증할 수 있도록 구성
- 벤더 결과에 대한 공개 리더보드 지속 운영 예정
- 이런 투명성이 벤더의 정확성 우선순위 제고로 이어지도록 설계됨
- 전체 평가 워크플로 검증 완료
- NVIDIA H20 8-GPU 서버 두 대 사용
- 순차 실행 기준 약 15시간 소요
- 장시간 추론 시나리오에 맞춰 스크립트 최적화 적용
- 스트리밍 추론
- 자동 재시도
- 체크포인트 재개 메커니즘 포함
- 가중치가 공개된 만큼, 이를 올바르게 실행하는 지식 역시 공개돼야 한다는 원칙 명시
- 벤더 커버리지 확대와 더 가벼운 agentic 테스트 탐색 진행 중
- 연락처 contact-kvv@kimi.com 공개
-
Homepage
-
Tech blog
- Kimi 벤더 검증기 - 추론 제공자의 정확성 검증