Kimi 벤더 검증기 - 추론 제공자의 정확성 검증

4 hours ago 1
  • 오픈소스 모델 배포 이후 서로 다른 인프라에서 발생하는 추론 구현 편차를 검증해, 모델 자체 한계와 엔지니어링 오류를 구분할 수 있게 한 공개소스 도구
  • 공식 API 기준으로 OCRBench 91.0, AIME2025 avg@32 98.4, MMMU Pro Vision 78.8를 제시하고, 각 평가의 Temperature, TopP, MaxTokens 설정과 K2VV 평가 결과 파일까지 함께 공개
  • 커뮤니티에서 보고된 벤치마크 이상 징후를 조사한 결과 상당수가 디코딩 파라미터 오용에서 비롯됐고, Thinking 모드에서는 Temperature 1.0과 TopP 0.95 강제 및 콘텐츠 재전달 검증 적용
  • 검증 절차는 파라미터 제약 확인을 위한 사전 검증 뒤 OCRBench, MMMU Pro, AIME2025, K2VV ToolCall, SWE-Bench 등을 사용해 Vision 전처리, 장문 출력, 도구 호출, agentic coding까지 점검하는 구조
  • 전체 워크플로는 NVIDIA H20 8-GPU 서버 두 대에서 순차 실행 기준 약 15시간이 소요되며, 공개 리더보드와 조기 접근 제공을 통해 정확성 우선 검증 확산 추진

신뢰 사슬 재구축

  • Kimi Vendor Verifier(KVV) 공개소스화와 함께, 오픈소스 모델 사용자가 추론 구현 정확성을 검증할 수 있도록 설계됨
  • Kimi K2.6 모델 공개와 동시에 배포됐으며, 모델 공개만으로는 충분하지 않고 다양한 환경에서 올바르게 동작하는지 확인하는 과정이 필요함
  • 오픈소스 모델 생태계에서 가중치 공개와 배포 경로 다양화가 진행될수록, 품질 통제 가능성이 낮아지는 구조 드러남
  • 사용자가 모델 자체 성능 결함엔지니어링 구현 편차를 구분하지 못하면, 오픈소스 생태계에 대한 신뢰가 무너질 수 있음

해결 방식

  • 개별 이상 징후에서 구조적 이슈로 확대

    • K2 Thinking 공개 이후, 커뮤니티에서 벤치마크 점수 이상 현상 관련 피드백이 자주 접수됨
    • 조사 결과 상당수 사례가 디코딩 파라미터 오용에서 비롯된 것으로 확인됨
    • 즉각적 완화 조치로 API 수준 1차 방어선 구축
      • Thinking 모드에서 Temperature=1.0, TopP=0.95 강제
      • thinking 콘텐츠가 올바르게 다시 전달되는지 필수 검증 적용
    • 특정 LiveBenchmark 평가에서 서드파티 API와 공식 API 사이에 큰 차이 관측됨
    • 다양한 인프라 제공자를 광범위하게 테스트한 결과, 이런 차이가 광범위하게 존재함을 확인함
  • 검증 절차와 운영

    • 공식 API 기준 벤치마크 수치 공개
      • OCRBench 정확도 91.0
      • AIME2025 avg@32 98.4
      • MMMU Pro Vision 정확도 78.8
    • 평가 설정값 함께 명시
      • 세 항목 모두 Temperature 1.0, TopP 0.95 사용
      • MaxTokens는 OCRBench 16384, AIME2025 98304, MMMU Pro Vision 65536
    • Kimi API K2VV 평가 결과 파일 링크 제공, F1 점수 계산 용도 명시
    • Pre-Verification 단계 운영
      • temperature, top_p 등 API 파라미터 제약이 올바르게 강제되는지 검증
      • 모든 테스트 통과 후에만 벤치마크 평가 진행
    • OCRBench 사용
      • 멀티모달 파이프라인 대상 5분 스모크 테스트 역할
    • MMMU Pro 사용
      • 다양한 시각 입력 테스트를 통해 Vision 입력 전처리 검증
    • AIME2025 사용
      • 장문 출력 스트레스 테스트 역할
      • 짧은 벤치마크로는 드러나지 않는 KV cache 버그양자화 성능 저하 포착
    • K2VV ToolCall 사용
      • 트리거 일관성(F1)과 JSON Schema 정확성 측정
      • 에이전트에서 도구 오류 누적 전 조기 탐지
    • SWE-Bench 사용
      • 전체 agentic coding 테스트 역할
      • sandbox 의존성 때문에 공개소스화하지 않음
    • vLLM, SGLang, KTransformers 커뮤니티와 함께 작업
    • 증상 탐지에 그치지 않고 근본 원인 수정 지향
    • 배포 후 불만 접수를 기다리는 대신, 인프라 제공자에게 조기 접근 권한 제공
    • 사용자가 문제를 겪기 전에 각 제공자가 자신의 스택을 검증할 수 있도록 구성
    • 벤더 결과에 대한 공개 리더보드 지속 운영 예정
    • 이런 투명성이 벤더의 정확성 우선순위 제고로 이어지도록 설계됨
    • 전체 평가 워크플로 검증 완료
      • NVIDIA H20 8-GPU 서버 두 대 사용
      • 순차 실행 기준 약 15시간 소요
    • 장시간 추론 시나리오에 맞춰 스크립트 최적화 적용
      • 스트리밍 추론
      • 자동 재시도
      • 체크포인트 재개 메커니즘 포함
    • 가중치가 공개된 만큼, 이를 올바르게 실행하는 지식 역시 공개돼야 한다는 원칙 명시
    • 벤더 커버리지 확대와 더 가벼운 agentic 테스트 탐색 진행 중
    • 연락처 contact-kvv@kimi.com 공개
Read Entire Article