Kimi K2.6 공개 - 오픈소스 코딩의 발전

4 hours ago 1
  • 장기 구간 코딩과 에이전트형 작업에서 성능을 끌어올린 모델로, 여러 언어와 프런트엔드·devops·성능 최적화 전반에서 일반화 성능 강화
  • 복잡한 엔지니어링 작업을 지속 실행형 코딩으로 처리하며, 수천 회 도구 호출과 12시간 이상 연속 실행을 거쳐 Zig 추론 최적화와 exchange-core 전면 개편에서 큰 폭의 처리량 향상 기록
  • 단순 프롬프트를 완전한 프런트엔드 인터페이스로 바꾸고 이미지·영상 생성 도구까지 활용하며, 인증·데이터베이스 작업을 포함한 간단한 풀스택 워크플로우 지원
  • Agent Swarm 구조를 300개 서브에이전트와 4,000개 조정 단계 규모로 확장해 검색·리서치·문서 작성·파일 생성 작업을 병렬 실행하고, PDF·슬라이드·스프레드시트·Word 문서의 형식과 스타일을 재사용 가능한 skills로 전환
  • 능동형 에이전트와 Claw Groups까지 범위를 넓혀 장시간 자율 운영, 다중 에이전트 협업, 작업 재할당을 수행하며, 벤치마크와 기업 베타 테스트에서 코딩·도구 호출·장기 실행 신뢰성 개선 확인

장기 구간 코딩

  • 장기 구간 코딩 작업에서 성능 향상 확인, Rust·Go·Python 같은 여러 언어와 프런트엔드·devops·성능 최적화 같은 여러 작업 전반에서 일반화 성능 강화
    • 내부 코딩 벤치마크인 Kimi Code Bench에서 복잡한 엔드투엔드 작업 전반을 대상으로 Kimi K2.5 대비 큰 폭의 개선 기록
  • 복잡한 엔지니어링 작업에서 지속 실행형 코딩 수행
    • Mac 로컬 환경에 Qwen3.5-0.8B 모델 다운로드와 배포 성공
    • 비교적 특수한 언어인 Zig로 모델 추론을 구현하고 최적화, 분포 밖 일반화 성능 입증
    • 4,000회 이상 도구 호출, 12시간 이상 연속 실행, 14회 반복을 거쳐 처리량을 약 15 tokens/sec에서 약 193 tokens/sec로 끌어올림
    • 최종 속도는 LM Studio 대비 약 20% 빠름
  • 8년 된 오픈소스 금융 매칭 엔진 exchange-core 전면 개편 수행
    • 13시간 실행 동안 12개 최적화 전략 반복, 1,000회 이상 도구 호출로 4,000줄 이상 코드를 정밀 수정
    • CPU 및 메모리 할당 flame graph 분석으로 숨은 병목 식별
    • 코어 스레드 토폴로지를 4ME+2RE에서 2ME+1RE로 재구성
    • 이미 성능 한계에 근접한 엔진에서 중간 처리량 185% 상승(0.43→1.24 MT/s), 성능 처리량 133% 상승(1.23→2.86 MT/s) 달성
  • 베타 테스트의 기업 평가에서도 장기 코딩 신뢰성도구 호출 품질 관련 긍정적 평가 다수 확인
    • Baseten은 선도적 비공개 모델과 유사한 수준의 코딩 작업 성능, 서드파티 프레임워크 이해 기반의 강한 도구 호출 품질, 복잡하고 장기적인 엔지니어링 작업 적합성 언급
    • Blackbox는 장기·에이전트형 코딩 워크플로우에서 오픈소스 모델의 새 기준, 복잡한 다단계 작업 처리, 높은 코드 품질, 장시간 세션 안정성, 비명백한 버그 탐지 능력 언급
    • CodeBuddy는 K2.5 대비 코드 생성 정확도 12% 증가, 장문맥 안정성 18% 개선, 도구 호출 성공률 96.60% 기록
    • Factory는 자체 벤치마크와 나란히 비교한 평가에서 15% 향상 보고
    • Fireworks는 장기 구간 신뢰성과 지시 이행 능력을 가장 큰 개선 지점으로 언급
    • Hermes Agent는 도구 호출과 에이전트 루프의 긴밀함, 코딩 향상, 창의적 범위 확대 언급
    • Kilo는 낮은 비용 대비 SOTA급 성능과 코드베이스 전반의 장문맥 작업 강점 언급
    • Ollama는 코딩과 에이전트 도구 적합성, 긴 다단계 세션 안정성, 기존 통합과의 즉시 연동 언급
    • OpenCode는 작업 분해와 도구 호출의 안정성, 반복 오버헤드 감소, 엔드투엔드 경험의 신뢰성 언급
    • Qoder는 도구 호출과 모델 호출 빈도 증가, 작업 실행 중 능동성 강화, 사용자 중단과 대기 시간 감소 언급
    • Vercel은 Next.js 벤치마크 50% 이상 개선, 플랫폼 상위권 성능, 비용 대비 효율 기반의 에이전트형 코딩과 프런트엔드 생성 적합성 언급

코딩 중심 설계

  • 강한 코딩 능력을 기반으로 단순 프롬프트를 완전한 프런트엔드 인터페이스로 변환 가능
    • 미적인 hero section, 상호작용 요소, 스크롤 트리거 효과를 포함한 풍부한 애니메이션 등 구조화된 레이아웃 생성
  • 이미지·영상 생성 도구 활용 능력을 바탕으로 시각적으로 일관된 자산 생성 지원
    • 더 높은 품질과 더 눈에 띄는 hero section 제작에 기여
  • 정적 프런트엔드를 넘어 간단한 풀스택 워크플로우까지 확장
    • 인증, 사용자 상호작용, 데이터베이스 작업 포함
    • 거래 기록이나 세션 관리 같은 경량 사용 사례 지원
  • 내부 Kimi Design Bench 구축
    • Visual Input Tasks, Landing Page Construction, Full-Stack Application Development, General Creative Programming 네 범주로 구성
    • Google AI Studio와 비교해 여러 범주에서 유망한 결과와 양호한 성능 기록
  • K2.6 Agent 예시 생성물 제공
    • 하나의 프롬프트와 미리 구성된 harness·도구를 사용해 결과 생성
    • 미적 측면에서는 풍부한 상호작용을 갖춘 아름다운 프런트엔드 디자인 포함
    • 기능 측면에서는 내장 데이터베이스와 인증 포함
    • 도구 활용 측면에서는 이미지·영상 생성 도구를 사용한 정제된 웹사이트 생성 포함

향상된 Agent Swarm

  • 수직 확장만이 아닌 수평 확장 중심 구조 채택
    • Agent Swarm은 작업을 이질적인 하위 작업으로 동적으로 분해하고, 스스로 생성한 도메인 특화 에이전트들이 이를 병렬 실행
  • K2.5 Agent Swarm 연구 프리뷰를 기반으로, Kimi K2.6 Agent Swarm에서 경험의 질적 도약 제시
    • 넓은 검색과 깊은 리서치 결합
    • 대규모 문서 분석과 장문 작성 결합
    • 여러 형식의 콘텐츠 생성을 병렬 실행
    • 단일 자율 실행 안에서 문서·웹사이트·슬라이드·스프레드시트를 아우르는 엔드투엔드 산출물 제공
  • 아키텍처의 수평 확장 규모 확대
    • 300개 서브에이전트4,000개 조정 단계를 동시에 실행
    • K2.5의 100개 서브에이전트, 1,500단계 대비 큰 폭의 확장
    • 대규모 병렬화로 엔드투엔드 지연 감소, 출력 품질 향상, Agent Swarm 운영 경계 확장
  • PDF·스프레드시트·슬라이드·Word 문서 같은 고품질 파일을 Skills로 전환 가능
    • 문서의 구조와 스타일 특성을 캡처하고 유지
    • 이후 작업에서 동일한 품질과 형식을 재현 가능
  • 예시 작업 다수 제시
    • 100개 글로벌 반도체 자산을 대상으로 5개 퀀트 전략 설계·실행, McKinsey 스타일 PPT를 재사용 가능한 skill로 도출, 상세 모델링 스프레드시트와 완전한 경영진 발표 자료 제공
    • 풍부한 시각 데이터를 가진 고품질 천체물리학 논문을 재사용 가능한 학술 skill로 전환, 추론 흐름과 시각화 방식을 도출, 40페이지·7,000단어 연구 논문, 20,000개 이상 항목의 구조화 데이터셋, 천문학 수준 차트 14개 생성
    • 업로드된 이력서를 바탕으로 100개 서브에이전트를 생성해 California의 관련 직무 100개 매칭, 구조화된 기회 데이터셋과 100개의 맞춤형 이력서 제공
    • Google Maps에서 Los Angeles의 공식 웹사이트가 없는 소매점 30곳 식별, 각 매장에 대해 전환율 중심 랜딩 페이지 생성

능동형 에이전트

  • OpenClawHermes 같은 자율적·능동적 에이전트에서 강한 성능 기록
    • 여러 애플리케이션을 가로질러 24시간 7일 연속 실행되는 유형 지원
  • 단순 채팅 기반 상호작용과 구분되는 워크플로우 대응
    • 일정 관리, 코드 실행, 플랫폼 간 작업 오케스트레이션을 지속적 백그라운드 에이전트로 수행 필요
  • RL 인프라 팀은 K2.6 기반 에이전트를 사용해 5일간 자율 운영 진행
    • 모니터링, 사고 대응, 시스템 운영 담당
    • 지속 컨텍스트 유지, 멀티스레드 작업 처리, 경보 발생부터 해결까지 전 주기 실행 입증
    • 민감 정보 제거를 거친 작업 로그 존재 언급
  • 실제 환경의 신뢰성 개선 측정
    • 더 정확한 API 해석
    • 더 안정적인 장시간 실행 성능
    • 장기 리서치 작업 중 향상된 안전 인식
  • 내부 평가 스위트 Claw Bench로 성능 향상 정량화
    • Coding Tasks, IM Ecosystem Integration, Information Research & Analysis, Scheduled Task Management, Memory Utilization의 다섯 영역 포함
    • 전 지표에서 Kimi K2.5 대비 작업 완료율도구 호출 정확도 크게 향상
    • 특히 사람 감독 없이 지속 자율 운영이 필요한 워크플로우에서 강한 개선 기록

Bring Your Own Agents

  • 강한 오케스트레이션 능력을 바탕으로 능동형 에이전트를 Claw Groups로 확장
    • Agent Swarm 아키텍처의 새로운 구현 형태로 연구 프리뷰 제공
  • 개방적이고 이질적인 생태계 수용
    • 여러 에이전트와 사람이 실제 협업자로 함께 작동
    • 사용자는 어떤 기기에서든, 어떤 모델로 실행되든 에이전트를 온보딩 가능
    • 각 에이전트는 고유한 도구 모음, skill, 지속 메모리 컨텍스트 보유
    • 로컬 노트북, 모바일 기기, 클라우드 인스턴스 등 다양한 환경의 에이전트가 공유 운영 공간에 자연스럽게 통합
  • 중앙에서 Kimi K2.6이 적응형 조정자 역할 수행
    • 각 에이전트의 skill 프로필과 사용 가능한 도구를 기준으로 작업 동적 배분
    • 적합한 역량에 맞춰 작업 최적화
    • 에이전트 실패나 정체 발생 시 이를 감지하고 작업 재할당 또는 하위 작업 재생성 수행
    • 시작부터 검증, 완료까지 산출물 전 생애주기 적극 관리
  • Claw Groups의 자체 활용 사례 포함
    • 인간-에이전트 워크플로우를 실제로 다듬기 위해 에이전트 마케팅 팀을 내부 사용
    • Demo Makers, Benchmark Makers, Social Media Agents, Video Makers 같은 특화 에이전트들이 함께 작동
    • 엔드투엔드 콘텐츠 제작과 출시 캠페인 운영
    • K2.6이 중간 결과 공유와 아이디어의 일관된 완성형 산출물 전환 조정
  • 인간과 AI의 관계를 질문 응답이나 단순 작업 할당을 넘어 실질적 협업 파트너십으로 확장
    • "my agent", "your agent", "our team"의 경계가 협업 시스템 안에서 자연스럽게 사라지는 미래 지향점 제시

벤치마크 표

  • Agentic 영역 주요 수치
    • HLE-Full w/ tools 54.0, GPT-5.4 52.1, Claude Opus 4.6 53.0, Gemini 3.1 Pro 51.4, Kimi K2.5 50.2
    • BrowseComp 83.2, BrowseComp(agent swarm) 86.3, Kimi K2.5는 각각 74.9, 78.4
    • DeepSearchQA f1-score 92.5, accuracy 83.0
    • WideSearch item-f1 80.8
    • Toolathlon 50.0, Kimi K2.5 27.8
    • MCPMark 55.9
    • Claw Eval pass^3 62.3, pass@3 80.9
    • APEX-Agents 27.9
    • OSWorld-Verified 73.1
  • Coding 영역 주요 수치
    • Terminal-Bench 2.0 (Terminus-2) 66.7
    • SWE-Bench Pro 58.6
    • SWE-Bench Multilingual 76.7
    • SWE-Bench Verified 80.2
    • SciCode 52.2
    • OJBench (python) 60.6
    • LiveCodeBench (v6) 89.6
  • Reasoning & Knowledge 영역 주요 수치
    • HLE-Full 34.7
    • AIME 2026 96.4
    • HMMT 2026 (Feb) 92.7
    • IMO-AnswerBench 86.0
    • GPQA-Diamond 90.5
  • Vision 영역 주요 수치
    • MMMU-Pro 79.4, MMMU-Pro w/ python 80.1
    • CharXiv (RQ) 80.4, CharXiv (RQ) w/ python 86.7
    • MathVision 87.4, MathVision w/ python 93.2
    • BabyVision 39.8, BabyVision w/ python 68.5
    • V* w/ python 96.9
  • 공식 Kimi-K2.6 벤치마크 결과 재현에는 공식 API 사용 권장
    • 서드파티 제공자 선택에는 Kimi Vendor Verifier (KVV) 참고 안내 포함

각주

  • 일반 테스트 세부 사항

    • Kimi K2.6과 Kimi K2.5는 thinking mode enabled, Claude Opus 4.6은 max effort, GPT-5.4는 xhigh reasoning effort, Gemini 3.1 Pro는 high thinking level 조건에서 결과 보고
    • 별도 표기가 없는 한 Kimi K2.6 실험은 temperature 1.0, top-p 1.0, 262,144 tokens 컨텍스트 길이로 수행
    • 공개 점수가 없는 벤치마크는 Kimi K2.6과 같은 조건으로 재평가했고 별표(*) 로 표시
    • 별표가 없는 결과는 공식 보고서 인용
  • 추론 벤치마크

    • GPT-5.4와 Claude 4.6의 IMO-AnswerBench 점수는 z.ai 블로그에서 취득
    • Humanity's Last Exam (HLE) 및 기타 추론 작업은 최대 생성 길이 98,304 tokens로 평가
    • 기본 보고값은 HLE full set
    • 텍스트 전용 하위 집합에서 Kimi K2.6은 도구 없이 36.4% accuracy, 도구 포함 시 55.5% accuracy 기록
  • 도구 보강 및 에이전트형 작업

    • HLE with tools, BrowseComp, DeepSearchQA, WideSearch에서 search, code-interpreter, web-browsing 도구 장착
    • HLE-Full with tools는 최대 생성 길이 262,144 tokens, 단계별 한도 49,152 tokens
    • 컨텍스트 창이 임계값을 넘으면 가장 최근의 도구 관련 메시지 라운드만 유지하는 단순 컨텍스트 관리 전략 사용
    • BrowseComp 점수는 Kimi K2.5 및 DeepSeek-V3.2와 동일한 discard-all 전략의 컨텍스트 관리로 획득
    • DeepSearchQA에서는 Kimi K2.6 테스트에 컨텍스트 관리를 적용하지 않았고, 지원 컨텍스트 길이를 초과한 작업은 실패로 직접 집계
    • Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro의 DeepSearchQA 점수는 Claude Opus 4.7 System Card 인용
    • WideSearch는 hide tool result 컨텍스트 관리 설정으로 결과 보고
    • 테스트 시스템 프롬프트는 Kimi K2.5 technical report와 동일
    • Claw Eval은 version 1.1, max-tokens-per-step 16384로 수행
    • APEX-Agents는 공개 480개 작업 중 452개 작업 평가
      • Artificial Analysis와 동일하게 Investment Banking Worlds 244, 246 제외
      • 제외 이유는 외부 런타임 의존성
  • 코딩 작업

    • Terminal-Bench 2.0 점수는 기본 에이전트 프레임워크 Terminus-2와 제공된 JSON parser를 사용해 preserve thinking mode로 획득
    • SWE-Bench 계열 평가(Verified, Multilingual, Pro 포함)는 SWE-agent를 바탕으로 개조한 사내 평가 프레임워크 사용
    • 해당 프레임워크 도구 구성은 bash tool, createfile tool, insert tool, view tool, strreplace tool, submit tool의 최소 집합
    • 코딩 작업의 보고 점수는 모두 독립 실행 10회 평균값
  • 비전 벤치마크

    • max-tokens 98,304, 3회 실행 평균(avg@3) 적용
    • Python 도구 사용 설정은 max-tokens-per-step 65,536, max-steps 50으로 다단계 추론 수행
    • MMMU-Pro는 공식 프로토콜을 따르며 입력 순서를 유지하고 이미지를 앞에 배치
Read Entire Article