Qoder는 도구 호출과 모델 호출 빈도 증가, 작업 실행 중 능동성 강화, 사용자 중단과 대기 시간 감소 언급
Vercel은 Next.js 벤치마크 50% 이상 개선, 플랫폼 상위권 성능, 비용 대비 효율 기반의 에이전트형 코딩과 프런트엔드 생성 적합성 언급
코딩 중심 설계
강한 코딩 능력을 기반으로 단순 프롬프트를 완전한 프런트엔드 인터페이스로 변환 가능
미적인 hero section, 상호작용 요소, 스크롤 트리거 효과를 포함한 풍부한 애니메이션 등 구조화된 레이아웃 생성
이미지·영상 생성 도구 활용 능력을 바탕으로 시각적으로 일관된 자산 생성 지원
더 높은 품질과 더 눈에 띄는 hero section 제작에 기여
정적 프런트엔드를 넘어 간단한 풀스택 워크플로우까지 확장
인증, 사용자 상호작용, 데이터베이스 작업 포함
거래 기록이나 세션 관리 같은 경량 사용 사례 지원
내부 Kimi Design Bench 구축
Visual Input Tasks, Landing Page Construction, Full-Stack Application Development, General Creative Programming 네 범주로 구성
Google AI Studio와 비교해 여러 범주에서 유망한 결과와 양호한 성능 기록
K2.6 Agent 예시 생성물 제공
하나의 프롬프트와 미리 구성된 harness·도구를 사용해 결과 생성
미적 측면에서는 풍부한 상호작용을 갖춘 아름다운 프런트엔드 디자인 포함
기능 측면에서는 내장 데이터베이스와 인증 포함
도구 활용 측면에서는 이미지·영상 생성 도구를 사용한 정제된 웹사이트 생성 포함
향상된 Agent Swarm
수직 확장만이 아닌 수평 확장 중심 구조 채택
Agent Swarm은 작업을 이질적인 하위 작업으로 동적으로 분해하고, 스스로 생성한 도메인 특화 에이전트들이 이를 병렬 실행
K2.5 Agent Swarm 연구 프리뷰를 기반으로, Kimi K2.6 Agent Swarm에서 경험의 질적 도약 제시
넓은 검색과 깊은 리서치 결합
대규모 문서 분석과 장문 작성 결합
여러 형식의 콘텐츠 생성을 병렬 실행
단일 자율 실행 안에서 문서·웹사이트·슬라이드·스프레드시트를 아우르는 엔드투엔드 산출물 제공
아키텍처의 수평 확장 규모 확대
300개 서브에이전트가 4,000개 조정 단계를 동시에 실행
K2.5의 100개 서브에이전트, 1,500단계 대비 큰 폭의 확장
대규모 병렬화로 엔드투엔드 지연 감소, 출력 품질 향상, Agent Swarm 운영 경계 확장
PDF·스프레드시트·슬라이드·Word 문서 같은 고품질 파일을 Skills로 전환 가능
문서의 구조와 스타일 특성을 캡처하고 유지
이후 작업에서 동일한 품질과 형식을 재현 가능
예시 작업 다수 제시
100개 글로벌 반도체 자산을 대상으로 5개 퀀트 전략 설계·실행, McKinsey 스타일 PPT를 재사용 가능한 skill로 도출, 상세 모델링 스프레드시트와 완전한 경영진 발표 자료 제공
풍부한 시각 데이터를 가진 고품질 천체물리학 논문을 재사용 가능한 학술 skill로 전환, 추론 흐름과 시각화 방식을 도출, 40페이지·7,000단어 연구 논문, 20,000개 이상 항목의 구조화 데이터셋, 천문학 수준 차트 14개 생성
업로드된 이력서를 바탕으로 100개 서브에이전트를 생성해 California의 관련 직무 100개 매칭, 구조화된 기회 데이터셋과 100개의 맞춤형 이력서 제공
Google Maps에서 Los Angeles의 공식 웹사이트가 없는 소매점 30곳 식별, 각 매장에 대해 전환율 중심 랜딩 페이지 생성
능동형 에이전트
OpenClaw와 Hermes 같은 자율적·능동적 에이전트에서 강한 성능 기록
여러 애플리케이션을 가로질러 24시간 7일 연속 실행되는 유형 지원
단순 채팅 기반 상호작용과 구분되는 워크플로우 대응
일정 관리, 코드 실행, 플랫폼 간 작업 오케스트레이션을 지속적 백그라운드 에이전트로 수행 필요
RL 인프라 팀은 K2.6 기반 에이전트를 사용해 5일간 자율 운영 진행
모니터링, 사고 대응, 시스템 운영 담당
지속 컨텍스트 유지, 멀티스레드 작업 처리, 경보 발생부터 해결까지 전 주기 실행 입증
민감 정보 제거를 거친 작업 로그 존재 언급
실제 환경의 신뢰성 개선 측정
더 정확한 API 해석
더 안정적인 장시간 실행 성능
장기 리서치 작업 중 향상된 안전 인식
내부 평가 스위트 Claw Bench로 성능 향상 정량화
Coding Tasks, IM Ecosystem Integration, Information Research & Analysis, Scheduled Task Management, Memory Utilization의 다섯 영역 포함
전 지표에서 Kimi K2.5 대비 작업 완료율과 도구 호출 정확도 크게 향상
특히 사람 감독 없이 지속 자율 운영이 필요한 워크플로우에서 강한 개선 기록
Bring Your Own Agents
강한 오케스트레이션 능력을 바탕으로 능동형 에이전트를 Claw Groups로 확장
Agent Swarm 아키텍처의 새로운 구현 형태로 연구 프리뷰 제공
개방적이고 이질적인 생태계 수용
여러 에이전트와 사람이 실제 협업자로 함께 작동
사용자는 어떤 기기에서든, 어떤 모델로 실행되든 에이전트를 온보딩 가능
각 에이전트는 고유한 도구 모음, skill, 지속 메모리 컨텍스트 보유
로컬 노트북, 모바일 기기, 클라우드 인스턴스 등 다양한 환경의 에이전트가 공유 운영 공간에 자연스럽게 통합
중앙에서 Kimi K2.6이 적응형 조정자 역할 수행
각 에이전트의 skill 프로필과 사용 가능한 도구를 기준으로 작업 동적 배분
적합한 역량에 맞춰 작업 최적화
에이전트 실패나 정체 발생 시 이를 감지하고 작업 재할당 또는 하위 작업 재생성 수행
시작부터 검증, 완료까지 산출물 전 생애주기 적극 관리
Claw Groups의 자체 활용 사례 포함
인간-에이전트 워크플로우를 실제로 다듬기 위해 에이전트 마케팅 팀을 내부 사용
Demo Makers, Benchmark Makers, Social Media Agents, Video Makers 같은 특화 에이전트들이 함께 작동
엔드투엔드 콘텐츠 제작과 출시 캠페인 운영
K2.6이 중간 결과 공유와 아이디어의 일관된 완성형 산출물 전환 조정
인간과 AI의 관계를 질문 응답이나 단순 작업 할당을 넘어 실질적 협업 파트너십으로 확장
"my agent", "your agent", "our team"의 경계가 협업 시스템 안에서 자연스럽게 사라지는 미래 지향점 제시
벤치마크 표
Agentic 영역 주요 수치
HLE-Full w/ tools 54.0, GPT-5.4 52.1, Claude Opus 4.6 53.0, Gemini 3.1 Pro 51.4, Kimi K2.5 50.2
BrowseComp 83.2, BrowseComp(agent swarm) 86.3, Kimi K2.5는 각각 74.9, 78.4
DeepSearchQA f1-score 92.5, accuracy 83.0
WideSearch item-f1 80.8
Toolathlon 50.0, Kimi K2.5 27.8
MCPMark 55.9
Claw Eval pass^3 62.3, pass@3 80.9
APEX-Agents 27.9
OSWorld-Verified 73.1
Coding 영역 주요 수치
Terminal-Bench 2.0 (Terminus-2) 66.7
SWE-Bench Pro 58.6
SWE-Bench Multilingual 76.7
SWE-Bench Verified 80.2
SciCode 52.2
OJBench (python) 60.6
LiveCodeBench (v6) 89.6
Reasoning & Knowledge 영역 주요 수치
HLE-Full 34.7
AIME 2026 96.4
HMMT 2026 (Feb) 92.7
IMO-AnswerBench 86.0
GPQA-Diamond 90.5
Vision 영역 주요 수치
MMMU-Pro 79.4, MMMU-Pro w/ python 80.1
CharXiv (RQ) 80.4, CharXiv (RQ) w/ python 86.7
MathVision 87.4, MathVision w/ python 93.2
BabyVision 39.8, BabyVision w/ python 68.5
V* w/ python 96.9
공식 Kimi-K2.6 벤치마크 결과 재현에는 공식 API 사용 권장
서드파티 제공자 선택에는 Kimi Vendor Verifier (KVV) 참고 안내 포함
각주
일반 테스트 세부 사항
Kimi K2.6과 Kimi K2.5는 thinking mode enabled, Claude Opus 4.6은 max effort, GPT-5.4는 xhigh reasoning effort, Gemini 3.1 Pro는 high thinking level 조건에서 결과 보고
별도 표기가 없는 한 Kimi K2.6 실험은 temperature 1.0, top-p 1.0, 262,144 tokens 컨텍스트 길이로 수행
공개 점수가 없는 벤치마크는 Kimi K2.6과 같은 조건으로 재평가했고 별표(*) 로 표시
별표가 없는 결과는 공식 보고서 인용
추론 벤치마크
GPT-5.4와 Claude 4.6의 IMO-AnswerBench 점수는 z.ai 블로그에서 취득
Humanity's Last Exam (HLE) 및 기타 추론 작업은 최대 생성 길이 98,304 tokens로 평가
기본 보고값은 HLE full set
텍스트 전용 하위 집합에서 Kimi K2.6은 도구 없이 36.4% accuracy, 도구 포함 시 55.5% accuracy 기록