코딩·문서 등 스스로 계획하고 처리
터미널벤치서 클로드 최상위와 접전
챗GPT 플러스·코덱스에 순차 탑재

GPT-5.5는 복잡한 명령줄 작업 수행 능력을 평가하는 ‘터미널벤치 2.0’에서 82.7%를 기록해 기존 GPT-5.4(75.1%)를 크게 앞섰다. 깃허브(개발자 협업 플랫폼) 이슈 해결 능력을 측정하는 ‘SWE-벤치 프로’에서는 58.6%, 실제 컴퓨터 조작 능력을 보는 ‘OS월드-베리파이드’에서는 78.7%를 각각 기록했다. 44개 직종의 지식업무 수행 능력을 평가하는 ‘GDPval’에서는 84.9%의 승률로 일반 모델 1위에 올랐다.
특히 GPT-5.5가 터미널벤치 2.0에서 거둔 성적(82.7%)은 앤스로픽이 이달 초 제한 공개한 최상위 모델 ‘클로드 미소스 프리뷰(82.0%)’와 나란히 82%대를 기록하며, 평가 조건에 따라 우위가 엎치락뒤치락하는 초접전 양상을 보였다. 클로드 미소스 프리뷰는 공개 직후 주요 코딩·에이전트 벤치마크를 잇달아 갈아치우며 “현존 최강 코딩 모델”이라는 평가를 받아 온, 업계가 가장 주목해 온 차세대 모델이다.
오픈AI는 이날부터 유료 구독형 챗GPT 플러스·프로·비즈니스·엔터프라이즈 사용자와 코덱스에 GPT-5.5를 차례대로 적용하고, 외부 개발자가 활용할 수 있는 응용프로그램인터페이스(API·프로그램 간 데이터 통로)도 곧 개방한다.GPT-5.5 출시로 단순 챗봇 경쟁 구도가 막을 내리고, AI가 스스로 업무를 처리하는 ‘에이전트 전쟁’이 본격화됐다는 평가가 나온다. 앤스로픽이 코딩 에이전트 ‘클로드 코드’와 범용 업무 에이전트 ‘클로드 코워크’로 기업 시장을 빠르게 잠식하자 오픈AI가 정면 대응에 나선 것이다.
벤처캐피털 멘로벤처스에 따르면 기업용 AI 시장에서 앤스로픽은 점유율 40%로 오픈AI(27%)를 제쳤으며, 클로드 코드만으로 연 환산 매출(ARR·현재 실적을 1년 치로 환산한 값) 25억 달러(약 3조7050억 원)를 올린 것으로 전해졌다.
김재형 기자 monami@donga.com
© dongA.com All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지
- 좋아요 0개
- 슬퍼요 0개
- 화나요 0개

4 hours ago
2
![“옛날 맛이 더 잘 팔리네”…식품업계 뒤흔든 '레트로 열풍' [권 기자의 장바구니]](https://img.hankyung.com/photo/202604/01.44059078.1.jpg)














English (US) ·