Gemini-2.5-pro-preview-06-05

1 week ago 3

정식 출시전에 최신 Gemini 2.5 Pro의 미리보기 버전이 이용 가능해짐
LMArena, WebDevArena 등 주요 평가에서 기존 모델 대비 24~35점 Elo 상승
코딩, 과학, 수학, 멀티모달 이해, 장문 컨텍스트 처리 등 주요 벤치마크에서 최상위 성능을 기록
입력 가격 $1.25, 출력 가격 $10(백만 토큰 기준) 으로 경쟁사 대비 저렴한 비용 구조

주요 벤치마크별 비교

Reasoning & Knowledge (Humanity's Last Exam): 21.6%로 OpenAI/Anthropic 등과 비슷한 수준, DeepSeek R1(14%)보다 우수
Science (GPQA diamond): 86.4%로 업계 최고 성능(단일 시도 기준)
Mathematics (AIME 2025): 88.0%로 OpenAI o3, DeepSeek R1과 유사한 수준, Anthropic Claude 4/3보다 높음
Code Generation/Editing: LiveCodeBench 69.0%, Aider Polyglot 82.2%로 코드 생성/수정 모두 높은 정확도
Agentic Coding (SWE-bench Verified): 59.6% (단일), 67.2% (다중 시도)로 Anthropic Claude 4에 비해 약간 낮으나 OpenAI/DeepSeek과 비슷
Factuality: SimpleQA 54.0%, FACTS Grounding 87.8%로 실제 데이터 근거 생성에서 강점
Visual/Video/Image Understanding: MMMU 82.0%, Vibe-Eval(이미지) 67.2%, VideoMMMU(비디오) 83.6%로 텍스트-이미지-비디오 모두 강점
Long Context (MRCR v2, 128K): 58.0%로 OpenAI, Anthropic, xAI 등 주요 경쟁 모델 대비 최고 성능

가격 및 지원 언어

입력 가격: $1.25 / 백만 토큰 (200K 이상은 $2.50)
출력 가격: $10 / 백만 토큰 (200K 이상은 $15)
지원 언어: 70개 이상 글로벌 언어(멀티폴리글롯 89.2%)

사용처 및 추가 특징

Google AI Studio, Vertex AI에서 즉시 프리뷰 사용 가능
Thinking Budget 등 개발자용 비용·지연 제어 기능 추가
코딩, 지식, 멀티모달, 장문 처리 등 실제 업무 활용에 적합한 기능 강화

결론

Gemini 2.5 Pro는 가격, 성능, 범용성, 멀티모달, 장문 컨텍스트 등 다양한 항목에서 경쟁사 대비 우수함
기업용 및 개발자용 AI 도입 시, 주요 벤치마크 기반의 명확한 비교와 비용 효율성을 함께 고려할 수 있음

Read Entire Article