Gemini 2.5 Flash 출시

2 weeks ago 11

  • Gemini 2.5 Flash는 Google AI Studio와 Vertex AI를 통해 제공되는 하이브리드 추론 모델로, 속도와 비용을 유지하면서 추론 능력을 크게 향상시킴
  • 생각(on/off) 기능thinking_budget 설정을 통해 성능, 비용, 지연 시간을 세밀하게 조절 가능함
  • 생각 예산을 설정하여 모델이 생성할 수 있는 최대 토큰 수를 세밀하게 조절할 수 있으며, 복잡한 작업에 대해 더 정확하고 포괄적인 답변을 제공함
  • 낮은 비용 대비 높은 성능을 제공하는 Google의 가장 비용 효율적인 추론 모델이며, 다양한 사용 사례에 맞춰 유연한 조절이 가능함
  • 현재 Google AI Studio, Vertex AI에서 미리보기 형태로 사용 가능, API에서도 설정 가능함

Gemini 2.5 Flash 미리보기 출시

  • Google은 Gemini 2.5 Flash를 Google AI Studio와 Vertex AI를 통해 미리보기(preview) 형태로 공개함
  • 기존 2.0 Flash보다 추론 능력이 대폭 향상되었으며, 속도와 비용 효율성은 유지
  • 최초의 완전한 하이브리드 추론 모델로, 개발자가 생각(thinking) 모드를 켜거나 끌 수 있음
  • thinking_budget 설정으로 품질, 비용, 응답 지연 시간 간의 균형을 조절 가능
  • 생각 모드가 꺼져 있어도 2.0 Flash보다 향상된 성능을 유지함

Gemini 2.5 Flash의 추론 기능

  • Gemini 2.5 Flash는 답변을 바로 생성하지 않고, 생각을 먼저 진행하는 구조
  • 복잡한 문제나 수학 문제, 연구 분석 질문 등에 대해 더 정확하고 포괄적인 답변 생성
  • LMArena의 Hard Prompts 벤치마크에서 2.5 Pro 다음으로 높은 성능을 보임
  • 타 모델 대비 저렴한 가격작은 모델 크기로 비슷한 성능 제공

가장 비용 효율적인 추론 모델

  • Gemini 2.5 Flash는 가격 대비 성능이 가장 우수한 추론 모델로 평가됨
  • Google의 **품질 대비 비용 효율성 곡선(Pareto frontier)**에 새롭게 포함됨

생각 조절 기능: thinking_budget

  • 다양한 활용 사례에 맞춰 품질, 비용, 지연 시간 간의 세밀한 조절 기능 제공
  • thinking_budget은 모델이 생각에 사용할 수 있는 최대 토큰 수를 의미함
    • 예: budget을 높이면 품질이 향상되지만, 비용 및 지연 시간이 증가함
  • 생각이 필요 없는 단순한 질문에는 낮은 budget을 자동 적용함
  • budget 범위는 0 ~ 24,576 토큰이며, AI Studio 및 Vertex AI에서 슬라이더나 API 파라미터로 조절 가능

생각 수준에 따른 예시 프롬프트

낮은 수준의 추론 필요

  • “Thank you” in Spanish
  • 캐나다의 주(Province) 수 묻기

중간 수준의 추론 필요

  • 두 개의 주사위를 굴려 7이 나올 확률 계산
  • 일정을 기반으로 주중에 농구 5시간 가능한 시간표 작성

높은 수준의 추론 필요

  • 보의 기계공학적 응력 계산 문제
  • 엑셀 스타일 수식 평가 함수 작성 문제
    • 의존성 해결, 연산자 우선순위, 순환 검출 필요

시작하기

  • Google AI Studio, Vertex AI, Gemini 앱에서 preview 버전 사용 가능
  • thinking_budget 파라미터 실험을 통해 복잡한 문제 해결 가능성 탐색
  • 코드 예시: from google import genai client = genai.Client(api_key="GEMINI_API_KEY") response = client.models.generate_content( model="gemini-2.5-flash-preview-04-17", contents="You roll two dice. What’s the probability they add up to 7?", config=genai.types.GenerateContentConfig( thinking_config=genai.types.ThinkingConfig( thinking_budget=1024 ) ) ) print(response.text)
  • 자세한 내용은 개발자 문서Gemini Cookbook에 있음
  • 앞으로 더 많은 기능이 추가될 예정이며, 정식 출시 전까지 지속적인 개선 예정

Read Entire Article