GPT‑5.6 Sol 프리뷰: 차세대 모델

3 hours ago 1
  • OpenAI가 GPT‑5.6 시리즈를 제한 프리뷰로 열며, 플래그십 Sol과 일상 업무용 Terra, 저비용 Luna를 함께 내놓음
  • Sol은 코딩·생물학·사이버보안에서 에이전트 능력을 강화했고, max reasoning effort와 ultra 모드로 더 깊은 추론과 서브에이전트 활용을 지원함
  • 사이버보안 성능은 ExploitBench와 ExploitGym에서 개선됐지만, Chromium·Firefox 평가 조건에서는 기능적 full-chain exploit을 자율 생성하지 못해 Cyber Critical 임계값을 넘지 않음
  • 프리뷰는 API와 Codex에서 일부 신뢰 파트너와 조직에 먼저 제공되며, 미국 정부 요청에 따른 제한 절차를 거쳐 더 넓은 공개를 준비함
  • 가격은 100만 토큰 기준 Sol $5 입력 / $30 출력, Terra $2.50 입력 / $15 출력, Luna $1 입력 / $6 출력이며 캐시 쓰기는 1.25배, 캐시 읽기는 90% 할인됨

GPT‑5.6 시리즈 프리뷰 범위

  • OpenAI는 제한 프리뷰로 GPT‑5.6 제품군을 먼저 공개함
    • Sol: 플래그십 모델
    • Terra: 일상 업무용 균형 모델
    • Luna: 빠르고 저렴한 모델
  • Terra는 GPT‑5.5와 경쟁력 있는 성능을 제공하면서 가격은 2배 저렴함
  • Luna는 OpenAI의 가장 낮은 비용으로 강한 능력을 제공함
  • GPT‑5.6 Sol은 OpenAI가 지금까지 구축한 것 중 가장 견고한 안전 스택과 함께 출시됨
    • 고위험 활동
    • 민감한 사이버 요청
    • 반복적 오용
    • 실제 공격에 대한 약점 탐색과 압박 테스트

제한 공개와 정부 협의

  • OpenAI는 GPT‑5.6 Sol, Terra, Luna를 앞으로 몇 주 안에 일반 제공할 계획임
  • 미국 정부와의 지속적인 협의 과정에서 출시 전 계획과 모델 능력을 공유함
  • 정부 요청에 따라, 참여 사실이 정부에 공유된 소수의 신뢰 파트너를 대상으로 먼저 제한 프리뷰를 시작함
  • OpenAI는 이런 정부 접근 절차가 장기적인 기본값이 되어서는 안 된다고 봄
    • 사용자, 개발자, 기업, 사이버 방어자, 글로벌 파트너가 필요한 도구에 접근하지 못할 수 있기 때문임
  • 이번 단기 절차는 몇 주 안에 더 넓은 공개로 가기 위한 경로임
    • 행정부와 사이버 Executive Order 프레임워크 및 향후 모델 출시를 위한 반복 가능한 절차를 개발하는 동안 적용됨

모델 능력과 평가

  • GPT‑5.6 Sol은 OpenAI의 가장 강한 모델로 소개됨
  • 코딩, 생물학, 사이버보안 평가에서 향상된 에이전트 능력을 보임
  • 추가 안전성과 준비도 평가는 GPT‑5.6 Preview system card에 포함됨
  • 더 넓게 공개할 때 확장된 평가 결과 묶음을 공유할 계획임
  • 추론 모드

    • GPT‑5.6에는 Sol이 더 오래 깊게 추론할 수 있도록 하는 max reasoning effort가 도입됨
    • ultra 모드는 단일 에이전트 능력을 넘어, 서브에이전트를 활용해 복잡한 작업을 가속함
  • 코딩과 생물학

    • GPT‑5.6 Sol은 명령줄 워크플로를 평가하는 Terminal‑Bench 2.1에서 새로운 최고 수준 성능을 기록함
    • 이 벤치마크는 계획, 반복, 도구 조율이 필요한 명령줄 작업을 테스트함
    • GeneBench v1에서는 GPT‑5.5보다 더 강한 결과를 내면서 더 적은 토큰을 사용함
    • GeneBench v1은 장기 범위의 유전체학 및 정량 생물학 분석을 평가함
  • 사이버보안

    • GPT‑5.6 Sol은 OpenAI의 사이버보안 작업용 모델 중 가장 능력이 높음
    • 취약점 연구와 익스플로잇을 포함한 장기 보안 작업에서 성능-효율 프런티어를 이동시킴
    • ExploitBench에서는 Mythos Preview와 경쟁력 있는 결과를 내면서 출력 토큰은 약 3분의 1만 사용함
    • ExploitGym에서는 Sol, Terra, Luna 모두 추론이 늘어날수록 사이버 능력에서 강한 개선을 보임
    • ExploitGym은 UC Berkeley 연구자들이 OpenAI 및 다른 프런티어 랩과 협력해 만든 벤치마크임

사이버 능력과 안전장치

  • GPT‑5.6 Sol, Terra, Luna는 각 모델 능력에 맞춘 OpenAI의 가장 견고한 안전장치와 함께 개발됨
  • 모델 능력이 커질수록 실제 적대적 압력에서도 안전장치가 버티도록 설계함
  • 합법적인 방어 작업 접근은 유지하려 함
    • 코드 리뷰
    • 취약점 연구
    • 패치 개발
    • 디버깅
    • 보안 교육
    • 방어적 테스트
  • 목표는 금지된 공격적 활동을 더 어렵고, 불확실하며, 탐지 가능하게 만들면서 유익한 사용을 불필요하게 제한하지 않는 것임
  • OpenAI의 평가에 따르면 합법적 방어 작업에는 상당한 이익이 있고, 금지된 공격적 사용은 의미 있게 제약됨
  • Cyber Critical 임계값

    • GPT‑5.6 Sol은 Preparedness Framework 기준에서 Cyber Critical 임계값을 넘지 않음
    • Chromium과 Firefox 관련 평가에서 버그와 exploit primitive는 식별함
    • 테스트 조건에서는 기능적인 full-chain exploit을 자율적으로 만들지 못함
    • 벤치마크 임계값이 모델 사용 방식이나 다른 도구와의 조합을 모두 포착할 수는 없음
    • 이 불확실성과 전반적인 능력 향상 때문에 OpenAI는 더 강한 안전장치와 단계적 출시를 함께 적용함

계층형 안전 스택

  • 의도적이거나 적응적인 오용은 단일 안전장치만으로 막기 어려움
  • GPT‑5.6 프리뷰 전반에는 모델별로 구성이 다른 계층형 안전장치가 적용됨
    • 모델에 훈련된 보호
    • 생성 중 실시간 검사
    • 계정 수준 신호
    • 차등 접근
    • 모니터링
    • 집행
    • 지속 테스트
  • 모델 수준 거부와 실시간 검사

    • GPT‑5.6은 사용자가 의도를 숨기거나 jailbreak를 시도해도 금지된 사이버 지원을 거부하도록 훈련됨
    • 실시간 사이버 및 생물학 오용 분류기는 생성 중인 출력을 평가함
    • 고위험 사례에서 잠재 위반이 감지되면 생성이 일시 중지될 수 있음
    • 더 큰 추론 모델이 대화와 맥락을 검토하고, 출력이 금지된 것으로 평가되면 사용자에게 도달하기 전에 보류됨
  • 계정 수준 검토와 차등 접근

    • 플래그된 활동은 관련 대화와 위험 신호를 포함한 계정 수준 검토로 이어질 수 있음
    • 단일 대화가 아니라 계정 수준 맥락을 보면 합법적 이중용도 보안 작업과 지속적 악성 행동을 구분하는 데 도움이 됨
    • 차등 접근은 중요한 방어 작업을 유지하면서 가장 민감한 능력이 기본적으로 넓게 공개되지 않도록 함
  • 프리뷰 중 사용자 영향

    • 프리뷰 기간에는 일부 요청이 차단되거나 거부될 수 있음
    • 추가 검토로 생성이 일시 중지되면 일부 요청은 더 오래 걸릴 수 있음
    • 방어적 활동과 공격적 활동이 처음에는 비슷해 보일 수 있는 이중용도 영역에서는 합법적 작업에도 안전장치가 개입할 수 있음
    • 프리뷰 피드백은 불필요한 차단과 지연을 줄이고, 안전장치의 맥락 해석을 개선하며, 더 넓은 출시 전에 경험을 다듬는 데 사용됨
    • 기업 고객과는 장기 접근 방식도 논의 중임
      • 개인정보 보호형 탐지
      • 고객 운영 안전 제어
      • 고객, 사용자, 워크로드 위험에 맞춘 접근 권한

자동 레드팀으로 견고성 개선

  • 안전장치는 공격자가 전술을 바꿔도 효과를 유지해야 함
  • OpenAI는 자체 모델을 사용해 약점을 찾고 안전장치를 더 빠르게 개선함
  • 700,000 A100-equivalent GPU hours 이상을 자동 레드팀에 투입함
  • 자동 레드팀은 여러 프롬프트나 맥락에서 작동할 수 있는 universal jailbreak를 찾는 데 초점을 둠
  • 이런 더 일반적인 공격에 집중하면 고정된 실패 사례 목록을 넘어 안전장치를 테스트할 수 있음
  • 자동화는 인간 테스트만으로 다루기 어려운 공격 패턴을 더 많이 탐색하고, 실패 패턴을 더 일찍 찾아 약점 발견부터 수정까지 걸리는 시간을 줄임
  • 외부 테스터와 함께 인간 전문가 레드팀도 수행했으며, 이 작업은 프리뷰 기간에도 계속됨
  • 새로 발견된 jailbreak는 재현, 평가, 우선순위 지정, 수정 과정을 거쳐 향후 비슷한 실패를 테스트할 수 있도록 지속 평가에 추가됨

제공 방식과 가격

  • 프리뷰 동안 GPT‑5.6 모델은 API와 Codex를 통해 선택된 신뢰 파트너 및 조직에 먼저 제공됨
  • 이후 ChatGPT, Codex, API 사용자에게 더 넓게 제공할 계획임
  • GPT‑5.6의 새 명명 체계에서 숫자는 모델 세대를 나타냄
  • Sol, Terra, Luna는 각자의 속도로 발전할 수 있는 지속적 능력 티어를 뜻함
  • 이 제품군은 지능, 속도, 비용 사이에서 사용자와 개발자에게 더 명확한 선택지를 제공함
  • 토큰 가격과 캐싱

    • GPT‑5.6 가격은 100만 토큰 기준으로 책정됨
    • Sol: 입력 $5 / 출력 $30
    • Terra: 입력 $2.50 / 출력 $15
    • Luna: 입력 $1 / 출력 $6
    • GPT‑5.6은 더 예측 가능한 프롬프트 캐싱을 도입함
      • 명시적 캐시 중단점 지원
      • 최소 30분 캐시 수명
    • GPT‑5.6 및 이후 모델에서 캐시 쓰기는 해당 모델의 비캐시 입력 요금의 1.25배로 청구됨
    • 캐시 읽기는 계속해서 캐시 입력 90% 할인을 받음
  • Cerebras 제공

    • GPT‑5.6 Sol은 7월에 Cerebras에서 초당 최대 750 tokens 속도로 제공될 예정임
    • 초기 접근은 용량 확장 과정에서 선택된 고객으로 제한됨
Read Entire Article