ChatGPT Images 2.0 공개

3 hours ago 2
  • OpenAI가 이미지 생성 모델의 차세대 버전을 공개, 소개글 자체에 문자로 적지 않고 Images 2.0 이용해서 생성한 이미지에 넣은 텍스트로만 소개함
  • 복잡한 시각적 작업과 정밀한 텍스트 렌더링을 포함한 즉시 사용 가능한 결과물 생성에 초점을 맞춤
  • 최초의 사고(thinking) 기능을 갖춘 이미지 모델로, 웹 검색과 다중 이미지 동시 생성, 출력물 자체 검증이 가능
  • 일본어, 한국어, 중국어, 힌디어, 벵골어 등 비라틴 문자 렌더링 성능이 크게 향상되어 다국어 디자인 제작에 실용적
  • 3:1에서 1:3까지 유연한 종횡비 지원으로 배너, 포스터, 모바일 화면 등 다양한 포맷에 즉시 대응
  • 렌더링 도구에서 전략적 디자인 시스템으로의 전환을 표방하며, ChatGPT·Codex·API 전체에서 사용 가능

새로운 이미지 생성의 시대

  • 이미지를 단순 장식이 아닌 하나의 언어로 정의하며, 메커니즘 설명, 분위기 연출, 아이디어 검증, 주장 전달 등의 역할 수행
  • 1년 전 출시한 ChatGPT Images가 AI 이미지가 아름답고 유용할 수 있음을 입증한 데 이어, Images 2.0은 복잡한 시각 작업을 정밀하게 처리하는 차세대 모델
  • 세부 지시사항 충실 반영, 객체의 정확한 배치와 관계 표현, 밀집 텍스트 렌더링에서 비약적 향상
  • 구도와 시각적 감각이 뛰어나 결과물이 AI 생성이 아닌 의도적 디자인처럼 느껴지는 수준
  • 다양한 언어에서 정확하게 작동하며, 확장된 시각적·세계 지식을 활용해 적은 프롬프트로도 더 스마트한 이미지 생성 가능
  • 이 모델은 OpenAI의 추론 모델 지능과 시각 세계 이해를 결합하여, 이미지 생성을 단순 렌더링에서 전략적 디자인으로, 도구에서 비주얼 시스템으로 전환
  • 오늘부터 ChatGPT, Codex, API 전체 사용자에게 제공

더 높은 정밀도와 제어력

  • Images 2.0은 이미지 생성에서 전례 없는 구체성과 충실도 제공
  • 더 정교한 이미지를 구상할 뿐 아니라 이를 효과적으로 구현하며, 지시사항 준수·요청 세부사항 보존·미세 요소 렌더링에 강점
  • 기존 이미지 모델이 잘 처리하지 못하던 작은 텍스트, 아이콘, UI 요소, 밀집 구성, 미묘한 스타일 제약을 최대 2K 해상도에서 처리
  • "대략 비슷한 이미지"가 아닌 실제로 바로 사용 가능한 결과물 생성

다국어 텍스트 지원 강화

  • 기존 모델은 영어 및 라틴 문자 언어에서 일관된 성능을 보였으나, 복잡하거나 밀집된 텍스트에서 비라틴 문자 처리가 부족했음
  • Images 2.0은 다국어 이해력 향상과 함께 특히 일본어, 한국어, 중국어, 힌디어, 벵골어의 비라틴 텍스트 렌더링에서 큰 개선
  • 비영어 텍스트가 정확히 렌더링될 뿐 아니라 언어적으로 자연스럽게 흐르는 결과물 생성 가능
  • 단순 라벨 번역을 넘어 언어가 디자인의 일부인 포스터, 설명 자료, 다이어그램, 만화 등에서 시각적 일관성 유지
  • 사용자가 실제로 사용하는 언어로 비주얼을 만들 수 있어 글로벌 활용도 향상

스타일 정교함과 사실감

  • Images 2.0은 다양한 시각 스타일에 걸친 충실도가 크게 향상
  • 사진의 특징적 요소(사실감을 더하는 미세한 결함 포함), 영화 스틸, 픽셀 아트, 만화 등 독특한 시각 언어의 질감·조명·구도·세부 사항에서 일관성 개선
  • 요청된 스타일을 근사하는 수준이 아닌 충실하게 반영하는 결과물 생성
  • 게임 프로토타이핑, 스토리보드, 마케팅 크리에이티브, 특정 매체나 장르의 에셋 제작에 특히 유용

유연한 종횡비 지원

  • 3:1(가로)에서 1:3(세로)까지 폭넓은 종횡비 지원
  • 와이드 배너, 프레젠테이션 슬라이드, 포스터, 모바일 화면, 북마크, 소셜 그래픽 등 필요한 포맷에 맞는 결과물 즉시 생성
  • 프롬프트에서 원하는 종횡비를 지정하거나, 프리셋 옵션에서 선택하여 새 크기로 재생성 가능

실세계 지능

  • Images 2.0은 이미지 생성에 더 최신의 세계 이해를 반영하며, 지식 컷오프가 2025년 12월로 업데이트
  • 설명 자료, 지도, 교육 그래픽, 시각적 요약 등 정확성과 명확성이 미적 요소만큼 중요한 결과물에 유리
  • 향상된 지능으로 정보 종합부터 카피 작성, 시각화까지 엔드투엔드 작업 수행 가능
    • 여백 배치, 가독성, 흐름을 고려한 깔끔하고 체계적인 디자인 감각 보유

시각적 사고 파트너

  • thinking 또는 pro 모델 선택 시, 모델이 더 많은 시간을 투자해 에이전틱하게 작업을 이해하고 실행
  • 웹에서 관련 정보를 검색하고, 업로드 자료를 명확한 시각적 설명 자료로 변환하며, 생성 전에 이미지 구조를 추론
  • 이 모드에서 Images 2.0은 비주얼 사고 파트너로 기능하며, 초안 개념에서 완성 에셋까지 사용자의 작업량을 크게 줄여줌
  • thinking 모드에서 한 번에 여러 개의 서로 다른 이미지 동시 생성 가능 — ChatGPT 이미지 생성 최초 기능
    • 일련의 만화 페이지, 집 전체 리디자인 방향, 포스터 콘셉트 패밀리, 다양한 종횡비·언어의 소셜 그래픽 세트 등의 워크플로우 지원
  • 이미지를 하나씩 프롬프트하고 직접 조합하는 대신, 캐릭터·객체 연속성을 유지하는 최대 10개의 일관된 결과물을 한 번에 요청 가능
    • 각 결과물이 순차적으로 이전 결과를 기반으로 구축
Read Entire Article