GPT Image 2 출시: OpenAI 역사상 가장 강력한 이미지 모델, Y Build에서 출시 당일 지원
OpenAI가 막 GPT Image 2를 출시했습니다. 극사실적인 결과물, 신뢰할 수 있는 이미지 내 텍스트 생성, 월드 모델 수준의 장면 이해력을 갖췄습니다. 신규 기능, 디자이너와 빌더에게 중요한 이유, 그리고 Y Build가 출시 당일(T+0)에 이를 어떻게 통합했는지 살펴봅니다.
TL;DR
OpenAI가 오늘 gpt-image-1과 DALL-E 3의 후속작인 GPT Image 2를 출시했습니다. 공개된 자료에 따르면, 이는 현재까지 공개된 이미지 생성 모델 중 가장 강력합니다:
- GPT Image 1이 2023년 모델처럼 보일 정도의 수준 높은 극사실주의(Photorealism)
- 긴 문단과 다양한 폰트를 포함해 실제로 정확하게 읽히는 이미지 내 텍스트(Text-in-image)
- 공간 관계, 물리 법칙, 그림자와 빛의 일관성을 아우르는 장면 이해력(Scene understanding)
- 5개 이상의 피사체가 포함된 복잡한 프롬프트를 정확하게 유지하는 구도 정확도(Compositional accuracy)
- 장면의 나머지 부분을 보존하면서 자연어로 해당 위치를 수정하는 편집(Editing) 기능
- 1024x1024 해상도 기준 첫 이미지 생성까지 4-6초의 속도
실제로 무엇이 달라졌나
"AI 느낌" 없는 극사실주의
GPT Image 1과 나란히 비교해 보면, 미세한 손의 기형, 지나치게 매끄러운 피부, 불가능한 조명 등 AI 생성 이미지의 흔한 특징들이 GPT Image 2에서는 대부분 사라졌습니다. OpenAI의 예시들은 피부 질감, 모공 디테일, 표면의 미세 조명을 강조합니다.
이것이 감지가 불가능하다는 뜻은 아닙니다. AI 이미지 탐지기는 여전히 약 85%의 확률로 잡아내지만, 시각적인 기준치는 대폭 상승했습니다.
드디어 가능해진 이미지 내 텍스트
GPT Image 1은 약 3~5단어 정도를 안정적으로 렌더링할 수 있었습니다. GPT Image 2는 적절한 커닝(자간 조절)과 선택 가능한 폰트를 적용하여 여러 언어로 된 전체 문단을 정확하게 구현합니다. 이 기능 하나만으로도 다음과 같은 작업의 가능성이 바뀝니다:
- 인포그래픽
- 실제 카피가 포함된 제품 목업
- 포스터 및 마케팅 비주얼
- 만화 패널
- 읽기 가능한 라벨이 포함된 UI 와이어프레임
장면 + 세계관 이해
이 모델은 새로운 수준의 물리적 관계를 이해합니다. "왼쪽 창문으로 아침 햇살이 들어오고, 상승하는 매출 그래프가 표시된 노트북 옆에 김이 모락모락 피어오르는 커피 잔"과 같은 프롬프트는 실제로 일관된 장면을 만들어냅니다. 김이 피어오르는 방향은 물리 법칙에 맞고, 창문 빛의 각도는 일정하며, 노트북 화면에는 읽을 수 있는 그래프가 표시됩니다.
이는 이번 출시 전까지 모든 주요 이미지 모델에서 가장 취약했던 부분이었습니다.
자연어 편집
이제 "하늘을 더 폭풍우 치는 느낌으로 바꿔줘, 나머지는 그대로 두고"라고 말하면 모델이 정확히 그대로 수행합니다. GPT Image 1에서 편집은 종종 다른 구도로 이미지 전체를 다시 생성하곤 했습니다. GPT Image 2는 건드리지 않은 모든 요소를 보존합니다.
덕분에 반복적인 디자인 워크플로우가 처음으로 실현 가능해졌습니다. 레이아웃을 한 번 디자인한 다음, 다시 프롬프트를 입력하는 대신 언어로 세부 사항을 다듬을 수 있습니다.
가격 정책
OpenAI는 GPT Image 2에 대해 세 가지 티어를 발표했습니다:
- Standard (1024x1024): 이미지당 약 $0.04
- HD (최대 2048x2048): 이미지당 약 $0.08
- Ultra (최대 4096x4096, 더 긴 연산): 이미지당 약 $0.15
Standard 및 HD의 경우 Midjourney의 무제한 플랜보다 이미지당 비용이 낮으며, Stable Diffusion 4 호스팅 서비스와 경쟁력 있는 수준입니다.
빌더들에게 중요한 이유
이미지 생성은 DALL-E 3 이후로 "무드 보드에는 유용하지만, 최종 결과물로는 부족한" 단계에 머물러 있었습니다. GPT Image 2는 실제 결과물을 위한 프로덕션 준비 완료 단계로 진입했습니다:
- 마케팅 페이지에 스톡 사진이나 수동 디자인 작업 대신 캠페인별 실제 이미지를 생성하여 배치할 수 있습니다.
- 앱 인터페이스의 첫 번째 초안 비주얼을 인라인으로 생성할 수 있습니다.
- 콘텐츠 사이트에서 대표 이미지뿐만 아니라 모든 기사에 삽입할 이미지를 생성할 수 있습니다.
- 소규모 이커머스(식품, 공예품, 드롭쉬핑)를 위한 제품 사진을 스튜디오 없이 촬영 수준으로 구현할 수 있습니다.
Y Build × GPT Image 2 — T+0 통합
Y Build는 오늘 OpenAI의 API가 활성화된 즉시 GPT Image 2를 통합했습니다. 대기실이나 베타 플래그는 없습니다.
다음 Y Build 플로우를 통해 바로 사용할 수 있습니다:
1. 모든 룸에서 직접 생성
모든 Y Build 그룹 채팅에서 Designer 에이전트를 태그하세요:
@Designer Generate a hero image for my podcast website — dark academia feel, book and microphone, dim warm light.
Designer 에이전트는 실사 작업의 경우 기본적으로 GPT Image 2를 선택합니다 (특정 스타일의 경우 DALL-E 3 또는 Stable Diffusion 4로 전환될 수 있습니다).
2. 즉석 편집
생성되었거나 업로드된 이미지를 룸에 올리고 자연어로 편집을 요청하세요:
@Designer Make the microphone silver instead of black, everything else stays.
Y Build는 편집 이력을 추적합니다. 모든 반복 작업은 워크스페이스 내의 새 버전으로 저장되므로 언제든 되돌릴 수 있습니다.
3. 자동 배치 생성
많은 비주얼이 필요한 이커머스나 콘텐츠 사이트를 위해, Virtuoso 에이전트가 프롬프트 목록을 기반으로 GPT Image 2를 실행하고 결과를 워크스페이스에 기록한 뒤 레포지토리에 커밋할 수 있습니다.
@Virtuoso Generate product hero images for each of the 24 items inproducts.csv, save as/public/products/{slug}.jpg, and commit.
45분 후, Reviewer 에이전트가 브랜드 일관성을 검토한 24개의 이미지가 브랜치에 준비되어 여러분의 머지를 기다리게 됩니다.
4. 워크스페이스 통합
생성된 모든 이미지는 Y Build 워크스페이스에 저장됩니다. 블록 에디터에서 편집 가능하고, 레포지토리로 내보낼 수 있으며, 버전 관리가 지원되는 실제 파일로 제공됩니다.
Y Build 내부 가격 정책
- Free 티어: 매월 10회의 GPT Image 2 Standard 생성 제공 (이후에는 DALL-E 3로 전환)
- Pro ($69/월): Standard 무제한, 매월 HD 200회, Ultra 50회 제공
- Max ($199/월): Ultra를 포함한 모든 기능 무제한
DALL-E 3와 GPT Image 1은 어떻게 되나요?
두 모델 모두 여전히 Y Build에서 사용할 수 있습니다. 일부 유스케이스(정형화된 일러스트레이션, 특정 예술 스타일)에서는 여전히 이 모델들이 유리할 수 있습니다. Designer 에이전트가 프롬프트에 따라 자동으로 선택하지만, 특정 모델을 강제로 지정할 수도 있습니다:
@Designer Generate with gpt-image-2: [prompt]
@Designer Generate with dalle-3: [prompt]
Stable Diffusion 4 역시 Pro 사용자를 위한 무료 옵션으로 제공됩니다. GPT Image 2보다 사실성은 약간 낮지만 Pro 사용자에게는 연산 비용이 전혀 청구되지 않습니다.
오늘 바로 시작하는 방법
- Y Build 무료 가입 — 신용카드 불필요
- Conductor 에이전트와 함께 룸 시작
- Designer 에이전트에게 이미지 생성 요청 — GPT Image 2가 기본값으로 설정되어 있습니다.