GPT Image 2 发布:OpenAI 史上最强图像模型,Y Build 首日同步上线
OpenAI 刚刚发布了 GPT Image 2 —— 照片级输出、可靠的图内文字、具备世界模型的场景理解能力。我们将介绍其新特性、对设计师和构建者而言为何重要,以及 Y Build 如何在首日 (T+0) 完成集成。
TL;DR
OpenAI 今天发布了 GPT Image 2 —— gpt-image-1 和 DALL-E 3 的继任者。根据发布资料,它是目前最强的公开图像生成模型:
- 照片级写实 (Photorealism):其水平让 GPT Image 1 看起来像是 2023 年的老旧模型
- 图内文字 (Text-in-image):文字呈现非常准确,包括长段落和多种字体
- 场景理解 (Scene understanding):对空间关系、物理特性、阴影和光影连贯性有深刻理解
- 构图准确性 (Compositional accuracy):能够正确处理包含 5 个以上主体的复杂提示词
- 编辑功能 (Editing):支持自然语言局部编辑,同时保留场景的其他部分
- 速度:1024x1024 分辨率下生成首张图像仅需 4-6 秒
究竟有哪些新变化
无“AI 感”的照片级写实
通过与 GPT Image 1 的对比可以发现,AI 生成图像中常见的瑕疵 —— 细微的手部畸形、过度平滑的皮肤、不合理的照明 —— 在 GPT Image 2 中已基本消失。OpenAI 的示例重点展示了皮肤纹理、毛囊细节以及表面微光。
这并不意味着它是不可检测的 —— AI 图像检测器仍有约 85% 的识别率 —— 但视觉基准已经实现了跨越。
终于实现了图内文字
GPT Image 1 只能可靠地渲染约 3-5 个单词。GPT Image 2 则可以处理完整的段落,具备正确的字间距,支持可选字体,并跨越多种语言。仅此一点就改变了以下领域的可能性:
- 信息图 (Infographics)
- 带有真实文案的产品原型
- 海报和营销视觉稿
- 漫画分镜
- 带有可读标签的 UI 线框图
场景 + 世界理解
该模型对 物理关系 的理解达到了新高度。诸如“一杯冒着热气的咖啡,旁边是一台显示销售额上升图表的笔记本电脑,晨光从左侧窗户射入”之类的提示词,现在可以生成连贯的场景 —— 蒸汽的方向符合物理规律,窗户光线的角度保持一致,笔记本电脑屏幕上的图表清晰可辨。
在此次发布之前,这一直是所有主流图像模型最薄弱的环节。
自然语言编辑
你现在可以说“让天空看起来更阴郁,其他保持不变”,模型就会精准执行。在 GPT Image 1 中,编辑操作往往会重新生成整个构图完全不同的图像。GPT Image 2 则保留了所有未被触及的部分。
这使得迭代设计工作流首次变得可行 —— 先设计好布局,然后通过语言进行微调,而不是重新输入提示词。
定价
OpenAI 宣布了 GPT Image 2 的三个档位:
- Standard (1024x1024): 每张图约 $0.04
- HD (最高 2048x2048): 每张图约 $0.08
- Ultra (最高 4096x4096,更长计算时间): 每张图约 $0.15
在 Standard 和 HD 档位上,其单张图像成本低于 Midjourney 的无限计划;与 Stable Diffusion 4 的托管服务相比也极具竞争力。
为什么这对构建者很重要
自 DALL-E 3 以来,图像生成一直停留在“适用于灵感板,但不适用于最终交付物”的阶段。GPT Image 2 跨越到了生产就绪的现实交付级别:
- 营销页面可以为每个活动生成实际图像,而不是使用素材库照片或进行手动设计。
- 应用界面 (App interfaces) 可以内联生成初稿视觉效果。
- 内容网站可以为每篇文章配图,而不仅仅是封面图。
- 小型电商产品摄影(食品、手工艺品、一件代发)在没有摄影棚的情况下也变得可行。
Y Build × GPT Image 2 — T+0 集成
在 OpenAI 的 API 今天上线的一瞬间,Y Build 就完成了集成。无需排队,无需测试标签。
你可以通过以下 Y Build 流程使用它:
1. 在任何房间直接生成
在任何 Y Build 群聊中,通过 @ 提及 Designer 智能体:
@Designer 为我的播客网站生成一张首屏大图 (hero image) —— 暗黑学院风,书本和麦克风,昏暗的暖光。
Designer 智能体默认会选择 GPT Image 2 来处理照片级作品(针对特定风格会回退到 DALL-E 3 或 Stable Diffusion 4)。
2. 就地编辑 (In-place editing)
将任何图像(生成的或上传的)放入房间,并要求进行自然语言编辑:
@Designer 把麦克风改成银色而不是黑色,其他保持不变。
Y Build 会追踪编辑历史 —— 每次迭代都是工作区中的一个新版本,因此你可以随时回滚。
3. 自动化批量生成
对于需要大量视觉效果的电商或内容网站,Virtuoso 智能体可以针对提示词列表运行 GPT Image 2,将结果写入你的工作区,并提交到你的仓库。
@Virtuoso 为products.csv中的 24 个项目分别生成产品首屏图,保存为/public/products/{slug}.jpg并提交。
45 分钟后,你将获得 24 张经过 Reviewer 智能体审核品牌一致性的图像,并在分支中等待合并。
4. 工作区集成
所有生成的图像都会存放在你的 Y Build 工作区中。它们是真正的文件 —— 可以在块编辑器中编辑、导出到仓库并进行版本管理。
Y Build 内部定价
- 免费层级 (Free):每月 10 张 GPT Image 2 Standard 生成(超出后免费层级将回退至 DALL-E 3)
- Pro ($69/月):无限 Standard 档,每月 200 张 HD,每月 50 张 Ultra
- Max ($199/月):全部无限,包括 Ultra
DALL-E 3 和 GPT Image 1 怎么办?
两者在 Y Build 中仍然可用。某些用例(如风格化插画、特定的艺术风格)仍然更倾向于使用它们。Designer 智能体会根据提示词自动选择,或者你可以强制指定模型:
@Designer 使用 gpt-image-2 生成:[prompt]
@Designer 使用 dalle-3 生成:[prompt]
Stable Diffusion 4 同样作为 Pro 用户的免费选项提供 —— 虽然照片级写实度略低于 GPT Image 2,但对 Pro 用户不计费。
如何立即开始使用
- 注册 Y Build 免费版 —— 无需信用卡
- 与你的 Conductor 智能体开启一个房间
- 让 Designer 智能体生成图像 —— GPT Image 2 已是默认选项