GPT Image 2 发布：OpenAI 史上最强图像模型，Y Build 首日同步上线

TL;DR

OpenAI 今天发布了 GPT Image 2 —— gpt-image-1 和 DALL-E 3 的继任者。根据发布资料，它是目前最强的公开图像生成模型：

照片级写实 (Photorealism)：其水平让 GPT Image 1 看起来像是 2023 年的老旧模型
图内文字 (Text-in-image)：文字呈现非常准确，包括长段落和多种字体
场景理解 (Scene understanding)：对空间关系、物理特性、阴影和光影连贯性有深刻理解
构图准确性 (Compositional accuracy)：能够正确处理包含 5 个以上主体的复杂提示词
编辑功能 (Editing)：支持自然语言局部编辑，同时保留场景的其他部分
速度：1024x1024 分辨率下生成首张图像仅需 4-6 秒

Y Build 已在 T+0（与 OpenAI 发布同日）集成 GPT Image 2。 每一位 Pro 和 Max 订阅用户现在都可以通过任何 Designer 或 Illustrator 智能体直接调用。免费层级用户可获得限时预览。

究竟有哪些新变化

无“AI 感”的照片级写实

通过与 GPT Image 1 的对比可以发现，AI 生成图像中常见的瑕疵 —— 细微的手部畸形、过度平滑的皮肤、不合理的照明 —— 在 GPT Image 2 中已基本消失。OpenAI 的示例重点展示了皮肤纹理、毛囊细节以及表面微光。

这并不意味着它是不可检测的 —— AI 图像检测器仍有约 85% 的识别率 —— 但视觉基准已经实现了跨越。

终于实现了图内文字

GPT Image 1 只能可靠地渲染约 3-5 个单词。GPT Image 2 则可以处理完整的段落，具备正确的字间距，支持可选字体，并跨越多种语言。仅此一点就改变了以下领域的可能性：

信息图 (Infographics)
带有真实文案的产品原型
海报和营销视觉稿
漫画分镜
带有可读标签的 UI 线框图

场景 + 世界理解

该模型对 物理关系 的理解达到了新高度。诸如“一杯冒着热气的咖啡，旁边是一台显示销售额上升图表的笔记本电脑，晨光从左侧窗户射入”之类的提示词，现在可以生成连贯的场景 —— 蒸汽的方向符合物理规律，窗户光线的角度保持一致，笔记本电脑屏幕上的图表清晰可辨。

在此次发布之前，这一直是所有主流图像模型最薄弱的环节。

自然语言编辑

你现在可以说“让天空看起来更阴郁，其他保持不变”，模型就会精准执行。在 GPT Image 1 中，编辑操作往往会重新生成整个构图完全不同的图像。GPT Image 2 则保留了所有未被触及的部分。

这使得迭代设计工作流首次变得可行 —— 先设计好布局，然后通过语言进行微调，而不是重新输入提示词。

定价

OpenAI 宣布了 GPT Image 2 的三个档位：

Standard (1024x1024): 每张图约 $0.04

HD (最高 2048x2048): 每张图约 $0.08

Ultra (最高 4096x4096，更长计算时间): 每张图约 $0.15

在 Standard 和 HD 档位上，其单张图像成本低于 Midjourney 的无限计划；与 Stable Diffusion 4 的托管服务相比也极具竞争力。

为什么这对构建者很重要

自 DALL-E 3 以来，图像生成一直停留在“适用于灵感板，但不适用于最终交付物”的阶段。GPT Image 2 跨越到了生产就绪的现实交付级别：

营销页面可以为每个活动生成实际图像，而不是使用素材库照片或进行手动设计。
应用界面 (App interfaces) 可以内联生成初稿视觉效果。
内容网站可以为每篇文章配图，而不仅仅是封面图。
小型电商产品摄影（食品、手工艺品、一件代发）在没有摄影棚的情况下也变得可行。

在实践中这意味着：“再多一张视觉图”的成本下降了 10-100 倍。任何以前因为成本不划算而略过视觉效果的产品，现在都有理由添加它们。

Y Build × GPT Image 2 — T+0 集成

在 OpenAI 的 API 今天上线的一瞬间，Y Build 就完成了集成。无需排队，无需测试标签。

你可以通过以下 Y Build 流程使用它：

1. 在任何房间直接生成

在任何 Y Build 群聊中，通过 @ 提及 Designer 智能体：

@Designer 为我的播客网站生成一张首屏大图 (hero image) —— 暗黑学院风，书本和麦克风，昏暗的暖光。

Designer 智能体默认会选择 GPT Image 2 来处理照片级作品（针对特定风格会回退到 DALL-E 3 或 Stable Diffusion 4）。

2. 就地编辑 (In-place editing)

将任何图像（生成的或上传的）放入房间，并要求进行自然语言编辑：

@Designer 把麦克风改成银色而不是黑色，其他保持不变。

Y Build 会追踪编辑历史 —— 每次迭代都是工作区中的一个新版本，因此你可以随时回滚。

3. 自动化批量生成

对于需要大量视觉效果的电商或内容网站，Virtuoso 智能体可以针对提示词列表运行 GPT Image 2，将结果写入你的工作区，并提交到你的仓库。

@Virtuoso 为 products.csv 中的 24 个项目分别生成产品首屏图，保存为 /public/products/{slug}.jpg 并提交。

45 分钟后，你将获得 24 张经过 Reviewer 智能体审核品牌一致性的图像，并在分支中等待合并。

4. 工作区集成

所有生成的图像都会存放在你的 Y Build 工作区中。它们是真正的文件 —— 可以在块编辑器中编辑、导出到仓库并进行版本管理。

Y Build 内部定价

免费层级 (Free)：每月 10 张 GPT Image 2 Standard 生成（超出后免费层级将回退至 DALL-E 3）
Pro ($69/月)：无限 Standard 档，每月 200 张 HD，每月 50 张 Ultra
Max ($199/月)：全部无限，包括 Ultra

无需单独的 OpenAI API 密钥 —— 我们已打包了访问权限。如果你在其他工作中已拥有 OpenAI 额度，两者互不冲突；Y Build 拥有自己的资源池。

DALL-E 3 和 GPT Image 1 怎么办？

两者在 Y Build 中仍然可用。某些用例（如风格化插画、特定的艺术风格）仍然更倾向于使用它们。Designer 智能体会根据提示词自动选择，或者你可以强制指定模型：

@Designer 使用 gpt-image-2 生成：[prompt]

@Designer 使用 dalle-3 生成：[prompt]

Stable Diffusion 4 同样作为 Pro 用户的免费选项提供 —— 虽然照片级写实度略低于 GPT Image 2，但对 Pro 用户不计费。

如何立即开始使用

注册 Y Build 免费版 —— 无需信用卡
与你的 Conductor 智能体开启一个房间
让 Designer 智能体生成图像 —— GPT Image 2 已是默认选项

如果你已经是 Y Build 用户，只需在任何房间中提到 @Designer —— GPT Image 2 已经上线。

FAQ

GPT Image 2 真的比 Midjourney v7 更好吗？

在照片级写实和图内文字方面，是的。对于风格化艺术（动漫、概念艺术、绘画风格），Midjourney v7 仍然具有优势。我们认识的大多数设计师会两者兼用。

GPT Image 2 可以生成 NSFW 内容吗？

不可以。OpenAI 的内容政策同样适用。

支持哪些分辨率？

Standard 档支持 1024x1024 (正方形)、1024x1792、1792x1024。HD 档长边最高支持 2048。Ultra 档最高支持 4096。非正方形比例是原生生成的，而非拉伸。

Y Build 会缓存生成结果吗？

是的。在同一个房间内输入相同的提示词将返回缓存的图像，而不是重新生成 —— 这能节省你的配额并实现即时加载。

Y Build 端的“T+0 集成”是如何实现的？

Y Build 的智能体框架将模型层与编排层分离。当 OpenAI 发布新的模型端点时，我们只需要将其添加到模型注册表并调整 Designer 智能体的路由逻辑 —— 这通常只需要约 2 小时的工作。对于此类重大发布，我们会在 NDA 涵盖的细节公布前预先准备，并在公共 API 开放的一瞬间完成部署。

我可以根据我的品牌微调 (Fine-tune) GPT Image 2 吗？

OpenAI 的图像模型微调功能尚未开放（截至 2026 年 4 月）。为了获得品牌一致的输出，Y Build 的 Designer 智能体会维护每个项目的风格指南，并将其附加到每个提示词中 —— 效果相同，且无需训练。

2026 年图像模型接下来的动向是什么？

Stable Diffusion 4 将于 5 月发布；传闻 Midjourney v8 将在夏季推出；Adobe 预计在 10 月的 Max 大会上宣布一款完全商业安全的模型。我们会在它们发布的当天完成集成。