GPT Image 2 登場：OpenAI 史上最強の画像モデルが Y Build で初日から利用可能に

TL;DR

OpenAI は本日、gpt-image-1 および DALL-E 3 の後継となる GPT Image 2 をリリースしました。公開された資料に基づくと、これは現時点で公開されている中で最強の画像生成モデルです。

フォトリアル: GPT Image 1 が 2023 年のモデルに見えるほどのレベル
画像内テキスト: 長い文章や複数のフォントを含め、正しく読み取れるテキストを描画
シーン理解: 空間関係、物理法則、影と光の整合性を把握
構図の正確性: 5 つ以上の被写体を含む複雑なプロンプトを正確に維持
編集: シーンの他の部分を維持したまま、自然言語によるインプレース編集が可能
スピード: 1024x1024 の最初の画像生成まで 4〜6 秒

Y Build は GPT Image 2 を T+0（OpenAI のリリース当日）に統合しました。 すべての Pro および Max サブスクライバーは、Designer または Illustrator エージェントを通じて今すぐ利用可能です。無料プランでは限定プレビューが提供されます。

何が新しくなったのか

「AI っぽさ」のないフォトリアル

GPT Image 1 と比較すると、AI 生成画像特有の違和感（わずかな手の造形の崩れ、滑らかすぎる肌、不自然な照明）が GPT Image 2 では大幅に解消されています。OpenAI の例では、肌の質感、毛包のディテール、表面の微細な反射などが強調されています。

これが完全に検出不可能というわけではありません（AI 画像検出器は依然として約 85% の確率で捉えます）が、視覚的な基準値は大きく跳ね上がりました。

ついに実現した、画像内のテキスト

GPT Image 1 で信頼できるのは 3〜5 単語程度でした。GPT Image 2 は、適切にカーニングされ、選択可能なフォントで、複数の言語にわたる全文の段落をレンダリングできます。これだけで、以下のような用途の可能性が変わります。

インフォグラフィック
実際のコピーを入れた製品モックアップ
ポスターやマーケティングビジュアル
漫画のコマ
読み取り可能なラベル付きの UI ワイヤーフレーム

シーンと世界の理解

このモデルは、物理的な関係性を新しいレベルで理解しています。「湯気が立ち上がるコーヒーカップ、その横に売上上昇のグラフを表示したノート PC、左側の窓から差し込む朝の光」といったプロンプトに対し、物理法則に沿った湯気の方向、窓の光の角度との整合性、判読可能なグラフを表示した PC 画面など、一貫したシーンを生成します。

これは、今回のリリースまで、あらゆる主要な画像モデルにおいて最も弱点だった部分です。

自然言語による編集

「空をより嵐のようにして、他はすべてそのままにして」と指示すれば、モデルはその通りに実行します。GPT Image 1 では、編集を行うとしばしば異なる構図で画像全体が再生成されていました。GPT Image 2 は、手を加えていない部分をすべて維持します。

これにより、反復的なデザインワークフローが初めて実用的になります。一度レイアウトをデザインすれば、プロンプトを最初から書き直すのではなく、言語で微調整していくことができます。

価格

OpenAI は GPT Image 2 に対して 3 つのティアを発表しました。

Standard (1024x1024): 1 画像あたり約 0.04 ドル

HD (最大 2048x2048): 1 画像あたり約 0.08 ドル

Ultra (最大 4096x4096, 長時間の計算): 1 画像あたり約 0.15 ドル

Standard と HD の 1 画像あたりのコストは Midjourney の無制限プランを下回り、Stable Diffusion 4 のホスティングサービスと同等の競争力があります。

なぜこれがビルダーにとって重要なのか

画像生成は DALL-E 3 以降、「ムードボードには便利だが、最終成果物には向かない」というカテゴリーに留まっていました。GPT Image 2 は、実世界の成果物に対応できるプロダクションレディの領域に踏み込みました。

マーケティングページ: ストックフォトや手動のデザインセッションの代わりに、キャンペーンごとに実際の画像を生成できます。
アプリインターフェース: 初案のビジュアルをインラインで生成できます。
コンテンツサイト: アイキャッチ画像だけでなく、すべての記事に挿入図を入れることができます。
製品写真: 小規模な EC（食品、工芸品、ドロップシッピング）において、スタジオなしで撮影級の画像が利用可能になります。

実務上の意味：「もう 1 つビジュアルを追加する」コストが 10〜100 分の 1 に低下しました。 これまでコストが見合わずにビジュアルをスキップしていたあらゆるプロダクトに、ビジュアルを追加する理由ができました。

Y Build × GPT Image 2 — T+0 統合

Y Build は、本日 OpenAI の API が公開された瞬間に GPT Image 2 を統合しました。ウェイティングリストもベータフラグもありません。

以下の Y Build フローを通じて利用可能です。

1. 任意のルームでの直接生成

Y Build のグループチャットで、Designer エージェントをタグ付けしてください。

@Designer ポッドキャストのウェブサイト用のヒーロー画像を生成して。ダークアカデミアな雰囲気で、本とマイク、薄暗く温かい光で。

Designer エージェントは、フォトリアルな作業にはデフォルトで GPT Image 2 を選択します（特定のスタイルの場合は DALL-E 3 や Stable Diffusion 4 にフォールバックします）。

2. インプレース編集

生成またはアップロードした画像をルームにドロップし、自然言語で編集を依頼します。

@Designer マイクを黒ではなくシルバーにして。他はすべてそのままで。

Y Build は編集履歴を追跡します。すべてのイテレーションはワークスペース内の新しいバージョンとして保存されるため、いつでもロールバック可能です。

3. 自動バッチ生成

多くのビジュアルを必要とする EC やコンテンツサイト向けに、Virtuoso エージェントがプロンプトのリストに基づいて GPT Image 2 を実行し、結果をワークスペースに書き込み、リポジトリにコミットできます。

@Virtuoso products.csv にある 24 項目それぞれの製品ヒーロー画像を生成し、/public/products/{slug}.jpg として保存してコミットして。

45 分後には、ブランドの一貫性を Reviewer エージェントが確認した 24 枚の画像が、マージ可能なブランチにステージングされます。

4. ワークスペース統合

生成されたすべての画像は Y Build ワークスペースに保存されます。これらは、ブロックエディタで編集可能で、リポジトリにエクスポートでき、バージョン管理された実際ファイルです。

Y Build 内の料金

Free ティア: 月 10 回の GPT Image 2 Standard 生成（それ以降は DALL-E 3 にフォールバック）
Pro ($69/mo): Standard は無制限、HD は月 200 回、Ultra は月 50 回
Max ($199/mo): Ultra を含むすべてが無制限

個別の OpenAI API キーは不要です。アクセス権はパッケージに含まれています。すでに他の作業で OpenAI のクレジットをお持ちの場合でも、競合しません。Y Build は独自のプールを持っています。

DALL-E 3 や GPT Image 1 はどうなりますか？

両方とも引き続き Y Build で利用可能です。ユースケース（定型化されたイラスト、特定のアーティスティックスタイル）によっては、それらの方が適している場合があります。Designer エージェントはプロンプトに基づいて自動選択しますが、特定のモデルを強制することも可能です。

@Designer Generate with gpt-image-2: [プロンプト]

@Designer Generate with dalle-3: [プロンプト]

Stable Diffusion 4 も Pro ユーザー向けの無料オプションとして利用可能です。GPT Image 2 よりもフォトリアルさはわずかに劣りますが、Pro ユーザーは計算コストの請求なしで利用できます。

今日から使い始める方法

Y Build に無料でサインアップ（クレジットカード不要）
Conductor エージェントがいるルームを開始
Designer エージェントに画像生成を依頼 — デフォルトで GPT Image 2 が使用されます

すでに Y Build ユーザーの方は、任意のルームで @Designer メンションを送るだけです。GPT Image 2 は既にライブ状態です。

FAQ

GPT Image 2 は本当に Midjourney v7 より優れていますか？

フォトリアルさと画像内テキストについては、イエスです。スタイリッシュなアート（アニメ、コンセプトアート、絵画的なルック）については、依然として Midjourney v7 に分があります。私たちの知るデザイナーの多くは、両方を使い分けるでしょう。

GPT Image 2 で NSFW コンテンツを生成できますか？

いいえ。OpenAI のコンテンツポリシーが適用されます。

サポートされている解像度は？

Standard は 1024x1024（正方形）、1024x1792、1792x1024。HD は長辺最大 2048。Ultra は最大 4096。非正方形のアスペクト比は、アップスケールではなくネイティブにサポートされています。

Y Build は生成結果をキャッシュしますか？

はい。同じルーム内で同一のプロンプトが使用された場合、再生成せずにキャッシュされた画像を返します。これによりクォータを節約し、即座にロードされます。

Y Build 側の「T+0 統合」はどのように仕組みですか？

Y Build のエージェントフレームワークは、モデルレイヤーとオーケストレーションレイヤーを分離しています。OpenAI が新しいモデルエンドポイントを公開した際、モデルレジストリに追加し、Designer エージェントのルーティングロジックを調整するだけで済みます。通常、これは約 2 時間の作業です。今回のような大きなリリースの場合は、NDA 範囲内の詳細に基づいて事前に準備を進め、パブリック API がオープンした瞬間にデプロイします。

自社ブランドに合わせて GPT Image 2 をファインチューニングできますか？

OpenAI の画像モデル向けファインチューニングは（2026 年 4 月現在）まだ利用できません。ブランドの一貫性を保つために、Y Build の Designer エージェントはプロジェクトごとのスタイルガイドを保持しており、それをすべてのプロンプトに付加します。これにより、トレーニングなしで同様の効果が得られます。

2026 年、画像モデルの次なる展開は？

5 月には Stable Diffusion 4 がリリースされ、夏には Midjourney v8 の噂があります。Adobe は 10 月の Max で完全に商用利用が安全なモデルを発表すると予想されています。私たちはそれぞれ、リリースの当日に統合を行う予定です。