GPT Image 2 登場:OpenAI 史上最強の画像モデルが Y Build で初日から利用可能に
OpenAI が GPT Image 2 を発表しました。フォトリアルな出力、信頼性の高い画像内テキスト、世界モデルによるシーン理解を実現。新機能、デザイナーやビルダーにとっての重要性、そして Y Build が初日(T+0)にどのように統合したかを解説します。
TL;DR
OpenAI は本日、gpt-image-1 および DALL-E 3 の後継となる GPT Image 2 をリリースしました。公開された資料に基づくと、これは現時点で公開されている中で最強の画像生成モデルです。
- フォトリアル: GPT Image 1 が 2023 年のモデルに見えるほどのレベル
- 画像内テキスト: 長い文章や複数のフォントを含め、正しく読み取れるテキストを描画
- シーン理解: 空間関係、物理法則、影と光の整合性を把握
- 構図の正確性: 5 つ以上の被写体を含む複雑なプロンプトを正確に維持
- 編集: シーンの他の部分を維持したまま、自然言語によるインプレース編集が可能
- スピード: 1024x1024 の最初の画像生成まで 4〜6 秒
何が新しくなったのか
「AI っぽさ」のないフォトリアル
GPT Image 1 と比較すると、AI 生成画像特有の違和感(わずかな手の造形の崩れ、滑らかすぎる肌、不自然な照明)が GPT Image 2 では大幅に解消されています。OpenAI の例では、肌の質感、毛包のディテール、表面の微細な反射などが強調されています。
これが完全に検出不可能というわけではありません(AI 画像検出器は依然として約 85% の確率で捉えます)が、視覚的な基準値は大きく跳ね上がりました。
ついに実現した、画像内のテキスト
GPT Image 1 で信頼できるのは 3〜5 単語程度でした。GPT Image 2 は、適切にカーニングされ、選択可能なフォントで、複数の言語にわたる全文の段落をレンダリングできます。これだけで、以下のような用途の可能性が変わります。
- インフォグラフィック
- 実際のコピーを入れた製品モックアップ
- ポスターやマーケティングビジュアル
- 漫画のコマ
- 読み取り可能なラベル付きの UI ワイヤーフレーム
シーンと世界の理解
このモデルは、物理的な関係性を新しいレベルで理解しています。「湯気が立ち上がるコーヒーカップ、その横に売上上昇のグラフを表示したノート PC、左側の窓から差し込む朝の光」といったプロンプトに対し、物理法則に沿った湯気の方向、窓の光の角度との整合性、判読可能なグラフを表示した PC 画面など、一貫したシーンを生成します。
これは、今回のリリースまで、あらゆる主要な画像モデルにおいて最も弱点だった部分です。
自然言語による編集
「空をより嵐のようにして、他はすべてそのままにして」と指示すれば、モデルはその通りに実行します。GPT Image 1 では、編集を行うとしばしば異なる構図で画像全体が再生成されていました。GPT Image 2 は、手を加えていない部分をすべて維持します。
これにより、反復的なデザインワークフローが初めて実用的になります。一度レイアウトをデザインすれば、プロンプトを最初から書き直すのではなく、言語で微調整していくことができます。
価格
OpenAI は GPT Image 2 に対して 3 つのティアを発表しました。
- Standard (1024x1024): 1 画像あたり約 0.04 ドル
- HD (最大 2048x2048): 1 画像あたり約 0.08 ドル
- Ultra (最大 4096x4096, 長時間の計算): 1 画像あたり約 0.15 ドル
Standard と HD の 1 画像あたりのコストは Midjourney の無制限プランを下回り、Stable Diffusion 4 のホスティングサービスと同等の競争力があります。
なぜこれがビルダーにとって重要なのか
画像生成は DALL-E 3 以降、「ムードボードには便利だが、最終成果物には向かない」というカテゴリーに留まっていました。GPT Image 2 は、実世界の成果物に対応できるプロダクションレディの領域に踏み込みました。
- マーケティングページ: ストックフォトや手動のデザインセッションの代わりに、キャンペーンごとに実際の画像を生成できます。
- アプリインターフェース: 初案のビジュアルをインラインで生成できます。
- コンテンツサイト: アイキャッチ画像だけでなく、すべての記事に挿入図を入れることができます。
- 製品写真: 小規模な EC(食品、工芸品、ドロップシッピング)において、スタジオなしで撮影級の画像が利用可能になります。
Y Build × GPT Image 2 — T+0 統合
Y Build は、本日 OpenAI の API が公開された瞬間に GPT Image 2 を統合しました。ウェイティングリストもベータフラグもありません。
以下の Y Build フローを通じて利用可能です。
1. 任意のルームでの直接生成
Y Build のグループチャットで、Designer エージェントをタグ付けしてください。
@Designer ポッドキャストのウェブサイト用のヒーロー画像を生成して。ダークアカデミアな雰囲気で、本とマイク、薄暗く温かい光で。
Designer エージェントは、フォトリアルな作業にはデフォルトで GPT Image 2 を選択します(特定のスタイルの場合は DALL-E 3 や Stable Diffusion 4 にフォールバックします)。
2. インプレース編集
生成またはアップロードした画像をルームにドロップし、自然言語で編集を依頼します。
@Designer マイクを黒ではなくシルバーにして。他はすべてそのままで。
Y Build は編集履歴を追跡します。すべてのイテレーションはワークスペース内の新しいバージョンとして保存されるため、いつでもロールバック可能です。
3. 自動バッチ生成
多くのビジュアルを必要とする EC やコンテンツサイト向けに、Virtuoso エージェントがプロンプトのリストに基づいて GPT Image 2 を実行し、結果をワークスペースに書き込み、リポジトリにコミットできます。
@Virtuosoproducts.csvにある 24 項目それぞれの製品ヒーロー画像を生成し、/public/products/{slug}.jpgとして保存してコミットして。
45 分後には、ブランドの一貫性を Reviewer エージェントが確認した 24 枚の画像が、マージ可能なブランチにステージングされます。
4. ワークスペース統合
生成されたすべての画像は Y Build ワークスペースに保存されます。これらは、ブロックエディタで編集可能で、リポジトリにエクスポートでき、バージョン管理された実際ファイルです。
Y Build 内の料金
- Free ティア: 月 10 回の GPT Image 2 Standard 生成(それ以降は DALL-E 3 にフォールバック)
- Pro ($69/mo): Standard は無制限、HD は月 200 回、Ultra は月 50 回
- Max ($199/mo): Ultra を含むすべてが無制限
DALL-E 3 や GPT Image 1 はどうなりますか?
両方とも引き続き Y Build で利用可能です。ユースケース(定型化されたイラスト、特定のアーティスティックスタイル)によっては、それらの方が適している場合があります。Designer エージェントはプロンプトに基づいて自動選択しますが、特定のモデルを強制することも可能です。
@Designer Generate with gpt-image-2: [プロンプト]
@Designer Generate with dalle-3: [プロンプト]
Stable Diffusion 4 も Pro ユーザー向けの無料オプションとして利用可能です。GPT Image 2 よりもフォトリアルさはわずかに劣りますが、Pro ユーザーは計算コストの請求なしで利用できます。
今日から使い始める方法
- Y Build に無料でサインアップ(クレジットカード不要)
- Conductor エージェントがいるルームを開始
- Designer エージェントに画像生成を依頼 — デフォルトで GPT Image 2 が使用されます