GPT-5.4 ガイド: OpenAI の自律型エージェントモデル (2026年)
GPT-5.4 は OSWorld で 75% を記録し、コンピュータ操作において人間を上回りました。100万コンテキスト、100万トークンあたり 2.50ドル、5つのモデルバリアント。全ベンチマーク、価格、比較ガイド。
TL;DR
OpenAI は 2026年3月5日に GPT-5.4 をリリースしました。これは、自律的なコンピュータ使用において人間を上回った初めての汎用モデルです。主な統計:
| 機能 | 詳細 |
|---|---|
| OSWorld 検証済み | 75.0% — 人間のベースライン(72.4%)を凌駕 |
| SWE-bench Pro | 57.7% — 強力なコーディング能力だが、Claude Opus 4.6(80.8%)には及ばず |
| コンテキストウィンドウ | 最大 1.05M トークン(標準 272K、拡張 1M) |
| コンピュータ使用 | ネイティブかつ最先端 — 汎用モデルに初めて組み込まれた |
| トークン効率 | 同等のタスクで GPT-5.2 よりも大幅に少ないトークン数 |
| API 価格 | 100万トークンあたり 入力 $2.50 / 出力 $15.00 |
| バリアント | Standard, Thinking, Pro, Mini, Nano |
| インタラクティブ・シンキング | 事前の計画提示 + 回答途中でのステアリング(誘導) |
GPT-5.4 とは?
GPT-5.4 は、2026年3月5日にリリースされた OpenAI のフラッグシップ大規模言語モデルです。GPT-5.3 Codex のコーディングの強みと、画期的な自律的コンピュータ使用(Computer Use)機能、100万トークンのコンテキストウィンドウ、そして新しいインタラクティブ・シンキング・システムを組み合わせています。
最大の見出し:GPT-5.4 は、デスクトップコンピュータのタスクにおいて人間のパフォーマンスを超えた最初の汎用 AI モデルです。 専門の人間テスターが 72.4% を記録するベンチマーク「OSWorld-Verified」において、75.0% をスコアしました。これまで、この閾値を明確に超えたモデルはありませんでした。
これは、4ヶ月足らずで GPT-5.2(47.3%)から 28ポイント向上したことになります。このモデルはスクリーンショットから画面座標を解析し、マウスやキーボードのコマンドを直接発行できるため、ファイル、ブラウザ、ターミナル、生産性ソフトウェアを自律的に操作できます。
主な機能
ネイティブなコンピュータ使用 (Computer Use)
コンピュータ制御のために外部ツールを必要とした以前のモデルとは異なり、GPT-5.4 はコンピュータ使用機能が組み込まれています。Codex アプリおよび API を通じて、モデルは以下を行えます。
- スクリーンショットとキーボード/マウス操作によるデスクトップ環境の操作
- 複数のアプリケーションにまたがる連続した操作
- マルチステップのワークフロー(ファイル管理、ブラウザタスク、ターミナル操作)の完遂
- 表計算ソフト、プレゼンテーション、ドキュメントなどの生産性ソフトウェアの操作
100万トークンのコンテキストウィンドウ
GPT-5.4 は最大 1.05M トークンのコンテキストをサポートします。標準ウィンドウは 272K トークンで、この閾値を超えるリクエストは通常の入力レートの2倍で処理されます。この膨大なコンテキストは、モデルが長いツール利用履歴、大規模なコードベース、または拡張されたドキュメントセットをメモリ内に保持する必要があるエージェント・ワークフローにとって極めて重要です。
インタラクティブ・シンキング (Interactive Thinking)
GPT-5.4 Thinking は新しいパラダイムを導入します。モデルが推論の 事前の計画 (upfront plan) を提示し、ユーザーは 回答の途中でそれを誘導 (steer) できます。最初からやり直すことなく、指示を追加したり、軌道修正したり、方向性を微調整したりできます。これは、複雑で多段階のタスクにおける利便性を大幅に向上させます。
トークン効率の向上
OpenAI の報告によると、GPT-5.4 は GPT-5.2 と比較して問題を解決するために使用するトークンが大幅に少なくなり、事実誤認(ハルシネーション)も 33% 減少しました。プロダクション環境への導入において、これは競争力のある価格設定を考慮する前であっても、タスクあたりのコストが低くなることを意味します。
ベンチマーク
GPT-5.4 がリードする分野
| ベンチマーク | テスト内容 | GPT-5.4 | 最良の競合 |
|---|---|---|---|
| OSWorld-Verified | デスクトップコンピュータの使用 | 75.0% | Claude Opus 4.6: 72.7% |
| Toolathlon | マルチステップのツール/API 使用 | トップスコア | — |
| GDPval | ナレッジワーク | 83% | — |
全モデル比較
| ベンチマーク | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.7% | N/A |
| SWE-bench Verified | ~80% | 80.8% | 80.6% |
| SWE-bench Pro | 57.7% | ~45% | 54.2% |
| ARC-AGI-2 | 52.9% | 68.8% | 77.1% |
| GDPval | 83% | — | — |
数値が意味すること
GPT-5.4 は、コンピュータ使用、コーディング、ナレッジワークを同時にフロンティアレベルで処理できる初めてのモデルです。75% という OSWorld のスコアは最も明確なマイルストーンです。これは、専門的な人間でさえ困難と感じる実際のデスクトップタスクの 4分の3 をモデルが完了できることを意味します。
しかし、状況は一様ではありません。SWE-bench Verified(実世界のコーディング)では、Claude Opus 4.6 と Gemini 3.1 Pro がそれぞれ 80.8% と 80.6% を記録し、GPT-5.4 を大幅に上回っています。抽象的推論(ARC-AGI-2)においても、GPT-5.4 は Claude Opus 4.6 に 16ポイント、Gemini 3.1 Pro に 24ポイント以上の差をつけられています。
結論として:GPT-5.4 は自律的なコンピュータ制御と実用的なツール使用において勝利していますが、すべてのタスクにおいて最適なモデルというわけではありません。
モデルのバリアントと価格
GPT-5.4 は、さまざまなユースケースと予算に合わせて 5つのバリアントで提供されます。
| バリアント | 入力 (1M トークンあたり) | 出力 (1M トークンあたり) | 最適な用途 |
|---|---|---|---|
| GPT-5.4 Standard | $2.50 | $15.00 | 汎用、コンピュータ使用、エージェント・ワークフロー |
| GPT-5.4 Thinking | $2.50 | $15.00 | インタラクティブな計画誘導を伴う複雑な推論 |
| GPT-5.4 Pro | $30.00 | $180.00 | 法務、医療、金融 — 最大限の精度 |
| GPT-5.4 Mini | $0.75 | $4.50 | 大規模ボリューム、低遅延が求められるワークロード |
| GPT-5.4 Nano | 未定 | 未定 | エッジおよび組み込みのユースケース |
- 272K トークンを超えるプロンプトには、標準入力レートの2倍(Standard の場合は $5.00/MTok)が課金されます。
- リージョンごとのデータレジデンシー・エンドポイントには、すべてのバリアントで 10% の追加料金がかかります。
- GPT-5.4 Mini は無料版 ChatGPT ユーザーも利用可能です。Nano は API 専用です。
コスト比較: GPT-5.4 vs Claude Opus 4.6
一般的な 1日のワークロードの場合:
| GPT-5.4 | Claude Opus 4.6 | |
|---|---|---|
| 平均日次コスト | 約 $5.50 | 約 $10.00 |
| 平均月次コスト | 約 $165 | 約 $300 |
| コスト比率 | 1倍 | 約 1.8倍 |
GPT-5.4 は、同等のトークンスループットにおいて Claude Opus 4.6 よりも約 50% 安価です。Mini バリアントはこれをさらに押し進め、SWE-bench Pro で 54.38% を記録しながら、約 6倍低いコストを実現しています。
GPT-5.4 vs Claude Opus 4.6: どちらを使うべきか?
これは 2026年4月現在、多くのチームが抱いている疑問です。答えはワークロードによって異なります。
次のような場合に GPT-5.4 を選択:
- デスクトップ自動化とコンピュータ使用 — OSWorld で 75.0%(Opus 4.6 は 72.7%)
- ツール呼び出しと API オーケストレーション — Toolathlon において、より少ないステップで高い精度を実現
- コスト効率 — Opus 4.6 の約半分のトークン単価
- トークン効率の高い推論 — 問題あたりのトークンが少ないため、請求額を抑えられる
- 迅速なプロトタイピング — 低いオーバーヘッドで高速なイテレーションが可能
次のような場合に Claude Opus 4.6 を選択:
- 複雑な複数ファイルにわたるコードのリファクタリング — SWE-bench Verified で 80.8% とリード
- 長いコンテキストの一貫性 — 非常に長いコンテキスト全体で品質を維持する能力が高い
- 抽象的で斬新な推論 — ARC-AGI-2 で 16ポイントのリード
- エージェントによる検索と深いコードアーキテクチャ — 深い理解を必要とするタスクに優れる
- 文章の質とニュアンス — Chatbot Arena のユーザー満足度で第1位
直接比較のまとめ
| 評価軸 | 勝者 | 差 |
|---|---|---|
| コンピュータ使用 (OSWorld) | GPT-5.4 | 75.0% vs 72.7% |
| コーディング (SWE-bench Verified) | Claude Opus 4.6 | 80.8% vs ~80% |
| 抽象的推論 (ARC-AGI-2) | Claude Opus 4.6 | 68.8% vs 52.9% |
| ツール呼び出し (Toolathlon) | GPT-5.4 | より少ないステップ、高い精度 |
| ナレッジワーク (GDPval) | GPT-5.4 | 83% |
| 価格 | GPT-5.4 | 約 50% 安価 |
| ユーザー満足度 | Claude Opus 4.6 | Chatbot Arena 第1位 |
GPT-5.4 へのアクセス方法
GPT-5.4 は以下から利用可能です。
- ChatGPT — GPT-5.4 Thinking は Plus、Pro、Team ユーザーのデフォルトモデルです。Mini は無料ユーザーでも利用可能です。
- OpenAI API — 標準の Completions および Chat エンドポイント経由で 5つのバリアントすべてにアクセス可能です。
- Codex アプリ — デスクトップエージェントによる完全なコンピュータ使用機能が利用可能です。
- OpenRouter — 競争力のある料金でサードパーティ経由のアクセスが可能です。
computer_use ツールパラメータを有効にし、画像入力としてスクリーンショットを提供する必要があります。モデルは、アプリケーションがシステムイベントに変換するための構造化されたアクション(クリック、入力、スクロールなど)を返します。
FAQ
GPT-5.4 は Claude Opus 4.6 より優れていますか?
タスクによります。GPT-5.4 はコンピュータ使用、ツール呼び出し、コスト効率で勝っています。Claude Opus 4.6 は複雑なコーディング、抽象的推論、文章の質で勝っています。ほとんどのチームにとって、選択は主なワークロードがデスクトップ自動化(GPT-5.4)か、深いソフトウェアエンジニアリング(Opus 4.6)かによって決まります。
GPT-5.4 の料金はいくらですか?
Standard モデルは、入力 100万トークンあたり $2.50、出力 100万トークンあたり $15.00 です。Pro バリアントは $30/$180、Mini は $0.75/$4.50 です。272K トークンを超えるプロンプトには 2倍の入力レートが課金されます。
GPT-5.4 は本当に人間より上手にコンピュータを使えるのですか?
OSWorld-Verified ベンチマークにおいては、人間の専門家ベースライン 72.4% に対して 75.0% と、その通りです。ただし、ベンチマークは特定のタスクカテゴリを測定するものです。現実世界のコンピュータ使用には、ベンチマークでは完全に捉えきれない判断、コンテキスト、適応力が含まれます。あくまで「構造化されたデスクトップタスクにおいて人間を超えた」と考えるのが適切であり、人間のコンピュータ使用を全面的に代替するものではありません。
GPT-5.4 のコンテキストウィンドウは?
最大 105万トークンです。標準層は 272K トークンです。272K を超えると入力トークンコストが 2倍になります。1M のフルコンテキストは、長い対話履歴が蓄積されるエージェント・ワークフローにおいて不可欠です。
GPT-5.3 Codex からアップグレードすべきですか?
ワークロードにコンピュータ使用や複数ツールのオーケストレーションが含まれる場合は、はい。OSWorld における 64.7% から 75.0% への飛躍はかなりのものです。純粋なコーディングタスクについては、GPT-5.3 Codex からの向上は漸進的です(SWE-bench Pro で 56.8% から 57.7%)。特定のユースケースに基づいて評価してください。
どのモデルバリアントが利用可能ですか?
Standard, Thinking, Pro, Mini, Nano の 5つです。Standard と Thinking は価格設定が同じで、ほとんどのユースケースにおけるメインモデルです。Pro は最高精度を求めるプレミアム層です。Mini はコスト重視のプロダクション環境向け、Nano はエッジおよび組み込みアプリケーション向けに設計されています。
結論
GPT-5.4 は、自律型 AI エージェントにとって真の転換点となります。汎用モデルとして初めてデスクトップコンピュータの使用で人間の専門家を上回り、かつ主要な競合よりも 50% 安価です。5つのバリアント展開により、あらゆる予算と遅延要件に対応する GPT-5.4 が存在します。
とはいえ、すべての分野で最高というわけではありません。Claude Opus 4.6 は依然として複雑なソフトウェアエンジニアリングや抽象的推論において強力な選択肢であり、Gemini 3.1 Pro もいくつかの推論ベンチマークでリードしています。ほとんどのチームにとっての正解は「どのモデルが最高か」ではなく「このタスクに最適なのはどのモデルか」です。
AI 駆動の製品を構築しており、インフラに煩わされることなく GPT-5.4 や Claude Opus 4.6 のようなモデルを活用したいのであれば、Y Build が迅速なリリースをサポートします。私たちは AI アプリケーションの構築、デプロイ、イテレーションのためのツールとプラットフォームを提供しており、開発者は配管作業ではなく製品そのものに集中できます。
出典: OpenAI GPT-5.4 Announcement, OpenAI API Pricing, NxCode GPT-5.4 Complete Guide, NxCode GPT-5.4 vs Claude Opus 4.6, DataCamp GPT-5.4 Overview, Artificial Analysis GPT-5.4, MindStudio Benchmark Comparison, Nerd Level Tech: GPT-5.4 Beats Humans