GPT-5.3 Codex: OpenAIの自律型コーディングエージェント
OpenAIは2026年2月5日にGPT-5.3 Codexをリリースしました。これは、自ら自身の構築を支援した初のAIモデルです。Terminal-Bench 77.3%、SWE-Bench Pro 56.8%、数時間に及ぶ自律型コーディングセッションを実現。機能、ベンチマーク、Claude Codeとの比較の完全な内訳。
TL;DR
OpenAIは2026年2月5日、AnthropicがOpus 4.6をリリースしたのと同じ日にGPT-5.3 Codexをリリースしました。主な統計は以下の通りです:
- Terminal-Bench 2.0: 77.3% — エージェントによるターミナルコーディングにおいて全モデルをリード
- SWE-Bench Pro: 56.8% — 4つのプログラミング言語にわたってトップスコアを記録
- OSWorld: 64.7% — 強力なコンピュータ操作(ただしSonnet 4.6の72.5%には及ばず)
- GPT-5.2 Codexより25%高速
- 作業中のインタラクティブな操作 — 文脈を失うことなくタスクの途中でエージェントを誘導可能
- 初のセルフブートストラップモデル — GPT-5.3 Codexは自身のトレーニングのデバッグを支援
- ChatGPTの有料プラン向けにCodexアプリ、CLI、IDE拡張機能で利用可能
- APIの価格設定は未公開
OpenAIの発表内容
GPT-5.3 Codexは単に優れたコーディングモデルではありません。デバッグ、デプロイ、モニタリング、PRDの作成、コピーの編集、テストの実行など、ソフトウェアライフサイクル全般を担うエージェントとして設計されたOpenAI初のモデルです。
最大の特徴は、自律的な長時間タスクです。GPT-5.3 Codexに複雑なタスクを与えると、調査、ツールの使用、コードの実行を行い、進行状況に合わせて計画を適応させながら、数時間にわたって作業を継続します。同僚と協力するように、文脈を維持したままタスクの途中で指示を出し直すことができます。
OpenAIの最も刺激的な主張は、GPT-5.3 Codexが「自身の作成に不可欠な役割を果たした最初のモデル」であるということです。Codexチームは、初期バージョンを使用して、自身のトレーニングパイプラインのデバッグ、デプロイの管理、評価結果の診断を行いました。
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
ベンチマーク
GPT-5.3 Codexがリードする項目
| ベンチマーク | テスト内容 | GPT-5.3 Codex | 最有力な競合モデル |
|---|---|---|---|
| Terminal-Bench 2.0 | エージェントによるターミナルコーディング | 77.3% | Gemini 3.1 Pro: 68.5% |
| SWE-Bench Pro | マルチ言語コーディング | 56.8% | Gemini 3.1 Pro: 54.2% |
| HumanEval | コード生成 | 93% | — |
| GPQA | 科学的推論 | 81% | Gemini 3.1 Pro: 94.3% |
総合比較
| ベンチマーク | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 77.3% | 65.4% | 59.1% | 68.5% |
| SWE-Bench Pro | 56.8% | — | — | 54.2% |
| OSWorld | 64.7% | 72.7% | 72.5% | N/A |
| SWE-bench Verified | ~80% | 80.8% | 79.6% | 80.6% |
| ARC-AGI-2 | 52.9% | 68.8% | 58.3% | 77.1% |
数値が意味すること
GPT-5.3 Codexは、AIエージェントがコードベースをナビゲートし、コマンドを実行し、出力を解釈し、エラーを修正し、反復作業を行う必要があるエージェントによるターミナルコーディングにおいて圧倒的な強さを見せています。77.3%というTerminal-Benchのスコアは、次点のGemini 3.1 Pro(68.5%)に約9ポイント、Opus 4.6(65.4%)に12ポイントの差をつけています。
しかし、コンピュータ操作(OSWorld)ではClaudeに大きく差をつけられており(64.7%対Sonnet 4.6の72.5%)、推論(ARC-AGI-2)でもGemini 3.1 Pro(77.1%)やOpus 4.6(68.8%)に大きく遅れをとっています。
主な機能
1. 数時間に及ぶ自律セッション
従来のコーディングモデルは、プロンプトを入力し、応答が返り、再びプロンプトを入力するという、短時間のやり取りで動作していました。GPT-5.3 Codexは、多くのステップにわたって自身のワークフローを管理しながら、複雑なタスクを継続的に実行します。
ワークフローの例:「認証システムをJWTからOAuth 2.0に移行し、影響を受けるすべてのエンドポイントを更新し、テストを作成して、移行が機能することを確認してください。」 GPT-5.3 Codexはコードベースを調査し、移行を計画し、ファイルごとに実行し、テストを実行し、失敗を修正して報告します。これらすべてを、場合によっては数時間にわたって行います。
2. インタラクティブな操作(ステアリング)
GPT-5.3 Codexが作業している間、文脈を失うことなく方向性を修正することができます。エージェントが間違った方向に進んでいることに気づいた場合は、方向転換を指示できます。会話は途切れることなく継続されます。
3. ソフトウェアライフサイクル全般
OpenAIは、GPT-5.3 Codexを単なるコード記述以上の存在として明確に位置づけています:
- デバッグ — エラーログを読み取り、根本原因を追跡し、修正を適用
- デプロイ — デプロイパイプラインと設定を管理
- モニタリング — 実行中のシステムの異常を監視
- PRDとドキュメント — 製品要件とドキュメントを記述
- ユーザーリサーチ — フィードバックとテスト結果を統合
- テスト — テストスイートの生成と実行
- メトリクス — パフォーマンスデータの分析
4. セルフブートストラップ
GPT-5.3 Codexは、開発中に自身の初期バージョンを以下の目的で使用しました:
- トレーニングパイプラインの問題のデバッグ
- モデルデプロイの管理
- 評価結果の診断
- 数百万トークンに及ぶゲーム開発の自律的な反復作業
AIモデルが自身の創造に貢献したと公に説明されたのは、これが初めてのことです。
GPT-5.3 Codex vs. Claude Code
| 能力 | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| ターミナルコーディング | 77.3% | Opus: 65.4%, Sonnet: 59.1% |
| コンピュータ操作 | 64.7% | Sonnet: 72.5%, Opus: 72.7% |
| SWE-bench | ~80% | Opus: 80.8%, Sonnet: 79.6% |
| 数時間の自律性 | あり | 限定的 |
| インタラクティブな操作 | あり | あり |
| IDE統合 | Codex IDE拡張機能 | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| 事務タスク | 限定的 | Sonnet: 1633 Elo |
| プロンプトインジェクション耐性 | 標準的 | Opusレベル |
| API価格 | 未定 | $3/$15 (Sonnet), $15/$75 (Opus) |
- 長時間の自律的なコーディングタスク(数時間のセッション)
- 複雑なツールチェーンを伴うターミナル主体のワークフロー
- すでにOpenAI/ChatGPTのエコシステムを利用している場合
- ソフトウェアライフサイクル全体の自動化
- コンピュータ操作 / ブラウザ自動化(72.5%対64.7%)
- コーディングに付随する事務タスク
- エージェントの安全性が極めて重要な場合(より優れたプロンプトインジェクション耐性)
- APIコストの予測可能性が必要な場合($3/$15という既知の価格設定)
利用可能性
GPT-5.3 Codexは、以下のChatGPT有料プラン(Plus、Pro、Team、Enterprise)で利用可能です:
- Codexアプリ(Web) — 完全な自律型エージェントインターフェース
- Codex CLI — ターミナルベースのコーディングエージェント
- IDE拡張機能 — エディタに統合
- API — 数週間以内に提供予定(価格未定)
開発者にとっての意味
AIコーディングエージェント競争の激化
2026年2月5日は、OpenAIとAnthropicの両社が主要モデル(GPT-5.3 CodexとClaude Opus 4.6)を同日にリリースするという事態になりました。メッセージは明確です。自律型コーディングエージェントが主要な競争の舞台となっているということです。
異なる強み、異なるワークフロー
GPT-5.3 Codexは、長時間のセッションにわたる自律的でターミナルベースのコーディングに長けています。Claudeはコンピュータ操作、オフィスツール統合、安全性に優れています。Gemini 3.1 Proは推論とマルチモーダルでリードしています。
ほとんどの開発者にとって、選択肢はワークフローに依存します:
- CLI/ターミナル作業が多い場合 → GPT-5.3 Codex
- ブラウザ自動化 + 混合タスクの場合 → Claude Code
- 科学的・推論重視の作業の場合 → Gemini 3.1 Pro
モデルは始まりに過ぎない
3つのラボすべてに共通する傾向は、モデル単体では不十分であるということです。その周囲にデプロイ、モニタリング、アナリティクス、成長ツールが必要になります。AIコーディングエージェントがコードを書きますが、プロダクトをリリースするにはフルスタックの環境が必要です。
作ったものをデプロイしよう。Y Buildはコード以降のすべてを処理します:ワンクリックデプロイ、製品動画用のDemo Cut、AI SEO、アナリティクス。あらゆるAIコーディングツールに対応しています。無料で始める.
ソース:
- OpenAI: Introducing GPT-5.3-Codex
- OpenAI: GPT-5.3-Codex System Card
- Fortune: OpenAI GPT-5.3 Codex raises cybersecurity risks
- MarkTechPost: GPT-5.3-Codex agentic coding model
- DataCamp: GPT-5.3 Codex from coding to general work agent
- OfficeChai: Gemini 3.1 Pro Benchmarks (GPT-5.3 comparison)
- LLM Stats: GPT-5.3 Codex pricing and benchmarks
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.