GPT-5.3 Codex: OpenAIの自律型コーディングエージェント

TL;DR

OpenAIは2026年2月5日、AnthropicがOpus 4.6をリリースしたのと同じ日にGPT-5.3 Codexをリリースしました。主な統計は以下の通りです：

Terminal-Bench 2.0: 77.3% — エージェントによるターミナルコーディングにおいて全モデルをリード
SWE-Bench Pro: 56.8% — 4つのプログラミング言語にわたってトップスコアを記録
OSWorld: 64.7% — 強力なコンピュータ操作（ただしSonnet 4.6の72.5%には及ばず）
GPT-5.2 Codexより25%高速
作業中のインタラクティブな操作 — 文脈を失うことなくタスクの途中でエージェントを誘導可能
初のセルフブートストラップモデル — GPT-5.3 Codexは自身のトレーニングのデバッグを支援
ChatGPTの有料プラン向けにCodexアプリ、CLI、IDE拡張機能で利用可能
APIの価格設定は未公開

OpenAIの発表内容

GPT-5.3 Codexは単に優れたコーディングモデルではありません。デバッグ、デプロイ、モニタリング、PRDの作成、コピーの編集、テストの実行など、ソフトウェアライフサイクル全般を担うエージェントとして設計されたOpenAI初のモデルです。

最大の特徴は、自律的な長時間タスクです。GPT-5.3 Codexに複雑なタスクを与えると、調査、ツールの使用、コードの実行を行い、進行状況に合わせて計画を適応させながら、数時間にわたって作業を継続します。同僚と協力するように、文脈を維持したままタスクの途中で指示を出し直すことができます。

OpenAIの最も刺激的な主張は、GPT-5.3 Codexが「自身の作成に不可欠な役割を果たした最初のモデル」であるということです。Codexチームは、初期バージョンを使用して、自身のトレーニングパイプラインのデバッグ、デプロイの管理、評価結果の診断を行いました。

ベンチマーク

GPT-5.3 Codexがリードする項目

ベンチマーク	テスト内容	GPT-5.3 Codex	最有力な競合モデル
Terminal-Bench 2.0	エージェントによるターミナルコーディング	77.3%	Gemini 3.1 Pro: 68.5%
SWE-Bench Pro	マルチ言語コーディング	56.8%	Gemini 3.1 Pro: 54.2%
HumanEval	コード生成	93%	—
GPQA	科学的推論	81%	Gemini 3.1 Pro: 94.3%

総合比較

ベンチマーク	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	77.3%	65.4%	59.1%	68.5%
SWE-Bench Pro	56.8%	—	—	54.2%
OSWorld	64.7%	72.7%	72.5%	N/A
SWE-bench Verified	~80%	80.8%	79.6%	80.6%
ARC-AGI-2	52.9%	68.8%	58.3%	77.1%

数値が意味すること

GPT-5.3 Codexは、AIエージェントがコードベースをナビゲートし、コマンドを実行し、出力を解釈し、エラーを修正し、反復作業を行う必要があるエージェントによるターミナルコーディングにおいて圧倒的な強さを見せています。77.3%というTerminal-Benchのスコアは、次点のGemini 3.1 Pro（68.5%）に約9ポイント、Opus 4.6（65.4%）に12ポイントの差をつけています。

しかし、コンピュータ操作（OSWorld）ではClaudeに大きく差をつけられており（64.7%対Sonnet 4.6の72.5%）、推論（ARC-AGI-2）でもGemini 3.1 Pro（77.1%）やOpus 4.6（68.8%）に大きく遅れをとっています。

主な機能

1. 数時間に及ぶ自律セッション

従来のコーディングモデルは、プロンプトを入力し、応答が返り、再びプロンプトを入力するという、短時間のやり取りで動作していました。GPT-5.3 Codexは、多くのステップにわたって自身のワークフローを管理しながら、複雑なタスクを継続的に実行します。

ワークフローの例：「認証システムをJWTからOAuth 2.0に移行し、影響を受けるすべてのエンドポイントを更新し、テストを作成して、移行が機能することを確認してください。」 GPT-5.3 Codexはコードベースを調査し、移行を計画し、ファイルごとに実行し、テストを実行し、失敗を修正して報告します。これらすべてを、場合によっては数時間にわたって行います。

2. インタラクティブな操作（ステアリング）

GPT-5.3 Codexが作業している間、文脈を失うことなく方向性を修正することができます。エージェントが間違った方向に進んでいることに気づいた場合は、方向転換を指示できます。会話は途切れることなく継続されます。

3. ソフトウェアライフサイクル全般

OpenAIは、GPT-5.3 Codexを単なるコード記述以上の存在として明確に位置づけています：

デバッグ — エラーログを読み取り、根本原因を追跡し、修正を適用
デプロイ — デプロイパイプラインと設定を管理
モニタリング — 実行中のシステムの異常を監視
PRDとドキュメント — 製品要件とドキュメントを記述
ユーザーリサーチ — フィードバックとテスト結果を統合
テスト — テストスイートの生成と実行
メトリクス — パフォーマンスデータの分析

4. セルフブートストラップ

GPT-5.3 Codexは、開発中に自身の初期バージョンを以下の目的で使用しました：

トレーニングパイプラインの問題のデバッグ

モデルデプロイの管理

評価結果の診断

数百万トークンに及ぶゲーム開発の自律的な反復作業

AIモデルが自身の創造に貢献したと公に説明されたのは、これが初めてのことです。

GPT-5.3 Codex vs. Claude Code

能力	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
ターミナルコーディング	77.3%	Opus: 65.4%, Sonnet: 59.1%
コンピュータ操作	64.7%	Sonnet: 72.5%, Opus: 72.7%
SWE-bench	~80%	Opus: 80.8%, Sonnet: 79.6%
数時間の自律性	あり	限定的
インタラクティブな操作	あり	あり
IDE統合	Codex IDE拡張機能	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
事務タスク	限定的	Sonnet: 1633 Elo
プロンプトインジェクション耐性	標準的	Opusレベル
API価格	未定	$3/$15 (Sonnet), $15/$75 (Opus)

次のような場合はGPT-5.3 Codexを選択：

長時間の自律的なコーディングタスク（数時間のセッション）
複雑なツールチェーンを伴うターミナル主体のワークフロー
すでにOpenAI/ChatGPTのエコシステムを利用している場合
ソフトウェアライフサイクル全体の自動化

次のような場合はClaude Codeを選択：

コンピュータ操作 / ブラウザ自動化（72.5%対64.7%）
コーディングに付随する事務タスク
エージェントの安全性が極めて重要な場合（より優れたプロンプトインジェクション耐性）
APIコストの予測可能性が必要な場合（$3/$15という既知の価格設定）

利用可能性

GPT-5.3 Codexは、以下のChatGPT有料プラン（Plus、Pro、Team、Enterprise）で利用可能です：

Codexアプリ（Web） — 完全な自律型エージェントインターフェース
Codex CLI — ターミナルベースのコーディングエージェント
IDE拡張機能 — エディタに統合
API — 数週間以内に提供予定（価格未定）

現在、無料プランでのアクセスは提供されていません。

開発者にとっての意味

AIコーディングエージェント競争の激化

2026年2月5日は、OpenAIとAnthropicの両社が主要モデル（GPT-5.3 CodexとClaude Opus 4.6）を同日にリリースするという事態になりました。メッセージは明確です。自律型コーディングエージェントが主要な競争の舞台となっているということです。

異なる強み、異なるワークフロー

GPT-5.3 Codexは、長時間のセッションにわたる自律的でターミナルベースのコーディングに長けています。Claudeはコンピュータ操作、オフィスツール統合、安全性に優れています。Gemini 3.1 Proは推論とマルチモーダルでリードしています。

ほとんどの開発者にとって、選択肢はワークフローに依存します：

CLI/ターミナル作業が多い場合 → GPT-5.3 Codex

ブラウザ自動化＋混合タスクの場合 → Claude Code

科学的・推論重視の作業の場合 → Gemini 3.1 Pro

モデルは始まりに過ぎない

3つのラボすべてに共通する傾向は、モデル単体では不十分であるということです。その周囲にデプロイ、モニタリング、アナリティクス、成長ツールが必要になります。AIコーディングエージェントがコードを書きますが、プロダクトをリリースするにはフルスタックの環境が必要です。

作ったものをデプロイしよう。Y Buildはコード以降のすべてを処理します：ワンクリックデプロイ、製品動画用のDemo Cut、AI SEO、アナリティクス。あらゆるAIコーディングツールに対応しています。無料で始める.

ソース: