GPT-5.3 Codex：OpenAI 的自主编程智能体

摘要 (TL;DR)

OpenAI 在 2026 年 2 月 5 日发布了 GPT-5.3 Codex —— 就在 Anthropic 发布 Opus 4.6 的同一天。关键数据如下：

Terminal-Bench 2.0: 77.3% —— 在智能体终端编程方面领先所有模型
SWE-Bench Pro: 56.8% —— 在四种编程语言中获得最高分
OSWorld: 64.7% —— 强大的计算机使用能力（但落后于 Sonnet 4.6 的 72.5%）
比 GPT-5.2 Codex 快 25%
工作时可交互 —— 可在任务中途引导智能体而不会丢失上下文
首个自引导模型 —— GPT-5.3 Codex 曾协助调试自身的训练过程
已在付费版 ChatGPT 计划中的 Codex 应用、CLI 和 IDE 扩展程序中上线
API 定价尚未公布

OpenAI 发布了什么

GPT-5.3 Codex 不仅仅是一个更出色的编程模型。它是 OpenAI 首个被设计为全软件生命周期智能体的模型 —— 涵盖调试、部署、监控、撰写 PRD、修改文案、运行测试等。

核心功能：自主长期运行任务。给 GPT-5.3 Codex 一个复杂的任务，它会持续工作数小时 —— 进行调研、使用工具、执行代码，并根据进度调整计划。你可以在任务中途对其进行引导而不会丢失上下文，就像与同事协作一样。

OpenAI 最具挑衅性的声明是：GPT-5.3 Codex 是“首个在创建自身过程中发挥了关键作用的模型”。Codex 团队使用早期版本来调试其训练流水线、管理部署并诊断评估结果。

基准测试

GPT-5.3 Codex 领先的领域

基准测试	测试内容	GPT-5.3 Codex	最佳竞品
Terminal-Bench 2.0	智能体终端编程	77.3%	Gemini 3.1 Pro: 68.5%
SWE-Bench Pro	多语言编程	56.8%	Gemini 3.1 Pro: 54.2%
HumanEval	代码生成	93%	—
GPQA	科学推理	81%	Gemini 3.1 Pro: 94.3%

全面对比

基准测试	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	77.3%	65.4%	59.1%	68.5%
SWE-Bench Pro	56.8%	—	—	54.2%
OSWorld	64.7%	72.7%	72.5%	N/A
SWE-bench Verified	~80%	80.8%	79.6%	80.6%
ARC-AGI-2	52.9%	68.8%	58.3%	77.1%

数据背后的含义

GPT-5.3 Codex 在智能体终端编程方面占据主导地位 —— 这种工作需要 AI 智能体在代码库中导航、运行命令、解析输出、修复错误并进行迭代。77.3% 的 Terminal-Bench 评分比第二名（Gemini 3.1 Pro 的 68.5%）高出近 9 个百分点，比 Opus 4.6 (65.4%) 高出 12 个百分点。

但在计算机使用能力 (OSWorld) 方面，它明显落后于 Claude —— 64.7% 对比 Sonnet 4.6 的 72.5%。而在推理能力 (ARC-AGI-2) 方面，它远落后于 Gemini 3.1 Pro (77.1%) 和 Opus 4.6 (68.8%)。

核心功能

1. 自主多小时会话

以前的编程模型以短促的方式工作 —— 你输入提示词，它做出响应，你再输入提示词。GPT-5.3 Codex 则可以跨多个步骤管理自己的工作流程，持续处理复杂任务。

示例工作流：“将我们的身份验证系统从 JWT 迁移到 OAuth 2.0，更新所有受影响的端点，编写测试，并验证迁移是否成功。”GPT-5.3 Codex 将调研代码库、规划迁移方案、逐个文件执行、运行测试、修复故障并反馈报告 —— 整个过程可能持续数小时。

2. 交互式引导

你可以在 GPT-5.3 Codex 工作期间重新定向它，而不会丢失上下文。如果你发现它偏离了预想路径，可以直接告诉它调整方向。对话保持连续。

3. 全软件生命周期

OpenAI 明确将 GPT-5.3 Codex 定位为超越纯代码编写的工具：

调试 —— 读取错误日志，追踪根本原因，应用修复补丁
部署 —— 管理部署流水线和配置
监控 —— 监视运行中系统的问题
PRD 与文档 —— 编写产品需求和文档
用户研究 —— 综合反馈和测试结果
测试 —— 生成并运行测试套件
指标 —— 分析性能数据

4. 自引导 (Self-Bootstrapping)

GPT-5.3 Codex 在开发过程中使用了其早期版本来：

调试训练流水线问题

管理模型部署

诊断评估结果

在消耗数百万 token 的过程中自主迭代游戏开发

这是 AI 模型首次被公开描述为对自己创建过程做出了贡献。

GPT-5.3 Codex vs. Claude Code

能力	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
终端编程	77.3%	Opus: 65.4%, Sonnet: 59.1%
计算机使用	64.7%	Sonnet: 72.5%, Opus: 72.7%
SWE-bench	~80%	Opus: 80.8%, Sonnet: 79.6%
多小时自主性	是	有限
交互式引导	是	是
IDE 集成	Codex IDE 扩展	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
办公任务	有限	Sonnet: 1633 Elo
提示词注入防御	标准	Opus 级别
API 定价	待定	$3/$15 (Sonnet), $15/$75 (Opus)

在以下情况选择 GPT-5.3 Codex：

需要长时间运行的自主编程任务（多小时会话）
涉及复杂工具链且以终端操作为主的工作流
已处于 OpenAI/ChatGPT 生态系统中
全软件生命周期自动化

在以下情况选择 Claude Code：

计算机使用 / 浏览器自动化 (72.5% vs 64.7%)
编程之余兼顾办公任务
智能体安全性至关重要（更好的提示词注入防御）
需要 API 成本的可预测性（已知定价为 $3/$15）

可用性

GPT-5.3 Codex 已面向 ChatGPT 付费计划（Plus、Pro、Team、Enterprise）提供，涵盖：

Codex app (网页端) —— 完整的自主智能体界面
Codex CLI —— 基于终端的编程智能体
IDE 扩展 —— 集成到你的编辑器中
API —— 将在数周内推出（定价待定）

目前暂无免费层级访问权限。

对开发者的意义

AI 编程智能体竞赛已经拉开帷幕

2026 年 2 月 5 日，OpenAI 和 Anthropic 在同一天发布了重大模型 —— GPT-5.3 Codex 和 Claude Opus 4.6。信息非常明确：自主编程智能体是目前主要的竞争战场。

不同的优势，不同的工作流

GPT-5.3 Codex 擅长长时间会话下的自主、基于终端的编程。Claude 擅长计算机使用、办公集成和安全性。Gemini 3.1 Pro 在推理和多模态方面领先。

对于大多数开发者来说，选择取决于你的工作流：

重度 CLI/终端工作 → GPT-5.3 Codex

浏览器自动化 + 混合任务 → Claude Code

科学计算/重推理工作 → Gemini 3.1 Pro

模型仅仅是开始

这三大实验室的共同趋势是：仅有模型是不够的。你还需要围绕它构建部署、监控、分析和增长工具。AI 编程智能体编写代码，但交付产品需要完整的技术栈。

交付你所构建的产品。Y Build 处理代码之后的一切：一键部署、用于产品视频的 Demo Cut、AI SEO 以及分析工具。兼容任何 AI 编程工具。免费开始.

参考来源：