GPT-5.3 Codex:OpenAI 的自主编程智能体
OpenAI 于 2026 年 2 月 5 日发布了 GPT-5.3 Codex —— 这是首个帮助构建自身的 AI 模型。Terminal-Bench 评分 77.3%,SWE-Bench Pro 评分 56.8%,支持自主进行长达数小时的编程会话。本文将详细解析其功能、基准测试以及与 Claude Code 的对比。
摘要 (TL;DR)
OpenAI 在 2026 年 2 月 5 日发布了 GPT-5.3 Codex —— 就在 Anthropic 发布 Opus 4.6 的同一天。关键数据如下:
- Terminal-Bench 2.0: 77.3% —— 在智能体终端编程方面领先所有模型
- SWE-Bench Pro: 56.8% —— 在四种编程语言中获得最高分
- OSWorld: 64.7% —— 强大的计算机使用能力(但落后于 Sonnet 4.6 的 72.5%)
- 比 GPT-5.2 Codex 快 25%
- 工作时可交互 —— 可在任务中途引导智能体而不会丢失上下文
- 首个自引导模型 —— GPT-5.3 Codex 曾协助调试自身的训练过程
- 已在付费版 ChatGPT 计划中的 Codex 应用、CLI 和 IDE 扩展程序中上线
- API 定价尚未公布
OpenAI 发布了什么
GPT-5.3 Codex 不仅仅是一个更出色的编程模型。它是 OpenAI 首个被设计为全软件生命周期智能体的模型 —— 涵盖调试、部署、监控、撰写 PRD、修改文案、运行测试等。
核心功能:自主长期运行任务。给 GPT-5.3 Codex 一个复杂的任务,它会持续工作数小时 —— 进行调研、使用工具、执行代码,并根据进度调整计划。你可以在任务中途对其进行引导而不会丢失上下文,就像与同事协作一样。
OpenAI 最具挑衅性的声明是:GPT-5.3 Codex 是“首个在创建自身过程中发挥了关键作用的模型”。Codex 团队使用早期版本来调试其训练流水线、管理部署并诊断评估结果。
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
基准测试
GPT-5.3 Codex 领先的领域
| 基准测试 | 测试内容 | GPT-5.3 Codex | 最佳竞品 |
|---|---|---|---|
| Terminal-Bench 2.0 | 智能体终端编程 | 77.3% | Gemini 3.1 Pro: 68.5% |
| SWE-Bench Pro | 多语言编程 | 56.8% | Gemini 3.1 Pro: 54.2% |
| HumanEval | 代码生成 | 93% | — |
| GPQA | 科学推理 | 81% | Gemini 3.1 Pro: 94.3% |
全面对比
| 基准测试 | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 77.3% | 65.4% | 59.1% | 68.5% |
| SWE-Bench Pro | 56.8% | — | — | 54.2% |
| OSWorld | 64.7% | 72.7% | 72.5% | N/A |
| SWE-bench Verified | ~80% | 80.8% | 79.6% | 80.6% |
| ARC-AGI-2 | 52.9% | 68.8% | 58.3% | 77.1% |
数据背后的含义
GPT-5.3 Codex 在智能体终端编程方面占据主导地位 —— 这种工作需要 AI 智能体在代码库中导航、运行命令、解析输出、修复错误并进行迭代。77.3% 的 Terminal-Bench 评分比第二名(Gemini 3.1 Pro 的 68.5%)高出近 9 个百分点,比 Opus 4.6 (65.4%) 高出 12 个百分点。
但在计算机使用能力 (OSWorld) 方面,它明显落后于 Claude —— 64.7% 对比 Sonnet 4.6 的 72.5%。而在推理能力 (ARC-AGI-2) 方面,它远落后于 Gemini 3.1 Pro (77.1%) 和 Opus 4.6 (68.8%)。
核心功能
1. 自主多小时会话
以前的编程模型以短促的方式工作 —— 你输入提示词,它做出响应,你再输入提示词。GPT-5.3 Codex 则可以跨多个步骤管理自己的工作流程,持续处理复杂任务。
示例工作流:“将我们的身份验证系统从 JWT 迁移到 OAuth 2.0,更新所有受影响的端点,编写测试,并验证迁移是否成功。”GPT-5.3 Codex 将调研代码库、规划迁移方案、逐个文件执行、运行测试、修复故障并反馈报告 —— 整个过程可能持续数小时。
2. 交互式引导
你可以在 GPT-5.3 Codex 工作期间重新定向它,而不会丢失上下文。如果你发现它偏离了预想路径,可以直接告诉它调整方向。对话保持连续。
3. 全软件生命周期
OpenAI 明确将 GPT-5.3 Codex 定位为超越纯代码编写的工具:
- 调试 —— 读取错误日志,追踪根本原因,应用修复补丁
- 部署 —— 管理部署流水线和配置
- 监控 —— 监视运行中系统的问题
- PRD 与文档 —— 编写产品需求和文档
- 用户研究 —— 综合反馈和测试结果
- 测试 —— 生成并运行测试套件
- 指标 —— 分析性能数据
4. 自引导 (Self-Bootstrapping)
GPT-5.3 Codex 在开发过程中使用了其早期版本来:
- 调试训练流水线问题
- 管理模型部署
- 诊断评估结果
- 在消耗数百万 token 的过程中自主迭代游戏开发
这是 AI 模型首次被公开描述为对自己创建过程做出了贡献。
GPT-5.3 Codex vs. Claude Code
| 能力 | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| 终端编程 | 77.3% | Opus: 65.4%, Sonnet: 59.1% |
| 计算机使用 | 64.7% | Sonnet: 72.5%, Opus: 72.7% |
| SWE-bench | ~80% | Opus: 80.8%, Sonnet: 79.6% |
| 多小时自主性 | 是 | 有限 |
| 交互式引导 | 是 | 是 |
| IDE 集成 | Codex IDE 扩展 | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| 办公任务 | 有限 | Sonnet: 1633 Elo |
| 提示词注入防御 | 标准 | Opus 级别 |
| API 定价 | 待定 | $3/$15 (Sonnet), $15/$75 (Opus) |
- 需要长时间运行的自主编程任务(多小时会话)
- 涉及复杂工具链且以终端操作为主的工作流
- 已处于 OpenAI/ChatGPT 生态系统中
- 全软件生命周期自动化
- 计算机使用 / 浏览器自动化 (72.5% vs 64.7%)
- 编程之余兼顾办公任务
- 智能体安全性至关重要(更好的提示词注入防御)
- 需要 API 成本的可预测性(已知定价为 $3/$15)
可用性
GPT-5.3 Codex 已面向 ChatGPT 付费计划(Plus、Pro、Team、Enterprise)提供,涵盖:
- Codex app (网页端) —— 完整的自主智能体界面
- Codex CLI —— 基于终端的编程智能体
- IDE 扩展 —— 集成到你的编辑器中
- API —— 将在数周内推出(定价待定)
对开发者的意义
AI 编程智能体竞赛已经拉开帷幕
2026 年 2 月 5 日,OpenAI 和 Anthropic 在同一天发布了重大模型 —— GPT-5.3 Codex 和 Claude Opus 4.6。信息非常明确:自主编程智能体是目前主要的竞争战场。
不同的优势,不同的工作流
GPT-5.3 Codex 擅长长时间会话下的自主、基于终端的编程。Claude 擅长计算机使用、办公集成和安全性。Gemini 3.1 Pro 在推理和多模态方面领先。
对于大多数开发者来说,选择取决于你的工作流:
- 重度 CLI/终端工作 → GPT-5.3 Codex
- 浏览器自动化 + 混合任务 → Claude Code
- 科学计算/重推理工作 → Gemini 3.1 Pro
模型仅仅是开始
这三大实验室的共同趋势是:仅有模型是不够的。你还需要围绕它构建部署、监控、分析和增长工具。AI 编程智能体编写代码,但交付产品需要完整的技术栈。
交付你所构建的产品。Y Build 处理代码之后的一切:一键部署、用于产品视频的 Demo Cut、AI SEO 以及分析工具。兼容任何 AI 编程工具。免费开始.
参考来源:
- OpenAI: Introducing GPT-5.3-Codex
- OpenAI: GPT-5.3-Codex System Card
- Fortune: OpenAI GPT-5.3 Codex raises cybersecurity risks
- MarkTechPost: GPT-5.3-Codex agentic coding model
- DataCamp: GPT-5.3 Codex from coding to general work agent
- OfficeChai: Gemini 3.1 Pro Benchmarks (GPT-5.3 comparison)
- LLM Stats: GPT-5.3 Codex pricing and benchmarks
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.