GPT-5.4 指南:OpenAI 的自主代理模型 (2026)
GPT-5.4 在 OSWorld 测试中获得 75% 的评分,在计算机使用方面超越人类。1M 上下文,每百万 Token 2.50 美元,提供 5 种模型变体。包含完整基准测试、价格及对比指南。
摘要
OpenAI 于 2026 年 3 月 5 日发布了 GPT-5.4 —— 这是首个在自主计算机使用方面超越人类的通用模型。关键数据如下:
| 特性 | 详情 |
|---|---|
| OSWorld 验证评分 | 75.0% — 超过人类基准 (72.4%) |
| SWE-bench Pro | 57.7% — 编程能力强劲,但落后于 Claude Opus 4.6 (80.8%) |
| 上下文窗口 | 最高 1.05M tokens(标准 272K,扩展 1M) |
| 计算机使用 | 原生、业界领先 — 首次内置于通用模型中 |
| Token 效率 | 处理等效任务所需的 tokens 显著少于 GPT-5.2 |
| API 价格 | 每 1M tokens:输入 $2.50 / 输出 $15.00 |
| 变体版本 | Standard, Thinking, Pro, Mini, Nano |
| 交互式思考 | 预先计划 + 响应中途引导 |
什么是 GPT-5.4?
GPT-5.4 是 OpenAI 的旗舰级大语言模型,于 2026 年 3 月 5 日发布。它结合了 GPT-5.3 Codex 的编程优势、突破性的自主计算机使用能力、100 万 token 的上下文窗口以及全新的交互式思考系统。
核心亮点:GPT-5.4 是首个在桌面计算机任务上超越人类表现的通用 AI 模型。 它在 OSWorld-Verified 基准测试中获得了 75.0% 的评分,而人类专家测试者的得分为 72.4%。此前没有任何模型能清爽地跨越这一门槛。
这比 GPT-5.2 在不到四个月的时间里提升了 28 个百分点(47.3%)。该模型可以从截图中解析屏幕坐标,并直接发布鼠标和键盘命令,使其能够自主导航文件、浏览器、终端和生产力软件。
核心特性
原生计算机使用 (Native Computer Use)
与以往需要外部工具进行计算机控制的模型不同,GPT-5.4 内置了计算机使用能力。在 Codex 应用和通过 API 调用时,该模型可以:
- 通过截图和键盘/鼠标动作导航桌面环境
- 按顺序跨多个应用程序操作
- 完成多步骤工作流(文件管理、浏览器任务、终端操作)
- 操作电子表格、演示文稿和文档等生产力软件
100 万 Token 上下文窗口
GPT-5.4 支持高达 1.05M tokens 的上下文。标准窗口为 272K tokens;超过此阈值的请求将按正常输入速率的 2 倍计费。如此巨大的上下文对于代理工作流至关重要,因为模型需要在内存中保留长期的工具使用历史、大型代码库或扩展文档集。
交互式思考 (Interactive Thinking)
GPT-5.4 Thinking 引入了一种新范式:模型会提供其推理的预先计划,而你可以在响应中途对其进行引导。你可以添加指令、纠正路线或微调方向,而无需重新开始。对于复杂的多步任务,这是一项显著的体验改进。
提升的 Token 效率
OpenAI 报告称,与 GPT-5.2 相比,GPT-5.4 解决问题所消耗的 tokens 显著减少,同时事实性错误减少了 33%。对于生产部署而言,这意味着即便在考虑竞争性定价之前,每个任务的成本也更低。
基准测试
GPT-5.4 领先的领域
| 基准测试 | 测试内容 | GPT-5.4 | 最佳竞争对手 |
|---|---|---|---|
| OSWorld-Verified | 桌面计算机使用 | 75.0% | Claude Opus 4.6: 72.7% |
| Toolathlon | 多步工具/API 使用 | 最高分 | — |
| GDPval | 知识性工作 | 83% | — |
全模型对比
| 基准测试 | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.7% | N/A |
| SWE-bench Verified | ~80% | 80.8% | 80.6% |
| SWE-bench Pro | 57.7% | ~45% | 54.2% |
| ARC-AGI-2 | 52.9% | 68.8% | 77.1% |
| GDPval | 83% | — | — |
数据背后的含义
GPT-5.4 是首个能同时在计算机使用、编程和知识性工作方面达到前沿水平的模型。75% 的 OSWorld 评分是最清晰的里程碑 —— 这意味着该模型可以完成四分之三连专家级人类都感到具有挑战性的真实桌面任务。
然而,情况并非全面领先。在 SWE-bench Verified(真实世界编程)上,Claude Opus 4.6 和 Gemini 3.1 Pro 分别以 80.8% 和 80.6% 的成绩明显优于 GPT-5.4。在抽象推理 (ARC-AGI-2) 方面,GPT-5.4 落后 Claude Opus 4.6 约 16 个百分点,落后 Gemini 3.1 Pro 超过 24 个百分点。
结论:GPT-5.4 在自主计算机控制和实用工具使用方面获胜,但它并非在所有任务上都是最佳模型。
模型变体与定价
GPT-5.4 发布了五个变体版本,分别针对不同的使用场景和预算:
| 变体 | 输入 (每 1M tokens) | 输出 (每 1M tokens) | 最佳用途 |
|---|---|---|---|
| GPT-5.4 Standard | $2.50 | $15.00 | 通用任务、计算机使用、代理工作流 |
| GPT-5.4 Thinking | $2.50 | $15.00 | 具有交互式计划引导的复杂推理 |
| GPT-5.4 Pro | $30.00 | $180.00 | 法律、医疗、金融 — 极致准确度 |
| GPT-5.4 Mini | $0.75 | $4.50 | 高吞吐量、延迟敏感型工作负载 |
| GPT-5.4 Nano | 待定 | 待定 | 边缘计算和嵌入式使用场景 |
- 超过 272K tokens 的提示词按标准输入速率的 2 倍计费(Standard 版为 $5.00/MTok)。
- 区域数据驻留终端在所有变体中均收取 10% 的附加费。
- GPT-5.4 Mini 对 ChatGPT 免费版用户开放;Nano 仅限 API 使用。
成本对比:GPT-5.4 vs Claude Opus 4.6
以典型的每日工作负载计算:
| GPT-5.4 | Claude Opus 4.6 | |
|---|---|---|
| 日均成本 | 约 $5.50 | 约 $10.00 |
| 月均成本 | 约 $165 | 约 $300 |
| 成本比例 | 1x | 约 1.8x |
在相同的 token 吞吐量下,GPT-5.4 比 Claude Opus 4.6 便宜约 50%。Mini 变体进一步提升了性价比 —— 在成本降低约 6 倍的情况下,其 SWE-bench Pro 评分达到 54.38%。
GPT-5.4 vs Claude Opus 4.6:该选哪一个?
这是大多数团队在 2026 年 4 月都会问的问题。答案取决于你的工作负载。
如果你需要以下功能,选择 GPT-5.4:
- 桌面自动化和计算机使用 — OSWorld 评分 75.0% vs Opus 4.6 的 72.7%
- 工具调用和 API 编排 — 在 Toolathlon 上以更少的步骤获得更高的准确度
- 成本效益 — 每 token 成本约为 Opus 4.6 的一半
- 高效率推理 — 解决单个问题所需的 tokens 更少,意味着账单更低
- 快速原型开发 — 迭代速度快,开销低
如果你需要以下功能,选择 Claude Opus 4.6:
- 复杂多文件代码重构 — 以 80.8% 的成绩领跑 SWE-bench Verified
- 长上下文连贯性 — 在处理极长上下文时能更好地保持质量
- 抽象和新颖推理 — 在 ARC-AGI-2 上领先 16 个点
- 代理搜索和深度代码架构 — 擅长需要深度理解的任务
- 写作质量和细腻度 — 在 Chatbot Arena 用户满意度排名第一
强强对决总结
| 维度 | 胜出者 | 差距 |
|---|---|---|
| 计算机使用 (OSWorld) | GPT-5.4 | 75.0% vs 72.7% |
| 编程 (SWE-bench Verified) | Claude Opus 4.6 | 80.8% vs ~80% |
| 抽象推理 (ARC-AGI-2) | Claude Opus 4.6 | 68.8% vs 52.9% |
| 工具调用 (Toolathlon) | GPT-5.4 | 步骤更少,准确度更高 |
| 知识性工作 (GDPval) | GPT-5.4 | 83% |
| 定价 | GPT-5.4 | 便宜约 50% |
| 用户满意度 | Claude Opus 4.6 | Chatbot Arena 第一名 |
如何访问 GPT-5.4
GPT-5.4 可以通过以下途径访问:
- ChatGPT — GPT-5.4 Thinking 是 Plus、Pro 和 Team 用户的默认模型。Mini 对免费用户开放。
- OpenAI API — 所有五个变体均可通过标准 completions 和 chat 终端访问。
- Codex 应用 — 通过桌面代理提供完整的计算机使用能力。
- OpenRouter — 以竞争性费率提供的第三方访问。
computer_use 工具参数,并将截图作为图像输入提供。模型会返回结构化的操作(点击、键入、滚动),你的应用程序将其转换为系统事件。
常见问题解答
GPT-5.4 比 Claude Opus 4.6 更好吗?
这取决于任务。GPT-5.4 在计算机使用、工具调用和成本效率方面胜出。Claude Opus 4.6 在复杂编程、抽象推理和写作质量方面胜出。对于大多数团队来说,选择取决于你的主要工作负载是桌面自动化 (GPT-5.4) 还是深度软件工程 (Opus 4.6)。
GPT-5.4 的价格是多少?
标准模型每百万输入 token 为 $2.50,每百万输出 token 为 $15.00。Pro 变体为 $30/$180。Mini 为 $0.75/$4.50。超过 272K tokens 的提示词按双倍输入费率计费。
GPT-5.4 真的能比人类更好地使用计算机吗?
在 OSWorld-Verified 基准测试中,是的 —— 它的得分为 75.0%,而人类专家基准为 72.4%。然而,基准测试衡量的是特定的任务类别。现实世界的计算机使用涉及判断力、语境和适应性,而基准测试无法完全捕捉这些。最好将其视为在结构化桌面任务上具有超人表现,而不是全面替代人类的计算机使用。
GPT-5.4 的上下文窗口是多少?
高达 105 万 tokens。标准层级为 272K tokens。超过 272K 后,输入 token 成本将翻倍。完整的 1M 上下文对于累积长交互历史的代理工作流至关重要。
我应该从 GPT-5.3 Codex 升级吗?
如果你的工作负载涉及计算机使用或多工具编排,那么是的。在 OSWorld 上从 64.7% 飞跃到 75.0% 是实质性的。对于纯编程任务,相对于 GPT-5.3 Codex 的提升更具渐进性 —— SWE-bench Pro 从 56.8% 提升到了 57.7%。请根据你的具体用例进行评估。
有哪些模型变体可用?
共有五个:Standard, Thinking, Pro, Mini 和 Nano。Standard 和 Thinking 定价相同,是大多数场景的主流模型。Pro 是追求最高准确度的溢价层级。Mini 针对成本敏感型生产部署。Nano 专为边缘和嵌入式应用设计。
总结
GPT-5.4 标志着自主 AI 代理的一个真正转折点。它是首个在桌面计算机使用方面超越人类专家的通用模型,而且价格比主要竞争对手便宜 50%。五种变体的产品组合意味着每种预算和延迟需求都有对应的 GPT-5.4。
即便如此,它也并非万能。Claude Opus 4.6 仍然是复杂软件工程和抽象推理的更强选择。Gemini 3.1 Pro 在几项推理基准测试中依然领先。对大多数团队来说,正确答案不是“哪个模型最强”,而是“哪个模型最适合这项任务”。
如果你正在构建 AI 驱动的产品,并希望在不陷入基础设施泥潭的情况下利用 GPT-5.4 和 Claude Opus 4.6 等模型,Y Build 可以帮助你更快发布。我们提供构建、部署和迭代 AI 应用的工具和平台 —— 让你专注于产品本身,而非繁琐的底层开发。
来源:OpenAI GPT-5.4 Announcement, OpenAI API Pricing, NxCode GPT-5.4 Complete Guide, NxCode GPT-5.4 vs Claude Opus 4.6, DataCamp GPT-5.4 Overview, Artificial Analysis GPT-5.4, MindStudio Benchmark Comparison, Nerd Level Tech: GPT-5.4 Beats Humans