Claude Opus 4.7: What's New, Benchmarks & Full Guide (2026)
Claude Opus 4.7 现已发布 —— 编程能力提升 13%,视觉能力提升 3 倍,新增 xhigh 思考强度。包含完整基准测试、价格信息以及与 GPT-5.4 的对比。
TL;DR
| 详情 | Claude Opus 4.7 |
|---|---|
| 发布日期 | 2026年4月16日 |
| 模型 ID | claude-opus-4-7 |
| 定价 | 每百万 Token 入站 $5 / 出站 $25(与 Opus 4.6 持平) |
| 上下文窗口 | 1M tokens |
| 可用性 | API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry |
| 核心改进 | 编程能力提升 13%,视觉能力提升 3 倍,新增思考强度分级 |
| SWE-bench Verified | ~85-90%(高于 80.8%) |
| Claude Code 新功能 | /ultrareview — 多智能体代码审查 |
Claude Opus 4.7 有哪些新变化?
Claude Opus 4.7 是 Anthropic 最新正式发布的尖端模型,于 2026 年 4 月 16 日发布。它是对 Opus 4.6 的一次渐进式但意义重大的升级,提升最明显的是软件工程和视觉领域。
与 Anthropic 仅限网络安全合作伙伴使用的 Claude Mythos Preview 不同,Opus 4.7 已公开提供给所有 Claude 产品和 API 用户。
基准测试结果
软件工程
| 基准测试 | Opus 4.7 | Opus 4.6 | GPT-5.4 | Mythos Preview |
|---|---|---|---|---|
| SWE-bench Verified | ~85-90% | 80.8% | ~80% | 93.9% |
| SWE-bench Pro | ~45% | — | 57.7% | 77.8% |
| Terminal-Bench 2.0 | 65.4% | 66.5% | 75.1% | 82% |
| 内部 93 项编程任务 | 较 4.6 提升 13% | 基准 | — | — |
| Rakuten-SWE-Bench | 解决率提升 3 倍 | 基准 | — | — |
最显著的改进体现在复杂的、跨文件的任务上。Anthropic 特别指出,在处理“最困难的任务”时有明显提升——这类任务通常需要理解多个文件、进行复杂的重构并验证输出结果。
其他能力
| 领域 | 提升幅度 |
|---|---|
| 文档推理 | 错误减少 21% |
| 工厂自动化 | 性能提升 10-15% |
| 视觉能力 | 图片分辨率提升 3 倍(最高 2,576px / 3.75MP) |
| 长上下文 | 1M token 范围内的检索和推理能力增强 |
| MCP 优化 | 较 Opus 4.5 减少 30% 的 Token 开销 |
视觉升级:3 倍分辨率
Opus 4.7 支持长边最高 2,576 像素(约 3.75 百万像素)的图片,是此前容量的 3 倍以上。这对于以下场景至关重要:
- 技术图表 —— 架构图、电路原理图
- 化学结构 —— 出版级质量的分子图
- 高密度截图 —— 包含代码、仪表盘、电子表格的全页截图
- 设计原型 —— 高保真 UI 设计
新功能:通过 "xhigh" 控制思考强度
Opus 4.7 引入了全新的思考强度等级:xhigh —— 介于 "high" 和 "max" 之间。
| 思考强度 (Effort Level) | 使用场景 | Token 消耗 |
|---|---|---|
| low | 简单查询,快速回答 | 极低 |
| medium | 标准任务 | 正常 |
| high | 复杂推理 | 较高 |
| xhigh | 困难的多步骤任务 | 高 |
| max | 最难的问题,追求最高质量 | 最高 |
xhigh 等级比 "high" 具有更深的推理深度,同时又不像 "max" 那样消耗全部 Token 成本,是生产环境工作负载的务实折中选择。
任务预算 (公开测试版)
除了强度控制,Anthropic 还引入了任务预算 (task budgets) —— 开发者可以为长时间运行的操作设置 Token 支出上限。这让你无需微观管理每个 API 调用即可实现成本控制。
Claude Code 更新
/ultrareview — 多智能体代码审查
Claude Code 最受关注的新功能是 /ultrareview —— 这是一个由云端驱动的代码审查系统,使用多个子智能体 (sub-agents) 来分析你的代码:
- 缺陷检测阶段:启动 5-20 个子智能体,独立探索代码库中的不同路径。
- 验证阶段:由独立的子智能体验证每个潜在的 Bug,过滤掉误报。
面向 Max 用户的自动模式 (Auto Mode)
自动模式(即 Claude Code 无需确认即可运行命令并进行修改)现已向 Max 订阅用户开放。
Opus 4.7 对标 GPT-5.4:你应该选择哪一个?
| 维度 | Opus 4.7 | GPT-5.4 |
|---|---|---|
| 复杂编程 | 领先(多文件重构) | 强劲但稍逊一筹 |
| 计算机操作 | 不支持 | 领先(OSWorld 评分 75%) |
| 长上下文 | 1M tokens,推理更佳 | 1.05M tokens |
| 视觉能力 | 3.75MP,擅长技术图表 | 优秀但分辨率稍低 |
| 速度 | 较慢,更彻底 | 执行速度更快 |
| 价格 | 每 MTok $5/$25 | 每 MTok $2.50/$15 |
| MCP 支持 | 原生支持,已优化 | 有限 |
Token 使用提醒
Opus 4.7 使用了更新的分词器 (tokenizer),处理文本的方式有所不同。根据内容的不同,同样的输入可能会映射为 1.0–1.35 倍的 Token。再加上高强度模式下会产生更多输出 Token,即便单价没变,你的实际成本也可能会增加。
如果你是从 Opus 4.6 升级的,请在头几天关注你的 Token 使用量。
网络安全保护措施
在 Mythos Preview 事件之后,Anthropic 直接在 Opus 4.7 中内置了网络安全保护措施:
- 自动检测并拦截禁止的或高风险的网络安全请求。
- 为合法的安全研究人员和渗透测试人员提供 网络安全验证计划 (Cyber Verification Program)。
- 在网络安全能力上有意低于 Mythos Preview,以便 Anthropic 先在能力稍弱的模型上测试保护机制。
如何获取
# API 调用
curl https://api.anthropic.com/v1/messages \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "content-type: application/json" \
-d '{"model": "claude-opus-4-7", "max_tokens": 1024, "messages": [{"role": "user", "content": "Hello"}]}'
# Claude Code
claude --model opus # 默认使用最新的 opus 模型
该模型也从发布首日起在 Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 上可用。
常见问题解答
Claude Opus 4.7 的价格是多少?
每百万输入 Token $5,每百万输出 Token $25 —— 与 Opus 4.6 相同。但是,更新的分词器可能会导致相同内容的 Token 数量增加 1.0-1.35 倍。
Opus 4.7 比 GPT-5.4 更好吗?
在复杂的软件工程和多文件编程任务中,是的。但在计算机操作、桌面自动化和成本效益方面,GPT-5.4 目前更胜一筹。它们各有所长。
Claude Code 中的 /ultrareview 命令是什么?
这是一个多智能体代码审查系统,它会启动 5-20 个子智能体独立寻找代码中的 Bug,然后验证每个发现以过滤掉误报。Pro 和 Max 用户可获得 3 次免费使用机会。
Opus 4.7 与 Claude Mythos Preview 相比如何?
Mythos Preview 的能力明显更强(SWE-bench 评分为 93.9% 对比约 85-90%),但它不对外公开。Opus 4.7 是目前你可以实际使用的最强 Claude 模型。
我应该从 Opus 4.6 升级吗?
如果你从事复杂的编程工作或需要处理技术图片,那么答案是肯定的。13% 的编程能力提升和 3 倍的视觉分辨率非常有意义。只需留意你的 Token 使用量,因为新的分词器可能会增加成本。
什么是 "xhigh" 思考强度?
这是一个介于 "high" 和 "max" 之间的新设置,它能提供更深入的推理能力,且不会像 "max" 那样消耗极高的 Token。适合那些需要高质量输出但又想控制成本的困难任务。
总结
Opus 4.7 是一次扎实的升级,而非革命。编程能力的提升是实实在在的,视觉能力的改进非常显著,而 /ultrareview 则是一项真正的新功能。但最大的新闻也许在于它“不是什么” —— 它不是 Mythos Preview。Anthropic 公开模型与私有模型之间的差距现在比以往任何时候都要大。
对于开发者来说,Opus 4.7 是目前公开可用的最强 Claude 模型,也是处理复杂工程工作的有力选择。如果你想在不管理模型和基础设施的情况下构建 AI 驱动的产品,Y Build 可以为你打理一切 —— 把它想象成一个移动优先、无需服务器或终端即可交付产品的 AI 智能体。