Claude Sonnet 4.6：以 Sonnet 的价格获得 Opus 级别的 AI 体验

TL;DR

Anthropic 于 2026 年 2 月 17 日发布了 Claude Sonnet 4.6。核心要点如下：

79.6% SWE-bench —— 在真实世界编程任务中，与 Opus 4.6 (80.8%) 几乎持平
72.5% OSWorld —— 在 computer use（计算机使用）方面与 Opus 4.6 (72.7%) 基本相当，几乎是 GPT-5.2 (38.2%) 的两倍
每百万 Token $3/$15 —— 价格与 Sonnet 4.5 保持一致，比 Opus 便宜 5 倍
1M Token 上下文窗口 (beta) —— 从 200K 提升至 100 万
现已成为所有免费版和 Pro 版 Claude 用户的 默认模型

在 Claude Code 的测试中，开发者在 70% 的时间里 认为 Sonnet 4.6 优于 Sonnet 4.5，甚至在 59% 的时间里 认为它优于 Opus 4.5。

Anthropic 发布了什么

Claude Sonnet 4.6 是 Anthropic 在不到两周内发布的第二个重大模型（继 2 月 6 日发布 Opus 4.6 之后）。在其博客文章中，Anthropic 将其描述为“对模型在编程、computer use、长上下文推理、智能体规划、知识工作和设计方面能力的全面升级”。

核心主张是：“以往需要 Opus 级别模型才能达到的性能——包括在真实世界、具有经济价值的办公任务中——现在通过 Sonnet 4.6 即可实现。”

这是一个意义重大的声明。Anthropic 实际上是在说：对于大多数生产环境的工作负载，你不再需要为 Opus 付费。

完整基准测试分析

Sonnet 4.6 持平或超越 Opus 的领域

基准测试	测试内容	Sonnet 4.6	Opus 4.6	GPT-5.2
SWE-bench Verified	真实世界编程	79.6%	80.8%	80.0%
OSWorld-Verified	Computer use	72.5%	72.7%	38.2%
GDPval-AA (Elo)	办公任务	1633	1606	1462
Finance Agent v1.1	财务分析	63.3%	60.1%	59.0%
OfficeQA	文档理解	媲美 Opus	—	—

Sonnet 4.6 实际上在办公任务和财务分析这两个具有重要经济意义的类别中处于领先地位。

Opus 4.6 保持领先的领域

基准测试	测试内容	Opus 4.6	Sonnet 4.6	差距
Terminal-Bench 2.0	智能体终端编程	65.4%	59.1%	6.3%
BrowseComp	智能体网页搜索	84.0%	74.7%	9.3%
ARC-AGI-2	新颖问题解决	68.8%	58.3%	10.5%
GPQA Diamond	研究生级推理	91.3%	89.9%	1.4%
MRCR v2 (8-needle 1M)	长上下文推理	76.0%	—	—

模式非常清晰：Opus 在需要最深层、最创新的推理任务（如代码库规模的重构、多步骤研究以及模型从未见过的问题）中胜出。而 Sonnet 则在对速度敏感、生产就绪的任务中胜出。

Computer Use：显著的提升

computer use 的数据值得特别关注：

模型	OSWorld 分数	时间线
Sonnet 3.5 (2024年10月)	14.9%	首次发布
Sonnet 4.5	61.4%	+46.5%
Sonnet 4.6	72.5%	+11.1%
Opus 4.6	72.7%	天花板
GPT-5.2	38.2%	用于对比

在 16 个月内，Sonnet 在 computer use 上的表现从 14.9% 提升到了 72.5% —— 提升了 4.9 倍。Pace（一家保险科技公司）的 CEO Jamie Cuffe 报告称，Sonnet 4.6 在其内部的 computer use 基准测试中达到了 94%：“它能够对失败进行推理并自我纠正，这种方式我们以前从未见过。”

与 Sonnet 4.5 相比的新变化

1. 1M Token 上下文窗口 (Beta)

上下文窗口从 200K 扩展到了 100 万 token。这意味着整个代码库、冗长的法律文件或数小时的对话历史都可以放入单个提示词中。

新的 上下文压缩 (context compaction) 功能（同样处于 beta 阶段）可以自动总结较旧的对话片段，从而有效地进一步扩展了可用上下文。

2. 更好的指令遵循，更少的幻觉

这是开发者最先注意到的。在 Claude Code 测试中：

70% 的人更青睐 Sonnet 4.6 而非 Sonnet 4.5
59% 的人甚至认为它优于 Opus 4.5（2025 年 11 月的前沿模型）

被提及的具体改进包括：

在修改代码前先阅读现有代码（而不是凭空猜测）
整合逻辑而不是重复逻辑
更少的虚假成功声明（不会在没修好 bug 时说“我已经修好了”）
更少的过度设计 —— 不会添加不必要的抽象
在多步骤任务中有更好的执行力

Cursor 的联合创始人称其为“与 Sonnet 4.5 相比，在包括长程任务和更难问题在内的所有方面都有显著进步”。GitHub 报告称，在复杂的跨代码库修复中，它表现出了“强大的解决率和开发者所需的一致性”。

3. Computer Use 达到生产级水平

OSWorld 分数从 61.4% 到 72.5% 的跨越是一个门槛。用户将其描述为“在操作复杂电子表格或填写多步骤网页表单等任务中达到了人类水平的能力”。

Sonnet 4.6 在 computer use 的 防提示词注入 方面也有显著提升 —— 达到了 Opus 4.6 的水平。这对于任何浏览网页或处理不可信输入的智能体来说都至关重要。

4. Extended Thinking + Adaptive Thinking

这两者都得到了支持，允许模型为更难的问题分配更多的计算资源。但值得注意的是，即使 不启用 extended thinking（深度思考），Sonnet 4.6 的表现依然强劲 —— 基础模型在本质上已经变得更好。

5. 免费版升级

免费版 Claude 用户现在默认使用 Sonnet 4.6，此外还获得了：

文件创建能力

Connectors（与外部数据集成）

Skills（可复用的指令）

上下文压缩

这是目前各大主流供应商提供的最强大的免费 AI 层级。

6. Excel 中的 MCP 连接器

Claude in Excel 现在支持 S&P Global、LSEG、Daloopa、PitchBook、Moody's 和 FactSet 的连接器 —— 可以直接将实时财务数据引入电子表格。

定价

与 Sonnet 4.5 相比价格没有变化：

方案	价格
claude.ai 免费版	$0 (默认 Sonnet 4.6，有使用限制)
claude.ai Pro	$20/月 (更高限制，可访问 Opus)
API 输入	每百万 Token $3
API 输出	每百万 Token $15

作为对比：

Opus 4.6 API：每百万 Token $15/$75（贵 5 倍）

GPT-5.2 API：每百万 Token $5/$15（输入贵 1.7 倍）

Gemini 3 Pro API：每百万 Token $7/$21（输入贵 2.3 倍）

每次 Claude Code 会话的成本

对于典型的编程会话（100K 输入 + 20K 输出 token）：

模型	每次会话成本
Sonnet 4.6	$0.60
GPT-5.2	$0.80
Opus 4.6	$3.00

一个每天运行 100 次智能体会话的团队，通过使用 Sonnet 4.6 而非 Opus，每天可以节省约 $240。

如何访问

claude.ai

已经是默认设置。打开 claude.ai → 你就在使用 Sonnet 4.6。

Claude Code

bash

claude  # Sonnet 4.6 现在是默认模型
claude --model claude-sonnet-4-6-20250217  # 显式选择

API

模型 ID：claude-sonnet-4-6-20250217

python

import anthropic

client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-sonnet-4-6-20250217",
    max_tokens=4096,
    messages=[{"role": "user", "content": "Your prompt here"}]
)

云平台

从发布第一天起，即可在 Amazon Bedrock 和 Google Cloud Vertex AI 上使用。

行业背景

Sonnet 4.6 是 Anthropic 在 11 天内发布的第二个重大版本（继 2 月 6 日的 Opus 4.6 之后）。CNBC 将这一步伐描述为“继续保持 AI 模型发布令人惊叹的速度”。VentureBeat 则称其为“AI 行业的一次震撼性的重新定价事件”。

大趋势是：性能底线正在不断抬高。 六个月前需要 $15/$75 的旗舰模型才能完成的任务，现在仅需 $3/$15 即可。对于 AI 产品构建者来说，这意味着：

AI 功能的运行成本降低了 5 倍
Computer use 智能体在规模化应用上具有经济可行性
模型不再是瓶颈 —— 现在的关键在于产品交付

正在使用 Claude Sonnet 4.6 进行构建？Y Build 与 Claude Code 集成，用于 AI 辅助开发，随后处理部署、Demo Cut 产品视频、AI SEO 和分析 —— 提供从代码到增长的全栈支持。免费开始。

资料来源：