Claude Sonnet 4.6: AI Cấp độ Opus với Mức giá Sonnet

TL;DR

Anthropic đã phát hành Claude Sonnet 4.6 vào ngày 17 tháng 2 năm 2026. Những điểm mấu chốt:

79.6% SWE-bench — gần như tương đương với Opus 4.6 (80.8%) trong việc lập trình thực tế
72.5% OSWorld — về cơ bản ngang bằng với Opus 4.6 (72.7%) về khả năng sử dụng máy tính (computer use), gần gấp đôi GPT-5.2 (38.2%)
$3/$15 mỗi triệu token — không đổi so với Sonnet 4.5, rẻ hơn 5 lần so với Opus
Cửa sổ ngữ cảnh 1 triệu token (beta) — tăng từ 200K
Hiện là mô hình mặc định cho tất cả người dùng Claude miễn phí và Pro

Các lập trình viên ưu tiên Sonnet 4.6 hơn Sonnet 4.5 70% số lần trong Claude Code, và thậm chí ưu tiên nó hơn Opus 4.5 59% số lần.

Những gì Anthropic đã công bố

Claude Sonnet 4.6 là bản phát hành mô hình lớn thứ hai của Anthropic trong vòng chưa đầy hai tuần (tiếp sau Opus 4.6 vào ngày 6 tháng 2). Trong bài viết trên blog, Anthropic mô tả đây là \"một bản nâng cấp toàn diện các kỹ năng của mô hình về lập trình, sử dụng máy tính, lập luận ngữ cảnh dài, lập kế hoạch tác vụ (agent planning), công việc tri thức và thiết kế.\"

Khẳng định cốt lõi: \"Hiệu suất mà trước đây yêu cầu phải sử dụng mô hình cấp độ Opus — bao gồm cả các nhiệm vụ văn phòng có giá trị kinh tế trong thực tế — giờ đây đã có sẵn với Sonnet 4.6.\"

Đây là một tuyên bố quan trọng. Anthropic đang thực sự muốn nói rằng: đối với hầu hết các khối lượng công việc sản xuất, bạn không còn cần phải trả tiền cho Opus nữa.

Phân tích chi tiết Benchmark

Những nơi Sonnet 4.6 tương đương hoặc đánh bại Opus

Benchmark	Nội dung kiểm tra	Sonnet 4.6	Opus 4.6	GPT-5.2
SWE-bench Verified	Lập trình thực tế	79.6%	80.8%	80.0%
OSWorld-Verified	Sử dụng máy tính	72.5%	72.7%	38.2%
GDPval-AA (Elo)	Nhiệm vụ văn phòng	1633	1606	1462
Finance Agent v1.1	Phân tích tài chính	63.3%	60.1%	59.0%
OfficeQA	Hiểu văn bản	Tương đương Opus	—	—

Sonnet 4.6 thực sự dẫn đầu trong các nhiệm vụ văn phòng và phân tích tài chính — hai danh mục có ý nghĩa kinh tế quan trọng.

Những nơi Opus 4.6 vẫn giữ vững ưu thế

Benchmark	Nội dung kiểm tra	Opus 4.6	Sonnet 4.6	Khoảng cách
Terminal-Bench 2.0	Lập trình terminal dạng tác vụ	65.4%	59.1%	6.3%
BrowseComp	Tìm kiếm web dạng tác vụ	84.0%	74.7%	9.3%
ARC-AGI-2	Giải quyết vấn đề mới lạ	68.8%	58.3%	10.5%
GPQA Diamond	Lập luận cấp độ sau đại học	91.3%	89.9%	1.4%
MRCR v2 (8-needle 1M)	Lập luận ngữ cảnh dài	76.0%	—	—

Mô hình rất rõ ràng: Opus chiến thắng trong các nhiệm vụ đòi hỏi khả năng lập luận sâu sắc và mới lạ nhất — như tái cấu trúc mã nguồn quy mô lớn, nghiên cứu đa bước và các vấn đề mà mô hình chưa từng thấy trước đây. Sonnet chiến thắng trong các nhiệm vụ ưu tiên tốc độ và sẵn sàng cho sản xuất.

Sử dụng máy tính: Sự cải thiện vượt bậc

Các con số về khả năng sử dụng máy tính (computer use) xứng đáng được chú ý đặc biệt:

Mô hình	Điểm OSWorld	Mốc thời gian
Sonnet 3.5 (Tháng 10/2024)	14.9%	Lần đầu ra mắt
Sonnet 4.5	61.4%	+46.5%
Sonnet 4.6	72.5%	+11.1%
Opus 4.6	72.7%	Mức trần
GPT-5.2	38.2%	Để so sánh

Trong 16 tháng, Sonnet đã đi từ 14.9% lên 72.5% về khả năng sử dụng máy tính — một sự cải thiện gấp 4.9 lần. Jamie Cuffe, CEO của Pace (một công ty công nghệ bảo hiểm), báo cáo rằng Sonnet 4.6 đã đạt mức 94% trên benchmark sử dụng máy tính nội bộ của họ: \"Nó lập luận thông qua các lỗi và tự sửa lỗi theo những cách mà chúng tôi chưa từng thấy trước đây.\"

Có gì mới so với Sonnet 4.5

1. Cửa sổ ngữ cảnh 1 triệu Token (Beta)

Cửa sổ ngữ cảnh mở rộng từ 200K lên 1 triệu token. Điều này có nghĩa là toàn bộ mã nguồn, các tài liệu pháp lý dài dằng dặc, hoặc hàng giờ lịch sử trò chuyện đều có thể nằm gọn trong một prompt duy nhất.

Một tính năng nén ngữ cảnh (context compaction) mới (cũng đang ở bản beta) sẽ tự động tóm tắt các phân đoạn hội thoại cũ, giúp mở rộng ngữ cảnh có thể sử dụng hiệu quả hơn nữa.

2. Tuân thủ chỉ dẫn tốt hơn, ít ảo tưởng hơn

Đây là điều mà các lập trình viên nhận thấy đầu tiên. Trong thử nghiệm Claude Code:

70% ưu tiên Sonnet 4.6 hơn Sonnet 4.5
59% ưu tiên nó ngay cả khi so với Opus 4.5 (mô hình tiên phong tháng 11/2025)

Các cải thiện cụ thể được trích dẫn:

Đọc mã hiện có trước khi sửa đổi (thay vì tự đoán)
Hợp nhất logic thay vì sao chép trùng lặp
Ít tuyên bố thành công giả tạo hơn (\"Tôi đã sửa xong lỗi\" trong khi thực tế chưa xong)
Ít thiết kế quá mức (over-engineering) — không thêm các lớp trừu tượng không cần thiết
Theo sát các nhiệm vụ đa bước tốt hơn

Đồng sáng lập của Cursor gọi đây là \"một sự cải thiện đáng kể so với Sonnet 4.5 trên mọi phương diện, bao gồm các nhiệm vụ dài hơi và các vấn đề khó hơn.\" GitHub báo cáo \"tỷ lệ giải quyết mạnh mẽ và sự nhất quán mà các lập trình viên cần\" đối với các bản sửa lỗi phức tạp trên nhiều kho mã nguồn.

3. Khả năng sử dụng máy tính đã sẵn sàng cho sản xuất

Bước nhảy vọt từ 61.4% lên 72.5% trên OSWorld đã vượt qua một ngưỡng quan trọng. Người dùng mô tả nó đạt đến \"khả năng cấp độ con người trong các nhiệm vụ như điều hướng các bảng tính phức tạp hoặc điền vào các biểu mẫu web đa bước.\"

Sonnet 4.6 cũng cải thiện đáng kể về khả năng chống tấn công prompt injection cho tính năng sử dụng máy tính — đạt mức hiệu suất của Opus 4.6. Điều này rất quan trọng đối với bất kỳ tác vụ agent nào duyệt web hoặc xử lý dữ liệu đầu vào không đáng tin cậy.

4. Extended Thinking + Adaptive Thinking

Cả hai đều được hỗ trợ, cho phép mô hình phân bổ nhiều tính toán hơn cho các vấn đề khó hơn. Nhưng đáng chú ý là Sonnet 4.6 hoạt động mạnh mẽ ngay cả khi không bật extended thinking — mô hình cơ sở vốn dĩ đã tốt hơn.

5. Nâng cấp cho gói miễn phí

Người dùng Claude miễn phí hiện nhận được Sonnet 4.6 làm mặc định, kèm theo:

Khả năng tạo tệp (File creation)

Connectors (tích hợp với dữ liệu bên ngoài)

Skills (các chỉ dẫn có thể tái sử dụng)

Nén ngữ cảnh (Context compaction)

Đây là gói AI miễn phí có khả năng mạnh mẽ nhất hiện nay từ bất kỳ nhà cung cấp lớn nào.

6. Kết nối MCP trong Excel

Claude trong Excel hiện hỗ trợ các trình kết nối cho S&P Global, LSEG, Daloopa, PitchBook, Moody's và FactSet — giúp đưa dữ liệu tài chính trực tiếp vào bảng tính.

Giá cả

Không thay đổi về giá so với Sonnet 4.5:

Gói	Giá
claude.ai Miễn phí	$0 (Mặc định Sonnet 4.6, có giới hạn sử dụng)
claude.ai Pro	$20/tháng (giới hạn cao hơn, quyền truy cập Opus)
API input	$3 mỗi triệu token
API output	$15 mỗi triệu token

Để so sánh:

Opus 4.6 API: $15/$75 mỗi triệu token (đắt gấp 5 lần)

GPT-5.2 API: $5/$15 mỗi triệu token (input đắt gấp 1.7 lần)

Gemini 3 Pro API: $7/$21 mỗi triệu token (input đắt gấp 2.3 lần)

Chi phí mỗi phiên Claude Code

Đối với một phiên lập trình điển hình (100K input + 20K output token):

Mô hình	Chi phí mỗi phiên
Sonnet 4.6	$0.60
GPT-5.2	$0.80
Opus 4.6	$3.00

Một nhóm thực hiện 100 phiên tác vụ/ngày sẽ tiết kiệm được khoảng $240/ngày bằng cách sử dụng Sonnet 4.6 thay vì Opus.

Cách truy cập

claude.ai

Đã là mặc định. Truy cập claude.ai → bạn đang sử dụng Sonnet 4.6.

Claude Code

bash

claude  # Sonnet 4.6 hiện là mặc định
claude --model claude-sonnet-4-6-20250217  # lựa chọn cụ thể

API

Model ID: claude-sonnet-4-6-20250217

python

import anthropic

client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-sonnet-4-6-20250217",
    max_tokens=4096,
    messages=[{"role": "user", "content": "Your prompt here"}]
)

Nền tảng đám mây

Có sẵn trên Amazon Bedrock và Google Cloud Vertex AI ngay từ ngày đầu tiên.

Bối cảnh ngành

Sonnet 4.6 là bản phát hành lớn thứ hai của Anthropic trong vòng 11 ngày (sau Opus 4.6 vào ngày 6 tháng 2). CNBC mô tả tốc độ này là \"tiếp tục duy trì tốc độ chóng mặt của các đợt phát hành mô hình AI.\" VentureBeat gọi đây là \"một sự kiện định giá lại mang tính địa chấn cho ngành công nghiệp AI.\"

Xu hướng rộng lớn hơn: mức sàn hiệu suất đang tăng lên. Những gì từng yêu cầu một mô hình hàng đầu với giá $15/$75 sáu tháng trước thì nay đã được cung cấp ở mức $3/$15. Đối với những người xây dựng sản phẩm AI, điều này có nghĩa là:

Chi phí vận hành các tính năng AI giảm 5 lần
Các tác vụ sử dụng máy tính trở nên khả thi về mặt kinh tế ở quy mô lớn
Mô hình không còn là nút thắt cổ chai nữa — việc triển khai mới là yếu tố quyết định

Đang xây dựng với Claude Sonnet 4.6? Y Build tích hợp với Claude Code để hỗ trợ phát triển bằng AI, sau đó xử lý việc triển khai, sản xuất video Demo Cut, AI SEO và phân tích — giải pháp full-stack từ lập trình đến tăng trưởng. Bắt đầu miễn phí.

Nguồn: