Claude Sonnet 4.6: AI Tahap Opus pada Harga Sonnet

TL;DR

Anthropic melancarkan Claude Sonnet 4.6 pada 17 Februari 2026. Rumusan utama:

79.6% SWE-bench — hampir identikal dengan Opus 4.6 (80.8%) dalam pengekodan dunia nyata
72.5% OSWorld — secara asasnya seri dengan Opus 4.6 (72.7%) dalam penggunaan komputer, hampir dua kali ganda GPT-5.2 (38.2%)
$3/$15 per juta token — tidak berubah daripada Sonnet 4.5, 5 kali lebih murah daripada Opus
Tetingkap konteks 1M token (beta) — meningkat daripada 200K
Kini menjadi model lalai untuk semua pengguna Claude Percuma dan Pro

Pembangun lebih menyukai Sonnet 4.6 berbanding Sonnet 4.5 sebanyak 70% dalam Claude Code, malah lebih menyukainya berbanding Opus 4.5 sebanyak 59%.

Apa Yang Diumumkan Oleh Anthropic

Claude Sonnet 4.6 adalah pelancaran model utama kedua Anthropic dalam masa kurang dari dua minggu (menyusuli Opus 4.6 pada 6 Februari). Dalam siaran blog mereka, Anthropic menggambarkannya sebagai "naiktaraf penuh kemahiran model merangkumi pengekodan, penggunaan komputer, penaakulan konteks panjang, perancangan ejen, kerja pengetahuan, dan reka bentuk."

Dakwaan teras: "Prestasi yang sebelum ini memerlukan model kelas Opus — termasuk untuk tugasan pejabat dunia nyata yang bernilai ekonomi — kini tersedia dengan Sonnet 4.6."

Ini adalah kenyataan yang signifikan. Anthropic secara berkesan mengatakan: untuk kebanyakan beban kerja produksi, anda tidak lagi perlu membayar untuk Opus.

Pecahan Penuh Tanda Aras

Di Mana Sonnet 4.6 Menyamai atau Mengatasi Opus

Tanda Aras	Apa Yang Diuji	Sonnet 4.6	Opus 4.6	GPT-5.2
SWE-bench Verified	Pengekodan dunia nyata	79.6%	80.8%	80.0%
OSWorld-Verified	Penggunaan komputer	72.5%	72.7%	38.2%
GDPval-AA (Elo)	Tugasan pejabat	1633	1606	1462
Finance Agent v1.1	Analisis kewangan	63.3%	60.1%	59.0%
OfficeQA	Pemahaman dokumen	Setanding Opus	—	—

Sonnet 4.6 sebenarnya mendahului dalam tugasan pejabat dan analisis kewangan — dua kategori yang signifikan dari segi ekonomi.

Di Mana Opus 4.6 Kekal Mendahului

Tanda Aras	Apa Yang Diuji	Opus 4.6	Sonnet 4.6	Jurang
Terminal-Bench 2.0	Pengekodan terminal ejen	65.4%	59.1%	6.3%
BrowseComp	Carian web ejen	84.0%	74.7%	9.3%
ARC-AGI-2	Penyelesaian masalah baharu	68.8%	58.3%	10.5%
GPQA Diamond	Penaakulan tahap siswazah	91.3%	89.9%	1.4%
MRCR v2 (8-needle 1M)	Penaakulan konteks panjang	76.0%	—	—

Coraknya jelas: Opus menang dalam tugasan yang memerlukan penaakulan yang paling mendalam dan baharu — seperti pemfaktoran semula kod skala besar, penyelidikan berbilang langkah, dan masalah yang belum pernah dilihat oleh model tersebut. Sonnet menang dalam tugasan sedia-produksi yang mementingkan kelajuan.

Penggunaan Komputer: Peningkatan Ketara

Angka penggunaan komputer (computer use) memerlukan perhatian khusus:

Model	Skor OSWorld	Garis Masa
Sonnet 3.5 (Okt 2024)	14.9%	Pelancaran pertama
Sonnet 4.5	61.4%	+46.5%
Sonnet 4.6	72.5%	+11.1%
Opus 4.6	72.7%	Tahap siling
GPT-5.2	38.2%	Untuk perbandingan

Dalam masa 16 bulan, Sonnet meningkat daripada 14.9% kepada 72.5% dalam penggunaan komputer — peningkatan 4.9 kali ganda. Jamie Cuffe, CEO Pace (syarikat teknologi insurans), melaporkan bahawa Sonnet 4.6 mencapai 94% dalam tanda aras penggunaan komputer dalaman mereka: "Ia menaakul melalui kegagalan dan membetulkan diri dengan cara yang belum pernah kami lihat sebelum ini."

Apa Yang Baharu berbanding Sonnet 4.5

1. Tetingkap Konteks 1M Token (Beta)

Tetingkap konteks berkembang daripada 200K kepada 1 juta token. Ini bermakna keseluruhan pangkalan kod, dokumen undang-undang yang panjang, atau sejarah perbualan berjam-jam boleh dimuatkan dalam satu prom.

Ciri pemampatan konteks (context compaction) baharu (juga dalam beta) meringkaskan segmen perbualan lama secara automatik, sekali gus memanjangkan konteks yang boleh digunakan dengan lebih jauh lagi.

2. Ikutan Arahan Lebih Baik, Kurang Halusinasi

Inilah perkara pertama yang disedari oleh pembangun. Dalam ujian Claude Code:

70% lebih menyukai Sonnet 4.6 berbanding Sonnet 4.5
59% lebih menyukainya walaupun berbanding Opus 4.5 (model perintis November 2025)

Peningkatan khusus yang dinyatakan:

Membaca kod sedia ada sebelum mengubahsuainya (bukannya meneka)
Menyatukan logik dan bukannya menduplikasi kod
Kurang tuntutan kejayaan palsu ("Saya telah membetulkan pepijat" sedangkan belum)
Kurang kejuruteraan berlebihan — tidak menambah abstraksi yang tidak perlu
Susulan yang lebih baik untuk tugasan berbilang langkah

Pengasas bersama Cursor memanggilnya "peningkatan ketara berbanding Sonnet 4.5 secara menyeluruh, termasuk tugasan jangka panjang dan masalah yang lebih sukar." GitHub melaporkan "kadar resolusi yang kuat dan jenis konsistensi yang diperlukan oleh pembangun" bagi pembetulan merentasi pangkalan kod yang kompleks.

3. Penggunaan Komputer Kini Sedia-Produksi

Lompatan daripada 61.4% kepada 72.5% dalam OSWorld melepasi satu ambang penting. Pengguna menggambarkan "keupayaan tahap manusia dalam tugasan seperti menavigasi hamparan yang kompleks atau mengisi borang web berbilang langkah."

Sonnet 4.6 juga meningkat dengan ketara dalam rintangan suntikan prom (prompt injection resistance) untuk penggunaan komputer — berprestasi pada tahap Opus 4.6. Ini adalah kritikal bagi mana-mana ejen yang melayari web atau memproses input yang tidak dipercayai.

4. Extended Thinking + Adaptive Thinking

Kedua-duanya disokong, membolehkan model memperuntukkan lebih banyak pengiraan untuk masalah yang lebih sukar. Namun yang menariknya, Sonnet 4.6 berprestasi kuat walaupun tanpa mengaktifkan extended thinking — model asasnya secara fundamental adalah lebih baik.

5. Naiktaraf Pelan Percuma

Pengguna Claude percuma kini mendapat Sonnet 4.6 sebagai lalai, ditambah dengan:

Keupayaan penciptaan fail

Penyambung (integrasi dengan data luaran)

Skills (arahan yang boleh digunakan semula)

Pemampatan konteks

Ini adalah pelan AI percuma yang paling berkeupayaan yang tersedia daripada mana-mana penyedia utama.

6. Penyambung MCP dalam Excel

Claude dalam Excel kini menyokong penyambung untuk S&P Global, LSEG, Daloopa, PitchBook, Moody’s, dan FactSet — menarik data kewangan langsung terus ke dalam hamparan.

Harga

Tiada perubahan harga daripada Sonnet 4.5:

Pelan	Harga
claude.ai Percuma	$0 (Lalai Sonnet 4.6, had penggunaan)
claude.ai Pro	$20/sebulan (had lebih tinggi, akses Opus)
API input	$3 per juta token
API output	$15 per juta token

Untuk perbandingan:

API Opus 4.6: $15/$75 per juta token (5 kali ganda lebih mahal)

API GPT-5.2: $5/$15 per juta token (1.7 kali ganda lebih mahal untuk input)

API Gemini 3 Pro: $7/$21 per juta token (2.3 kali ganda lebih mahal untuk input)

Kos Per Sesi Claude Code

Untuk sesi pengekodan biasa (100K input + 20K token output):

Model	Kos setiap sesi
Sonnet 4.6	$0.60
GPT-5.2	$0.80
Opus 4.6	$3.00

Pasukan yang menjalankan 100 sesi ejen/hari menjimatkan ~$240/hari dengan menggunakan Sonnet 4.6 berbanding Opus.

Cara Untuk Akses

claude.ai

Sudah menjadi model lalai. Buka claude.ai → anda sedang menggunakan Sonnet 4.6.

Claude Code

bash

claude  # Sonnet 4.6 kini menjadi lalai
claude --model claude-sonnet-4-6-20250217  # pemilihan eksplisit

API

ID Model: claude-sonnet-4-6-20250217

python

import anthropic

client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-sonnet-4-6-20250217",
    max_tokens=4096,
    messages=[{"role": "user", "content": "Your prompt here"}]
)

Platform Awan

Tersedia di Amazon Bedrock dan Google Cloud Vertex AI dari hari pertama.

Konteks Industri

Sonnet 4.6 adalah pelancaran besar kedua Anthropic dalam masa 11 hari (selepas Opus 4.6 pada 6 Februari). CNBC menyifatkan rentak ini sebagai "meneruskan kelajuan pelancaran model AI yang sangat pantas." VentureBeat memanggilnya "peristiwa penetapan harga semula yang besar bagi industri AI."

Trend yang lebih luas: tahap prestasi asas semakin meningkat. Apa yang memerlukan model unggulan berharga $15/$75 enam bulan lalu kini dihantar pada harga $3/$15. Bagi pembina produk AI, ini bermakna:

Kos menjalankan ciri AI adalah 5 kali lebih rendah
Ejen penggunaan komputer berdaya maju secara ekonomi pada skala besar
Model bukan lagi penghalang — kepantasan pelancaran produk adalah kunci utama

Membina dengan Claude Sonnet 4.6? Y Build berintegrasi dengan Claude Code untuk pembangunan berbantukan AI, kemudian mengendalikan penggunaan (deployment), video produk Demo Cut, SEO AI, dan analitik — tindanan penuh (full stack) daripada kod kepada pertumbuhan. Mula secara percuma.

Sumber: