Claude Sonnet 4.6: AI Tahap Opus pada Harga Sonnet
Anthropic melancarkan Claude Sonnet 4.6 pada 17 Februari 2026 — memberikan prestasi hampir setaraf Opus pada 1/5 kos. Pecahan lengkap ciri baharu, semua skor tanda aras, harga, ketersediaan, dan sebab pembangun lebih menyukainya sebanyak 70% berbanding Sonnet 4.5.
TL;DR
Anthropic melancarkan Claude Sonnet 4.6 pada 17 Februari 2026. Rumusan utama:
- 79.6% SWE-bench — hampir identikal dengan Opus 4.6 (80.8%) dalam pengekodan dunia nyata
- 72.5% OSWorld — secara asasnya seri dengan Opus 4.6 (72.7%) dalam penggunaan komputer, hampir dua kali ganda GPT-5.2 (38.2%)
- $3/$15 per juta token — tidak berubah daripada Sonnet 4.5, 5 kali lebih murah daripada Opus
- Tetingkap konteks 1M token (beta) — meningkat daripada 200K
- Kini menjadi model lalai untuk semua pengguna Claude Percuma dan Pro
Apa Yang Diumumkan Oleh Anthropic
Claude Sonnet 4.6 adalah pelancaran model utama kedua Anthropic dalam masa kurang dari dua minggu (menyusuli Opus 4.6 pada 6 Februari). Dalam siaran blog mereka, Anthropic menggambarkannya sebagai "naiktaraf penuh kemahiran model merangkumi pengekodan, penggunaan komputer, penaakulan konteks panjang, perancangan ejen, kerja pengetahuan, dan reka bentuk."
Dakwaan teras: "Prestasi yang sebelum ini memerlukan model kelas Opus — termasuk untuk tugasan pejabat dunia nyata yang bernilai ekonomi — kini tersedia dengan Sonnet 4.6."
Ini adalah kenyataan yang signifikan. Anthropic secara berkesan mengatakan: untuk kebanyakan beban kerja produksi, anda tidak lagi perlu membayar untuk Opus.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Pecahan Penuh Tanda Aras
Di Mana Sonnet 4.6 Menyamai atau Mengatasi Opus
| Tanda Aras | Apa Yang Diuji | Sonnet 4.6 | Opus 4.6 | GPT-5.2 |
|---|---|---|---|---|
| SWE-bench Verified | Pengekodan dunia nyata | 79.6% | 80.8% | 80.0% |
| OSWorld-Verified | Penggunaan komputer | 72.5% | 72.7% | 38.2% |
| GDPval-AA (Elo) | Tugasan pejabat | 1633 | 1606 | 1462 |
| Finance Agent v1.1 | Analisis kewangan | 63.3% | 60.1% | 59.0% |
| OfficeQA | Pemahaman dokumen | Setanding Opus | — | — |
Sonnet 4.6 sebenarnya mendahului dalam tugasan pejabat dan analisis kewangan — dua kategori yang signifikan dari segi ekonomi.
Di Mana Opus 4.6 Kekal Mendahului
| Tanda Aras | Apa Yang Diuji | Opus 4.6 | Sonnet 4.6 | Jurang |
|---|---|---|---|---|
| Terminal-Bench 2.0 | Pengekodan terminal ejen | 65.4% | 59.1% | 6.3% |
| BrowseComp | Carian web ejen | 84.0% | 74.7% | 9.3% |
| ARC-AGI-2 | Penyelesaian masalah baharu | 68.8% | 58.3% | 10.5% |
| GPQA Diamond | Penaakulan tahap siswazah | 91.3% | 89.9% | 1.4% |
| MRCR v2 (8-needle 1M) | Penaakulan konteks panjang | 76.0% | — | — |
Coraknya jelas: Opus menang dalam tugasan yang memerlukan penaakulan yang paling mendalam dan baharu — seperti pemfaktoran semula kod skala besar, penyelidikan berbilang langkah, dan masalah yang belum pernah dilihat oleh model tersebut. Sonnet menang dalam tugasan sedia-produksi yang mementingkan kelajuan.
Penggunaan Komputer: Peningkatan Ketara
Angka penggunaan komputer (computer use) memerlukan perhatian khusus:
| Model | Skor OSWorld | Garis Masa |
|---|---|---|
| Sonnet 3.5 (Okt 2024) | 14.9% | Pelancaran pertama |
| Sonnet 4.5 | 61.4% | +46.5% |
| Sonnet 4.6 | 72.5% | +11.1% |
| Opus 4.6 | 72.7% | Tahap siling |
| GPT-5.2 | 38.2% | Untuk perbandingan |
Dalam masa 16 bulan, Sonnet meningkat daripada 14.9% kepada 72.5% dalam penggunaan komputer — peningkatan 4.9 kali ganda. Jamie Cuffe, CEO Pace (syarikat teknologi insurans), melaporkan bahawa Sonnet 4.6 mencapai 94% dalam tanda aras penggunaan komputer dalaman mereka: "Ia menaakul melalui kegagalan dan membetulkan diri dengan cara yang belum pernah kami lihat sebelum ini."
Apa Yang Baharu berbanding Sonnet 4.5
1. Tetingkap Konteks 1M Token (Beta)
Tetingkap konteks berkembang daripada 200K kepada 1 juta token. Ini bermakna keseluruhan pangkalan kod, dokumen undang-undang yang panjang, atau sejarah perbualan berjam-jam boleh dimuatkan dalam satu prom.
Ciri pemampatan konteks (context compaction) baharu (juga dalam beta) meringkaskan segmen perbualan lama secara automatik, sekali gus memanjangkan konteks yang boleh digunakan dengan lebih jauh lagi.
2. Ikutan Arahan Lebih Baik, Kurang Halusinasi
Inilah perkara pertama yang disedari oleh pembangun. Dalam ujian Claude Code:
- 70% lebih menyukai Sonnet 4.6 berbanding Sonnet 4.5
- 59% lebih menyukainya walaupun berbanding Opus 4.5 (model perintis November 2025)
- Membaca kod sedia ada sebelum mengubahsuainya (bukannya meneka)
- Menyatukan logik dan bukannya menduplikasi kod
- Kurang tuntutan kejayaan palsu ("Saya telah membetulkan pepijat" sedangkan belum)
- Kurang kejuruteraan berlebihan — tidak menambah abstraksi yang tidak perlu
- Susulan yang lebih baik untuk tugasan berbilang langkah
3. Penggunaan Komputer Kini Sedia-Produksi
Lompatan daripada 61.4% kepada 72.5% dalam OSWorld melepasi satu ambang penting. Pengguna menggambarkan "keupayaan tahap manusia dalam tugasan seperti menavigasi hamparan yang kompleks atau mengisi borang web berbilang langkah."
Sonnet 4.6 juga meningkat dengan ketara dalam rintangan suntikan prom (prompt injection resistance) untuk penggunaan komputer — berprestasi pada tahap Opus 4.6. Ini adalah kritikal bagi mana-mana ejen yang melayari web atau memproses input yang tidak dipercayai.
4. Extended Thinking + Adaptive Thinking
Kedua-duanya disokong, membolehkan model memperuntukkan lebih banyak pengiraan untuk masalah yang lebih sukar. Namun yang menariknya, Sonnet 4.6 berprestasi kuat walaupun tanpa mengaktifkan extended thinking — model asasnya secara fundamental adalah lebih baik.
5. Naiktaraf Pelan Percuma
Pengguna Claude percuma kini mendapat Sonnet 4.6 sebagai lalai, ditambah dengan:
- Keupayaan penciptaan fail
- Penyambung (integrasi dengan data luaran)
- Skills (arahan yang boleh digunakan semula)
- Pemampatan konteks
Ini adalah pelan AI percuma yang paling berkeupayaan yang tersedia daripada mana-mana penyedia utama.
6. Penyambung MCP dalam Excel
Claude dalam Excel kini menyokong penyambung untuk S&P Global, LSEG, Daloopa, PitchBook, Moody’s, dan FactSet — menarik data kewangan langsung terus ke dalam hamparan.
Harga
Tiada perubahan harga daripada Sonnet 4.5:
| Pelan | Harga |
|---|---|
| claude.ai Percuma | $0 (Lalai Sonnet 4.6, had penggunaan) |
| claude.ai Pro | $20/sebulan (had lebih tinggi, akses Opus) |
| API input | $3 per juta token |
| API output | $15 per juta token |
Untuk perbandingan:
- API Opus 4.6: $15/$75 per juta token (5 kali ganda lebih mahal)
- API GPT-5.2: $5/$15 per juta token (1.7 kali ganda lebih mahal untuk input)
- API Gemini 3 Pro: $7/$21 per juta token (2.3 kali ganda lebih mahal untuk input)
Kos Per Sesi Claude Code
Untuk sesi pengekodan biasa (100K input + 20K token output):
| Model | Kos setiap sesi |
|---|---|
| Sonnet 4.6 | $0.60 |
| GPT-5.2 | $0.80 |
| Opus 4.6 | $3.00 |
Pasukan yang menjalankan 100 sesi ejen/hari menjimatkan ~$240/hari dengan menggunakan Sonnet 4.6 berbanding Opus.
Cara Untuk Akses
claude.ai
Sudah menjadi model lalai. Buka claude.ai → anda sedang menggunakan Sonnet 4.6.Claude Code
claude # Sonnet 4.6 kini menjadi lalai
claude --model claude-sonnet-4-6-20250217 # pemilihan eksplisit
API
ID Model:claude-sonnet-4-6-20250217
import anthropic
client = anthropic.Anthropic()
message = client.messages.create(
model="claude-sonnet-4-6-20250217",
max_tokens=4096,
messages=[{"role": "user", "content": "Your prompt here"}]
)
Platform Awan
Tersedia di Amazon Bedrock dan Google Cloud Vertex AI dari hari pertama.Konteks Industri
Sonnet 4.6 adalah pelancaran besar kedua Anthropic dalam masa 11 hari (selepas Opus 4.6 pada 6 Februari). CNBC menyifatkan rentak ini sebagai "meneruskan kelajuan pelancaran model AI yang sangat pantas." VentureBeat memanggilnya "peristiwa penetapan harga semula yang besar bagi industri AI."
Trend yang lebih luas: tahap prestasi asas semakin meningkat. Apa yang memerlukan model unggulan berharga $15/$75 enam bulan lalu kini dihantar pada harga $3/$15. Bagi pembina produk AI, ini bermakna:
- Kos menjalankan ciri AI adalah 5 kali lebih rendah
- Ejen penggunaan komputer berdaya maju secara ekonomi pada skala besar
- Model bukan lagi penghalang — kepantasan pelancaran produk adalah kunci utama
Membina dengan Claude Sonnet 4.6? Y Build berintegrasi dengan Claude Code untuk pembangunan berbantukan AI, kemudian mengendalikan penggunaan (deployment), video produk Demo Cut, SEO AI, dan analitik — tindanan penuh (full stack) daripada kod kepada pertumbuhan. Mula secara percuma.
Sumber:
- Anthropic: Introducing Claude Sonnet 4.6
- CNBC: Anthropic releases Claude Sonnet 4.6
- VentureBeat: Sonnet 4.6 matches flagship at one-fifth the cost
- 9to5Mac: Claude Sonnet 4.6 improved coding skills
- MacRumors: Claude Sonnet 4.6 improved coding, computer use
- MarkTechPost: Claude 4.6 Sonnet with 1M token context
- OfficeChai: Claude Sonnet 4.6 Benchmarks
- SiliconANGLE: Anthropic debuts Sonnet 4.6
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.