Claude Sonnet 4.6: AI Kelas Opus dengan Harga Sonnet

TL;DR

Anthropic merilis Claude Sonnet 4.6 pada 17 Februari 2026. Poin utamanya:

79.6% SWE-bench — hampir identik dengan Opus 4.6 (80.8%) pada pengkodean dunia nyata
72.5% OSWorld — secara esensial setara dengan Opus 4.6 (72.7%) dalam computer use, hampir dua kali lipat GPT-5.2 (38.2%)
$3/$15 per juta token — tidak berubah dari Sonnet 4.5, 5x lebih murah daripada Opus
1M token context window (beta) — naik dari 200K
Kini menjadi model default untuk semua pengguna Claude Free dan Pro

Pengembang lebih menyukai Sonnet 4.6 dibandingkan Sonnet 4.5 sebanyak 70% dari waktu yang ada di Claude Code, dan bahkan lebih menyukainya dibandingkan Opus 4.5 sebanyak 59% dari waktu yang ada.

Apa yang Diumumkan Anthropic

Claude Sonnet 4.6 adalah rilis model besar kedua Anthropic dalam waktu kurang dari dua minggu (menyusul Opus 4.6 pada 6 Februari). Dalam postingan blog mereka, Anthropic mendeskripsikannya sebagai "peningkatan penuh dari keterampilan model di seluruh pengkodean, computer use, penalaran konteks panjang, perencanaan agen, pekerjaan berbasis pengetahuan, dan desain."

Klaim intinya: "Performa yang sebelumnya membutuhkan model kelas Opus — termasuk pada tugas kantor yang bernilai ekonomi di dunia nyata — kini tersedia dengan Sonnet 4.6."

Ini adalah pernyataan yang signifikan. Anthropic secara efektif mengatakan: untuk sebagian besar beban kerja produksi, Anda tidak lagi perlu membayar untuk Opus.

Analisis Lengkap Benchmark

Di Mana Sonnet 4.6 Menyamai atau Mengalahkan Opus

Benchmark	Apa yang Diuji	Sonnet 4.6	Opus 4.6	GPT-5.2
SWE-bench Verified	Pengkodean dunia nyata	79.6%	80.8%	80.0%
OSWorld-Verified	Computer use	72.5%	72.7%	38.2%
GDPval-AA (Elo)	Tugas kantor	1633	1606	1462
Finance Agent v1.1	Analisis keuangan	63.3%	60.1%	59.0%
OfficeQA	Pemahaman dokumen	Menyamai Opus	—	—

Sonnet 4.6 sebenarnya unggul pada tugas kantor dan analisis keuangan — dua kategori yang signifikan secara ekonomi.

Di Mana Opus 4.6 Tetap Unggul

Benchmark	Apa yang Diuji	Opus 4.6	Sonnet 4.6	Selisih
Terminal-Bench 2.0	Pengkodean terminal agentik	65.4%	59.1%	6.3%
BrowseComp	Pencarian web agentik	84.0%	74.7%	9.3%
ARC-AGI-2	Penyelesaian masalah baru	68.8%	58.3%	10.5%
GPQA Diamond	Penalaran tingkat pascasarjana	91.3%	89.9%	1.4%
MRCR v2 (8-needle 1M)	Penalaran konteks panjang	76.0%	—	—

Polanya jelas: Opus menang pada tugas yang membutuhkan penalaran terdalam dan paling baru — seperti refaktorisasi skala basis kode, penelitian multi-langkah, dan masalah yang belum pernah dilihat model sebelumnya. Sonnet menang pada tugas yang sensitif terhadap kecepatan dan siap untuk produksi.

Computer Use: Peningkatan yang Menonjol

Angka computer use layak mendapatkan perhatian khusus:

Model	Skor OSWorld	Lini Masa
Sonnet 3.5 (Okt 2024)	14.9%	Peluncuran pertama
Sonnet 4.5	61.4%	+46.5%
Sonnet 4.6	72.5%	+11.1%
Opus 4.6	72.7%	Batas atas
GPT-5.2	38.2%	Untuk perbandingan

Dalam 16 bulan, Sonnet melonjak dari 14.9% ke 72.5% pada computer use — sebuah peningkatan 4.9x lipat. Jamie Cuffe, CEO Pace (perusahaan teknologi asuransi), melaporkan bahwa Sonnet 4.6 mencapai 94% pada benchmark internal computer use mereka: "Ia menalar melalui kegagalan dan mengoreksi diri sendiri dengan cara yang belum pernah kami lihat sebelumnya."

Apa yang Baru vs. Sonnet 4.5

1. Jendela Konteks 1 Juta Token (Beta)

Jendela konteks meluas dari 200K ke 1 juta token. Ini berarti seluruh basis kode, dokumen hukum yang panjang, atau riwayat percakapan berjam-jam dapat masuk dalam satu prompt tunggal.

Fitur context compaction baru (juga dalam versi beta) secara otomatis merangkum segmen percakapan lama, yang secara efektif memperluas konteks yang dapat digunakan lebih jauh lagi.

2. Kepatuhan Instruksi yang Lebih Baik, Lebih Sedikit Halusinasi

Inilah yang pertama kali disadari oleh para pengembang. Dalam pengujian Claude Code:

70% lebih menyukai Sonnet 4.6 dibandingkan Sonnet 4.5
59% bahkan lebih menyukainya dibandingkan Opus 4.5 (model frontier November 2025)

Peningkatan spesifik yang dikutip:

Membaca kode yang ada sebelum memodifikasinya (alih-alih menebak)
Mengonsolidasikan logika alih-alih menduplikasi
Lebih sedikit klaim kesuksesan palsu ("Saya sudah memperbaiki bug-nya" padahal belum)
Mengurangi over-engineering — tidak menambahkan abstraksi yang tidak perlu
Tindak lanjut yang lebih baik pada tugas multi-langkah

Co-founder Cursor menyebutnya sebagai "peningkatan nyata atas Sonnet 4.5 di segala bidang, termasuk tugas horison panjang dan masalah yang lebih sulit." GitHub melaporkan "tingkat resolusi yang kuat dan jenis konsistensi yang dibutuhkan pengembang" pada perbaikan lintas basis kode yang kompleks.

3. Computer Use Siap untuk Produksi

Loncatan dari 61.4% ke 72.5% di OSWorld melampaui ambang batas. Pengguna menggambarkan "kemampuan setingkat manusia dalam tugas-tugas seperti menavigasi spreadsheet yang kompleks atau mengisi formulir web multi-langkah."

Sonnet 4.6 juga meningkat secara signifikan dalam resistensi prompt injection untuk computer use — berkinerja pada level Opus 4.6. Ini sangat penting bagi agen mana pun yang menjelajahi web atau memproses input yang tidak tepercaya.

4. Extended Thinking + Adaptive Thinking

Keduanya didukung, membiarkan model mengalokasikan lebih banyak komputasi untuk masalah yang lebih sulit. Namun yang patut dicatat, Sonnet 4.6 berkinerja kuat bahkan tanpa mengaktifkan extended thinking — model dasarnya secara fundamental sudah lebih baik.

5. Peningkatan Tingkat Gratis (Free Tier)

Pengguna Claude gratis kini mendapatkan Sonnet 4.6 sebagai default, ditambah:

Kemampuan pembuatan file

Connector (integrasi dengan data eksternal)

Skill (instruksi yang dapat digunakan kembali)

Context compaction

Ini adalah tingkat AI gratis paling mumpuni yang tersedia dari penyedia utama mana pun.

6. Connector MCP di Excel

Claude di Excel kini mendukung connector untuk S&P Global, LSEG, Daloopa, PitchBook, Moody's, dan FactSet — menarik data keuangan langsung ke dalam spreadsheet.

Harga

Tidak ada perubahan harga dari Sonnet 4.5:

Paket	Harga
claude.ai Free	$0 (Default Sonnet 4.6, batas penggunaan)
claude.ai Pro	$20/bln (batas lebih tinggi, akses Opus)
API input	$3 per juta token
API output	$15 per juta token

Sebagai perbandingan:

API Opus 4.6: $15/$75 per juta token (5x lebih mahal)

API GPT-5.2: $5/$15 per juta token (1.7x lebih mahal untuk input)

API Gemini 3 Pro: $7/$21 per juta token (2.3x lebih mahal untuk input)

Biaya Per Sesi Claude Code

Untuk sesi pengkodean tipikal (100K input + 20K output token):

Model	Biaya per sesi
Sonnet 4.6	$0.60
GPT-5.2	$0.80
Opus 4.6	$3.00

Tim yang menjalankan 100 sesi agen/hari menghemat sekitar ~$240/hari dengan menggunakan Sonnet 4.6 alih-alih Opus.

Cara Mengakses

claude.ai

Sudah menjadi default. Buka claude.ai → Anda sudah menggunakan Sonnet 4.6.

Claude Code

bash

claude  # Sonnet 4.6 sekarang menjadi default
claude --model claude-sonnet-4-6-20250217  # pemilihan eksplisit

API

Model ID: claude-sonnet-4-6-20250217

python

import anthropic

client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-sonnet-4-6-20250217",
    max_tokens=4096,
    messages=[{"role": "user", "content": "Your prompt here"}]
)

Platform Cloud

Tersedia di Amazon Bedrock dan Google Cloud Vertex AI sejak hari pertama.

Konteks Industri

Sonnet 4.6 adalah rilis besar kedua Anthropic dalam 11 hari (setelah Opus 4.6 pada 6 Februari). CNBC mendeskripsikan kecepatannya sebagai "melanjutkan kecepatan luar biasa dari rilis model AI." VentureBeat menyebutnya sebagai "peristiwa penyesuaian harga yang seismik bagi industri AI."

Tren yang lebih luas: standar performa dasar sedang meningkat. Apa yang membutuhkan model unggulan seharga $15/$75 enam bulan lalu, kini hadir seharga $3/$15. Bagi pembangun produk AI, ini berarti:

Fitur AI membutuhkan biaya 5x lebih murah untuk dijalankan
Agen computer use layak secara ekonomi dalam skala besar
Model tidak lagi menjadi hambatan (bottleneck) — kuncinya ada pada pengiriman produk

Membangun dengan Claude Sonnet 4.6? Y Build terintegrasi dengan Claude Code untuk pengembangan berbantuan AI, kemudian menangani deployment, video produk Demo Cut, AI SEO, dan analitik — tumpukan teknologi lengkap dari kode hingga pertumbuhan. Mulai gratis.

Sumber: