Sonnet 4.6 vs GPT-5.2 vs Gemini 3: Panduan 2026

Ringkasan (TL;DR)

Sonnet 4.6	GPT-5.2	Gemini 3 Pro
Pengekodan (SWE-bench)	79.6%	80.0%	76.8%
Penggunaan komputer (OSWorld)	72.5%	38.2%	N/A
Matematik (AIME 2025)	~90%	100%	~88%
Tugasan pejabat (Elo)	1633	1462	N/A
Konteks	1M (beta)	400K	1M (asli)
Harga input	$3/M	$5/M	$7/M
Harga output	$15/M	$15/M	$21/M

Keputusan pantas:

Pengekodan + penggunaan komputer + kecekapan kos → Claude Sonnet 4.6
Penaakulan matematik tulen + kelajuan → GPT-5.2
Multimodal (video, imej, audio) + konteks panjang → Gemini 3 Pro

Landskap Model AI Februari 2026

Tiga model AI terkemuka sedang bersaing untuk mendapatkan perhatian pembangun sekarang:

Claude Sonnet 4.6 (Anthropic, 17 Februari 2026) — yang terbaharu, berharga $3/$15
GPT-5.2 (OpenAI, Disember 2025) — raja penaakulan, berharga $5/$15
Gemini 3 Pro (Google DeepMind, Januari 2026) — peneraju multimodal, berharga $7/$21

Masing-masing mempunyai kekuatan yang jelas. Panduan ini menghuraikan dengan tepat di mana setiap model menang, di mana ia kalah, dan yang mana satu patut anda gunakan untuk apa.

Prestasi Pengekodan

SWE-bench Verified (Kejuruteraan Perisian Dunia Sebenar)

SWE-bench menguji model dalam menyelesaikan isu GitHub sebenar — membaca pangkalan kod, memahami pepijat, menulis tampalan (patches). Ia adalah penanda aras yang paling hampir dengan kerja pembangun sebenar.

Model	Skor
GPT-5.2	80.0%
Sonnet 4.6	79.6%
Opus 4.6	80.8%
Gemini 3 Pro	76.8%

Tiga teratas berada dalam lingkungan 1.2 mata peratusan. Dalam praktiknya, perbezaan kualiti pengekodan antara Sonnet 4.6 dan GPT-5.2 adalah sangat kecil untuk kebanyakan tugasan.

Terminal-Bench 2.0 (Pengekodan Terminal Agentik)

Ini menguji tugasan pengekodan berbilang langkah dalam persekitaran terminal — lebih dekat dengan cara ejen pengekodan AI sebenarnya berfungsi.

Model	Skor
Opus 4.6	65.4%
Sonnet 4.6	59.1%
GPT-5.2	46.7%

Model Claude mendominasi di sini. Malah Sonnet 4.6 mengatasi GPT-5.2 sebanyak 12.4 mata dalam pengekodan agentik — satu jurang yang besar. Ini menjelaskan mengapa Claude Code menjadi alatan pilihan untuk pembangunan berbantu AI.

Pengalaman Pembangun Dunia Sebenar

Pengasas bersama Cursor menyifatkan Sonnet 4.6 sebagai "peningkatan ketara berbanding Sonnet 4.5 secara menyeluruh, termasuk tugasan jangka panjang dan masalah yang lebih sukar."

GitHub melaporkan "kadar penyelesaian yang kuat dan jenis konsistensi yang diperlukan oleh pembangun" semasa menguji Sonnet 4.6 pada pembaikan merentas pangkalan kod (cross-codebase).

Dalam ujian bersemuka Claude Code, pembangun lebih menggemari Sonnet 4.6 berbanding Sonnet 4.5 sebanyak 70% daripada masa, memetik:

Membaca konteks kod sedia ada sebelum mengubah suai

Menggabungkan logik dan bukannya menduplikasi

Kurang dakwaan kejayaan palsu

Kurang kejuruteraan berlebihan (over-engineering)

Pemenang: Seri (GPT-5.2 mendahului sedikit pada SWE-bench, Claude mendahului secara ketara pada pengekodan terminal agentik)

Penggunaan Komputer

Ini adalah jurang yang paling luas antara ketiga-tiga model tersebut.

Model	Skor OSWorld
Sonnet 4.6	72.5%
GPT-5.2	38.2%
Gemini 3 Pro	Tiada penanda aras

Sonnet 4.6 mendapat skor hampir dua kali ganda GPT-5.2 dalam penggunaan komputer. Ia pada dasarnya seri dengan Opus 4.6 (72.7%).

Apa yang dimaksudkan dalam praktiknya: Sonnet 4.6 boleh menavigasi aplikasi web dengan dipercayai, mengisi borang, berinteraksi dengan hamparan kerja, dan mengautomasikan aliran kerja desktop berbilang langkah. GPT-5.2 bergelut dengan tugasan ini.

Jamie Cuffe (CEO, Pace) melaporkan ketepatan 94% pada penanda aras penggunaan komputer insurans mereka dengan Sonnet 4.6: "Ia menaakul melalui kegagalan dan membetulkan diri sendiri dengan cara yang tidak pernah kami lihat sebelum ini."

Pemenang: Claude Sonnet 4.6 (dengan jurang yang luas)

Penaakulan dan Matematik

AIME 2025 (Matematik Pertandingan)

Model	Skor
GPT-5.2	100%
Opus 4.6	~92.8%
Sonnet 4.6	~90%
Gemini 3 Pro	~88%

GPT-5.2 mencapai ketepatan sempurna pada AIME 2025. Ini adalah kelebihannya yang paling jelas.

GPQA Diamond (Sains Tahap Siswazah)

Model	Skor
Opus 4.6	91.3%
Sonnet 4.6	89.9%
GPT-5.2	~88%

Claude mendahului di sini, dengan Sonnet 4.6 mengatasi GPT-5.2 pada 1/3 kos input.

ARC-AGI-2 (Penyelesaian Masalah Baharu)

Model	Skor
Opus 4.6	68.8%
Sonnet 4.6	58.3%

ARC-AGI-2 menguji keupayaan untuk menyelesaikan jenis masalah yang benar-benar baharu. Di sinilah penaakulan Opus yang lebih mendalam sangat penting.

Pemenang: GPT-5.2 (matematik), Claude (sains, penaakulan baharu)

Tugasan Pejabat dan Kerja Pengetahuan

GDPval-AA Elo (Produktiviti Pejabat Dunia Sebenar)

Model	Skor
Sonnet 4.6	1633
Opus 4.6	1606
GPT-5.2	1462

Sonnet 4.6 menerajui semua model — termasuk Opus — dalam hamparan kerja, pemprosesan borang, analisis dokumen, dan ringkasan data.

Finance Agent v1.1 (Analisis Kewangan Agentik)

Model	Skor
Sonnet 4.6	63.3%
Opus 4.6	60.1%
GPT-5.2	59.0%

Sekali lagi, Sonnet 4.6 mendahului. Dalam satu ujian, sebuah syarikat peruncitan menganalisis data jualan berbilang tahun. Sonnet 4.5 telah melakukan ralat pengiraan berturutan dalam tafsiran kewangan. Sonnet 4.6 mengira nisbah pelaburan-kepada-kos dengan betul dan menyusun artikel teratas mengikut kenaikan harga.

Pemenang: Claude Sonnet 4.6

Keupayaan Multimodal

Kekuatan Unik Gemini 3 Pro

Di sinilah Gemini 3 Pro membezakan dirinya. Ia memproses secara asli:

Teks, imej, audio, dan video dalam satu konteks

Sehingga 1 jam video atau 11 jam audio

Dokumen PDF dengan pemahaman susun atur visual

Sama ada Sonnet 4.6 mahupun GPT-5.2 tidak boleh memproses video secara asli. Untuk tugasan yang melibatkan analisis video, transkripsi audio, atau pemprosesan dokumen berbilang format, Gemini 3 Pro adalah satu-satunya pilihan antara ketiga-tiga ini.

Pemahaman Imej

Ketiga-tiga model mengendalikan imej dengan baik. Gemini 3 Pro mempunyai sedikit kelebihan pada penaakulan visual yang kompleks, tetapi jurangnya lebih kecil berbanding tahun 2025.

Pemenang: Gemini 3 Pro (secara ketara, untuk video/audio)

Tetingkap Konteks

Model	Tetingkap Konteks	Asli/Beta
Gemini 3 Pro	1M token	Asli
Sonnet 4.6	1M token	Beta
GPT-5.2	400K token	Asli

Kedua-dua Gemini dan Sonnet kini menawarkan konteks 1M token, tetapi Gemini adalah asli sepenuhnya manakala Sonnet adalah dalam fasa beta. GPT-5.2 terhad kepada 400K.

Sonnet 4.6 menambah pemadatan konteks — merumuskan bahagian perbualan lama secara automatik untuk melanjutkan konteks berkesan dengan lebih jauh lagi. Ini amat berguna dalam sesi Claude Code di mana perbualan boleh menjadi sangat panjang.

Opus 4.6 mendapat skor 76% pada MRCR v2 (8-jarum, konteks 1M) untuk penaakulan konteks panjang — jauh lebih baik daripada 18.5% milik Sonnet 4.5. Skor Sonnet 4.6 belum diterbitkan lagi untuk ujian khusus ini.

Pemenang: Gemini 3 Pro (1M asli), dengan Sonnet 4.6 mengekori rapat

Harga

Perbandingan Kos API

Model	Input (/M token)	Output (/M token)	Jumlah untuk 100K in + 20K out
Sonnet 4.6	$3	$15	$0.60
GPT-5.2	$5	$15	$0.80
Gemini 3 Pro	$7	$21	$1.12
Opus 4.6	$15	$75	$3.00

Sonnet 4.6 adalah model terkemuka termurah dengan margin yang bermakna — 25% kurang daripada GPT-5.2 setiap sesi, 46% kurang daripada Gemini 3 Pro.

Pada Skala Besar (100 sesi/hari)

Model	Kos harian	Kos bulanan
Sonnet 4.6	$60	$1,800
GPT-5.2	$80	$2,400
Gemini 3 Pro	$112	$3,360
Opus 4.6	$300	$9,000

Kelebihan kos ini bertambah secara kompaun. Sebuah syarikat pemula (startup) yang menjalankan 100 sesi ejen AI sehari menjimatkan $600/bulan dengan memilih Sonnet 4.6 berbanding GPT-5.2, dan menjimatkan $1,560/bulan berbanding Gemini 3 Pro.

Pemenang: Claude Sonnet 4.6

Keselamatan dan Kebolehpercayaan

Rintangan Suntikan Prom (Prompt Injection)

Sonnet 4.6 setanding dengan Opus 4.6 dalam rintangan suntikan prom — peningkatan ketara berbanding Sonnet 4.5. Ini penting bagi mana-mana ejen yang melayari web, membaca e-mel, atau memproses kandungan yang diserahkan oleh pengguna.

Kadar Halusinasi

Pembangun secara konsisten melaporkan kurang halusinasi daripada Sonnet 4.6 berbanding Sonnet 4.5 dan GPT-5.2. GPT-5.2 mendakwa 65% kurang halusinasi berbanding GPT-5.0, tetapi perbandingan terus merentas model adalah sukar.

Kebolehpercayaan dalam Produksi

Pengguna Claude Code melaporkan Sonnet 4.6 "kurang malas" — ia menyelesaikan tugasan berbilang langkah dan bukannya mengambil jalan pintas atau mendakwa penyelesaian pramatang. Ini adalah peningkatan kualiti hidup praktikal yang tidak dapat ditangkap oleh penanda aras.

Pemenang: Claude Sonnet 4.6 (terutamanya untuk keselamatan agentik)

Model Mana Yang Patut Anda Gunakan?

Pilih Sonnet 4.6 Apabila:

Membina ejen pengekodan AI atau menggunakan Claude Code
Menggunakan ejen penggunaan komputer / automasi pelayar
Menjalankan tugasan produktiviti pejabat (analisis data, borang, dokumen)
Bajet adalah penting — Sonnet 4.6 memberikan prestasi paling tinggi bagi setiap dolar
Membina ejen yang memproses input yang tidak dipercayai (rintangan suntikan prom)
Anda mahukan pelan percuma terbaik (claude.ai Percuma)

Pilih GPT-5.2 Apabila:

Tugasan berat matematik (matematik pertandingan, pemodelan kewangan dengan persamaan kompleks)
Anda sudah berada dalam ekosistem OpenAI (ChatGPT Plus, Assistants API)
Kelajuan adalah keutamaan utama (GPT-5.2 cenderung lebih pantas untuk pertanyaan mudah)
Anda memerlukan alatan khusus OpenAI (function calling, structured outputs)

Pilih Gemini 3 Pro Apabila:

Bekerja dengan kandungan video atau audio
Memproses dokumen besar berbilang format
Membina di atas infrastruktur Google Cloud
Anda memerlukan konteks asli 1M dengan kebolehpercayaan terbukti
Pemahaman multimodal adalah keperluan teras

Pendekatan Berbilang Model

Banyak pasukan produksi menggunakan pelbagai model:

Sonnet 4.6 sebagai penggerak utama (pengekodan, ejen, tugasan pejabat)

GPT-5.2 untuk penaakulan intensif matematik

Gemini 3 Pro untuk pemprosesan multimodal

Opus 4.6 untuk masalah paling sukar (pemfaktoran semula pangkalan kod, penyelidikan baharu)

Penglalaan model (model routing) — memilih model yang betul secara automatik berdasarkan tugasan — menjadi amalan standard pada tahun 2026.

Kesimpulan

Sonnet 4.6 adalah model terkemuka dengan nilai terbaik pada Februari 2026. Ia menandingi atau mengalahkan GPT-5.2 dalam pengekodan, penggunaan komputer, tugasan pejabat, dan keselamatan — pada kos 25-46% lebih rendah. GPT-5.2 menang dalam matematik tulen. Gemini 3 Pro menang dalam multimodal.

Bagi kebanyakan pembangun yang membina produk, Sonnet 4.6 adalah pilihan utama secara lalai (default). Persoalannya bukan sama ada ia cukup bagus — ia jelas cukup bagus — tetapi sama ada keuntungan marginal model yang lebih mahal mewajarkan kos untuk kes penggunaan khusus anda.

Membina dengan model AI? Y Build mengendalikan keseluruhan tindanan: pengekodan berbantu AI dengan Claude Code, penggunaan satu klik, Demo Cut untuk video produk, SEO AI, dan analitik. Fokus pada produk anda, bukan infrastruktur anda. Mula secara percuma.

Sumber:

Ringkasan (TL;DR)

Sonnet 4.6	GPT-5.2	Gemini 3 Pro
Pengekodan (SWE-bench)	79.6%	80.0%	76.8%
Penggunaan komputer (OSWorld)	72.5%	38.2%	N/A
Matematik (AIME 2025)	~90%	100%	~88%
Tugasan pejabat (Elo)	1633	1462	N/A
Konteks	1M (beta)	400K	1M (asli)
Harga input	$3/M	$5/M	$7/M
Harga output	$15/M	$15/M	$21/M

Keputusan pantas:

Pengekodan + penggunaan komputer + kecekapan kos → Claude Sonnet 4.6
Penaakulan matematik tulen + kelajuan → GPT-5.2
Multimodal (video, imej, audio) + konteks panjang → Gemini 3 Pro

Landskap Model AI Februari 2026

Tiga model AI terkemuka sedang bersaing untuk mendapatkan perhatian pembangun sekarang:

Claude Sonnet 4.6 (Anthropic, 17 Februari 2026) — yang terbaharu, berharga $3/$15
GPT-5.2 (OpenAI, Disember 2025) — raja penaakulan, berharga $5/$15
Gemini 3 Pro (Google DeepMind, Januari 2026) — peneraju multimodal, berharga $7/$21

Masing-masing mempunyai kekuatan yang jelas. Panduan ini menghuraikan dengan tepat di mana setiap model menang, di mana ia kalah, dan yang mana satu patut anda gunakan untuk apa.

Prestasi Pengekodan

SWE-bench Verified (Kejuruteraan Perisian Dunia Sebenar)

Model	Skor
GPT-5.2	80.0%
Sonnet 4.6	79.6%
Opus 4.6	80.8%
Gemini 3 Pro	76.8%

Tiga teratas berada dalam lingkungan 1.2 mata peratusan. Dalam praktiknya, perbezaan kualiti pengekodan antara Sonnet 4.6 dan GPT-5.2 adalah sangat kecil untuk kebanyakan tugasan.

Terminal-Bench 2.0 (Pengekodan Terminal Agentik)

Ini menguji tugasan pengekodan berbilang langkah dalam persekitaran terminal — lebih dekat dengan cara ejen pengekodan AI sebenarnya berfungsi.

Model	Skor
Opus 4.6	65.4%
Sonnet 4.6	59.1%
GPT-5.2	46.7%

Pengalaman Pembangun Dunia Sebenar

Pengasas bersama Cursor menyifatkan Sonnet 4.6 sebagai "peningkatan ketara berbanding Sonnet 4.5 secara menyeluruh, termasuk tugasan jangka panjang dan masalah yang lebih sukar."

GitHub melaporkan "kadar penyelesaian yang kuat dan jenis konsistensi yang diperlukan oleh pembangun" semasa menguji Sonnet 4.6 pada pembaikan merentas pangkalan kod (cross-codebase).

Dalam ujian bersemuka Claude Code, pembangun lebih menggemari Sonnet 4.6 berbanding Sonnet 4.5 sebanyak 70% daripada masa, memetik:

Membaca konteks kod sedia ada sebelum mengubah suai

Menggabungkan logik dan bukannya menduplikasi

Kurang dakwaan kejayaan palsu

Kurang kejuruteraan berlebihan (over-engineering)

Pemenang: Seri (GPT-5.2 mendahului sedikit pada SWE-bench, Claude mendahului secara ketara pada pengekodan terminal agentik)

Penggunaan Komputer

Ini adalah jurang yang paling luas antara ketiga-tiga model tersebut.

Model	Skor OSWorld
Sonnet 4.6	72.5%
GPT-5.2	38.2%
Gemini 3 Pro	Tiada penanda aras

Sonnet 4.6 mendapat skor hampir dua kali ganda GPT-5.2 dalam penggunaan komputer. Ia pada dasarnya seri dengan Opus 4.6 (72.7%).

Pemenang: Claude Sonnet 4.6 (dengan jurang yang luas)

Penaakulan dan Matematik

AIME 2025 (Matematik Pertandingan)

Model	Skor
GPT-5.2	100%
Opus 4.6	~92.8%
Sonnet 4.6	~90%
Gemini 3 Pro	~88%

GPT-5.2 mencapai ketepatan sempurna pada AIME 2025. Ini adalah kelebihannya yang paling jelas.

GPQA Diamond (Sains Tahap Siswazah)

Model	Skor
Opus 4.6	91.3%
Sonnet 4.6	89.9%
GPT-5.2	~88%

Claude mendahului di sini, dengan Sonnet 4.6 mengatasi GPT-5.2 pada 1/3 kos input.

ARC-AGI-2 (Penyelesaian Masalah Baharu)

Model	Skor
Opus 4.6	68.8%
Sonnet 4.6	58.3%

ARC-AGI-2 menguji keupayaan untuk menyelesaikan jenis masalah yang benar-benar baharu. Di sinilah penaakulan Opus yang lebih mendalam sangat penting.

Pemenang: GPT-5.2 (matematik), Claude (sains, penaakulan baharu)

Tugasan Pejabat dan Kerja Pengetahuan

GDPval-AA Elo (Produktiviti Pejabat Dunia Sebenar)

Model	Skor
Sonnet 4.6	1633
Opus 4.6	1606
GPT-5.2	1462

Sonnet 4.6 menerajui semua model — termasuk Opus — dalam hamparan kerja, pemprosesan borang, analisis dokumen, dan ringkasan data.

Finance Agent v1.1 (Analisis Kewangan Agentik)

Model	Skor
Sonnet 4.6	63.3%
Opus 4.6	60.1%
GPT-5.2	59.0%

Pemenang: Claude Sonnet 4.6

Keupayaan Multimodal

Kekuatan Unik Gemini 3 Pro

Di sinilah Gemini 3 Pro membezakan dirinya. Ia memproses secara asli:

Teks, imej, audio, dan video dalam satu konteks

Sehingga 1 jam video atau 11 jam audio

Dokumen PDF dengan pemahaman susun atur visual

Pemahaman Imej

Ketiga-tiga model mengendalikan imej dengan baik. Gemini 3 Pro mempunyai sedikit kelebihan pada penaakulan visual yang kompleks, tetapi jurangnya lebih kecil berbanding tahun 2025.

Pemenang: Gemini 3 Pro (secara ketara, untuk video/audio)

Tetingkap Konteks

Model	Tetingkap Konteks	Asli/Beta
Gemini 3 Pro	1M token	Asli
Sonnet 4.6	1M token	Beta
GPT-5.2	400K token	Asli

Kedua-dua Gemini dan Sonnet kini menawarkan konteks 1M token, tetapi Gemini adalah asli sepenuhnya manakala Sonnet adalah dalam fasa beta. GPT-5.2 terhad kepada 400K.

Pemenang: Gemini 3 Pro (1M asli), dengan Sonnet 4.6 mengekori rapat

Harga

Perbandingan Kos API

Model	Input (/M token)	Output (/M token)	Jumlah untuk 100K in + 20K out
Sonnet 4.6	$3	$15	$0.60
GPT-5.2	$5	$15	$0.80
Gemini 3 Pro	$7	$21	$1.12
Opus 4.6	$15	$75	$3.00

Sonnet 4.6 adalah model terkemuka termurah dengan margin yang bermakna — 25% kurang daripada GPT-5.2 setiap sesi, 46% kurang daripada Gemini 3 Pro.

Pada Skala Besar (100 sesi/hari)

Model	Kos harian	Kos bulanan
Sonnet 4.6	$60	$1,800
GPT-5.2	$80	$2,400
Gemini 3 Pro	$112	$3,360
Opus 4.6	$300	$9,000

Pemenang: Claude Sonnet 4.6

Keselamatan dan Kebolehpercayaan

Rintangan Suntikan Prom (Prompt Injection)

Kadar Halusinasi

Kebolehpercayaan dalam Produksi

Pemenang: Claude Sonnet 4.6 (terutamanya untuk keselamatan agentik)

Model Mana Yang Patut Anda Gunakan?

Pilih Sonnet 4.6 Apabila:

Membina ejen pengekodan AI atau menggunakan Claude Code
Menggunakan ejen penggunaan komputer / automasi pelayar
Menjalankan tugasan produktiviti pejabat (analisis data, borang, dokumen)
Bajet adalah penting — Sonnet 4.6 memberikan prestasi paling tinggi bagi setiap dolar
Membina ejen yang memproses input yang tidak dipercayai (rintangan suntikan prom)
Anda mahukan pelan percuma terbaik (claude.ai Percuma)

Pilih GPT-5.2 Apabila:

Tugasan berat matematik (matematik pertandingan, pemodelan kewangan dengan persamaan kompleks)
Anda sudah berada dalam ekosistem OpenAI (ChatGPT Plus, Assistants API)
Kelajuan adalah keutamaan utama (GPT-5.2 cenderung lebih pantas untuk pertanyaan mudah)
Anda memerlukan alatan khusus OpenAI (function calling, structured outputs)

Pilih Gemini 3 Pro Apabila:

Bekerja dengan kandungan video atau audio
Memproses dokumen besar berbilang format
Membina di atas infrastruktur Google Cloud
Anda memerlukan konteks asli 1M dengan kebolehpercayaan terbukti
Pemahaman multimodal adalah keperluan teras

Pendekatan Berbilang Model

Banyak pasukan produksi menggunakan pelbagai model:

Sonnet 4.6 sebagai penggerak utama (pengekodan, ejen, tugasan pejabat)

GPT-5.2 untuk penaakulan intensif matematik

Gemini 3 Pro untuk pemprosesan multimodal

Opus 4.6 untuk masalah paling sukar (pemfaktoran semula pangkalan kod, penyelidikan baharu)

Penglalaan model (model routing) — memilih model yang betul secara automatik berdasarkan tugasan — menjadi amalan standard pada tahun 2026.

Kesimpulan

Sumber: