Gemini 3.1 Pro vs Sonnet 4.6 vs GPT-5.2: 2026

TL;DR

Gemini 3.1 Pro	Sonnet 4.6	GPT-5.2
Penaakulan (ARC-AGI-2)	77.1%	58.3%	52.9%
Sains (GPQA)	94.3%	89.9%	92.4%
Pengkodan (SWE-bench)	80.6%	79.6%	80.0%
Penggunaan komputer (OSWorld)	N/A	72.5%	38.2%
Tugasan pejabat (Elo)	N/A	1633	1462
Konteks	1M (asli)	1M (beta)	400K
Harga input	$2/M	$3/M	$5/M
Harga output	$12/M	$15/M	$15/M

Keputusan pantas:

Penaakulan abstrak + sains + harga termurah → Gemini 3.1 Pro
Penggunaan komputer + tugasan pejabat + keselamatan ejen → Claude Sonnet 4.6
Matematik tulen + kelajuan → GPT-5.2

Februari 2026: Tiga Model Frontier dalam 13 Hari

Landskap model AI baru sahaja disusun semula. Dalam masa kurang daripada dua minggu:

6 Feb: Claude Opus 4.6 (Anthropic)
17 Feb: Claude Sonnet 4.6 (Anthropic)
19 Feb: Gemini 3.1 Pro (Google)

Masing-masing mendakwa kepimpinan dalam kategori yang berbeza. Tiada lagi satu model yang mendominasi segala-galanya. Panduan ini menghuraikan dengan tepat di mana setiap model menang dengan data penanda aras sebenar.

Penaakulan: Gemini 3.1 Pro Mendominasi

ARC-AGI-2 (Penyelesaian Masalah Baharu)

Ini adalah penanda aras yang menguji penaakulan tulen — menyelesaikan masalah yang tidak pernah dilihat oleh model sebelum ini, tanpa corak untuk dihafal.

Model	Skor
Gemini 3.1 Pro	77.1%
Claude Opus 4.6	68.8%
Claude Sonnet 4.6	58.3%
GPT-5.2	52.9%
Gemini 3 Pro	31.1%

Gemini 3.1 Pro mendahului dengan jurang besar 8.3 mata berbanding Opus 4.6, dan 24.2 mata berbanding GPT-5.2. Ini adalah jurang terluas pada mana-mana penanda aras frontier ketika ini.

Peningkatan daripada Gemini 3 Pro (31.1%) kepada 3.1 Pro (77.1%) — lonjakan sebanyak 148% — terhasil daripada penyepaduan teknik penaakulan Deep Think ke dalam model asas.

GPQA Diamond (Sains Tahap Siswazah)

Model	Skor
Gemini 3.1 Pro	94.3%
GPT-5.2	92.4%
Claude Opus 4.6	91.3%
Claude Sonnet 4.6	89.9%

Gemini mendahului dalam penaakulan saintifik tahap pakar — soalan fizik, kimia, biologi pada tahap siswazah.

Pemenang: Gemini 3.1 Pro (mendahului secara signifikan dalam penaakulan)

Pengkodan: Seri Tiga Hala

SWE-bench Verified (Kejuruteraan Perisian Dunia Nyata)

Model	Skor
Claude Opus 4.6	80.8%
Gemini 3.1 Pro	80.6%
GPT-5.2	80.0%
Claude Sonnet 4.6	79.6%

Keempat-empat model berada dalam lingkungan 1.2 mata peratusan. Ini secara efektifnya adalah keputusan seri — kali pertama Gemini mampu bersaing dengan Claude dalam pengkodan.

Terminal-Bench 2.0 (Pengkodan Terminal Berasaskan Ejen)

Model	Skor
GPT-5.3-Codex	77.3%
Gemini 3.1 Pro	68.5%
Claude Opus 4.6	65.4%
Claude Sonnet 4.6	59.1%

Gemini 3.1 Pro sebenarnya mengalahkan kedua-dua model Claude dalam pengkodan berasaskan ejen di terminal. Hanya model khusus GPT-5.3-Codex (bukan GPT-5.2 standard) yang mencatatkan prestasi lebih baik.

Integrasi Alatan Pembangun

Model	Alatan Tersedia
Gemini 3.1 Pro	Gemini CLI, GitHub Copilot, Android Studio, AI Studio
Claude Sonnet 4.6	Claude Code, Cursor, GitHub Copilot
GPT-5.2	GitHub Copilot, ChatGPT, Codex CLI

Ketiga-tiga model tersedia dalam GitHub Copilot. Gemini mempunyai kelebihan unik dengan integrasi Android Studio untuk pembangun aplikasi mudah alih.

Pemenang: Seri (Gemini merapatkan jurang, semua model kompetitif)

Penggunaan Komputer: Domain Eksklusif Claude

OSWorld (AI Mengawal Komputer)

Model	Skor
Claude Sonnet 4.6	72.5%
Claude Opus 4.6	72.7%
GPT-5.2	38.2%
Gemini 3.1 Pro	Tidak ditanda aras

Gemini 3.1 Pro tidak menawarkan keupayaan penggunaan komputer tujuan am. Claude Sonnet 4.6 adalah satu-satunya model yang boleh mengawal komputer dengan dipercayai — mengklik, menaip, menavigasi aplikasi, mengisi borang — pada ketepatan sedia untuk pengeluaran (production-ready).

Jika aliran kerja anda melibatkan automasi pelayar, pengekstrakan data daripada sistem lama, atau pengisian borang automatik, Claude adalah satu-satunya pilihan sebenar.

Pemenang: Claude Sonnet 4.6 (tiada persaingan)

Keupayaan Ejen (Agentic)

Prestasi Ejen Pelbagai Alatan

Penanda Aras	Gemini 3.1 Pro	Opus 4.6	GPT-5.2
APEX-Agents	33.5%	29.8%	23.0%
MCP Atlas (penggunaan alatan)	69.2%	—	—
BrowseComp (carian web)	85.9%	84.0%	—

Gemini 3.1 Pro mendahului dalam penanda aras ejen — perancangan berbilang langkah, penggunaan alatan, dan carian web berasaskan ejen. Skor APEX-Agents (33.5% vs 29.8% bagi Opus) mencadangkan penyelesaian masalah autonomi yang lebih baik dalam persekitaran yang kompleks.

Keselamatan untuk Ejen

Claude Sonnet 4.6 secara khusus meningkatkan rintangan terhadap suntikan prom (prompt injection) ke tahap Opus, yang penting apabila ejen memproses kandungan web yang tidak dipercayai. Google belum menerbitkan metrik keselamatan yang setanding untuk Gemini 3.1 Pro dalam konteks ejen.

Pemenang: Gemini 3.1 Pro (pada penanda aras), Claude Sonnet 4.6 (pada keselamatan)

Multimodal: Kelebihan Teras Gemini

Apa yang Boleh Diproses oleh Setiap Model

Jenis Input	Gemini 3.1 Pro	Sonnet 4.6	GPT-5.2
Teks	Ya	Ya	Ya
Imej	Ya	Ya	Ya
Audio	Ya (asli)	Tidak	Ya
Video	Ya (asli)	Tidak	Tidak
PDF	Ya	Ya	Ya

Gemini 3.1 Pro memproses secara asli sehingga 1 jam video dan 11 jam audio dalam tetingkap konteksnya. Claude mahupun GPT tidak dapat memproses video secara asli.

Untuk tugasan yang melibatkan analisis video, transkripsi audio, atau pemprosesan dokumen pelbagai format, Gemini adalah satu-satunya pilihan.

Pemenang: Gemini 3.1 Pro (secara signifikan)

Tetingkap Konteks

Model	Tetingkap Konteks	Skor Konteks Panjang (MRCR v2)
Gemini 3.1 Pro	1M (asli)	84.9%
Claude Sonnet 4.6	1M (beta)	84.9% (seri)
Claude Opus 4.6	1M (asli)	76.0%
GPT-5.2	400K	—

Gemini dan Claude Sonnet seri dalam prestasi konteks panjang pada tahap 84.9% dalam MRCR v2. Kedua-duanya mengatasi had 400K GPT-5.2 secara signifikan.

Konteks 1M Gemini adalah asli (GA), manakala Claude masih dalam versi beta. Untuk beban kerja pengeluaran yang memerlukan kebolehpercayaan konteks panjang yang terjamin, Gemini mempunyai kelebihan.

Pemenang: Seri (Gemini asli vs Claude beta)

Harga: Gemini Adalah Termurah

Perbandingan Kos API

Model	Input (/M token)	Output (/M token)	Kos setiap Sesi*
Gemini 3.1 Pro	$2.00	$12.00	$0.44
Claude Sonnet 4.6	$3.00	$15.00	$0.60
GPT-5.2	$5.00	$15.00	$0.80
Claude Opus 4.6	$15.00	$75.00	$3.00

*Sesi = 100K input + 20K token output

Gemini 3.1 Pro adalah 27% lebih murah daripada Sonnet 4.6 dan 45% lebih murah daripada GPT-5.2 bagi setiap sesi.

Pada Skala Besar (100 sesi/hari, 30 hari)

Model	Kos Bulanan
Gemini 3.1 Pro	$1,320
Gemini 3.1 Pro (batch)	$660
Claude Sonnet 4.6	$1,800
GPT-5.2	$2,400
Claude Opus 4.6	$9,000

Dengan mod batch, Gemini 3.1 Pro berharga $660/bulan untuk 100 sesi harian — kurang daripada separuh daripada kos Sonnet 4.6 yang berjumlah $1,800.

Pemenang: Gemini 3.1 Pro (model frontier termurah)

Tugasan Pejabat dan Kerja Pengetahuan

GDPval-AA Elo (Produktiviti Pejabat Dunia Nyata)

Model	Skor
Claude Sonnet 4.6	1633
Claude Opus 4.6	1606
GPT-5.2	1462
Gemini 3.1 Pro	Tidak didedahkan

Claude mendahului dalam automasi pejabat — hamparan, borang, analisis dokumen. Google belum menerbitkan skor Gemini 3.1 Pro pada penanda aras ini, menunjukkan ia mungkin tidak sekuat Claude di sini.

Finance Agent v1.1

Model	Skor
Claude Sonnet 4.6	63.3%
Claude Opus 4.6	60.1%
GPT-5.2	59.0%
Gemini 3.1 Pro	Tidak didedahkan

Pemenang: Claude Sonnet 4.6 (untuk tugasan pejabat/kewangan)

Model Mana yang Patut Anda Gunakan?

Pilih Gemini 3.1 Pro Apabila:

Penaakulan abstrak — 77.1% ARC-AGI-2 adalah yang terbaik tersedia
Analisis saintifik — 94.3% GPQA Diamond mendahului semua model
Bajet adalah kritikal — $2/$12 adalah harga frontier termurah
Pemprosesan multimodal — analisis video dan audio
Pembangunan Android — integrasi Android Studio asli
Konteks besar — 1M asli dengan kebolehpercayaan terbukti

Pilih Claude Sonnet 4.6 Apabila:

Penggunaan komputer — 72.5% OSWorld, tiada pesaing yang mendekati
Automasi pejabat — hamparan, borang, analisis data (1633 Elo)
Keselamatan ejen — rintangan suntikan prom terbaik
Aliran kerja Claude Code — 70% lebih disukai berbanding Sonnet 4.5
Analisis kewangan — 63.3% Finance Agent mendahului semua model
Mengikut arahan — kurang halusinasi, kurang kejuruteraan berlebihan

Pilih GPT-5.2 Apabila:

Matematik tulen — 100% AIME 2025 tidak tertandingi
Ekosistem OpenAI — ChatGPT Plus, Assistants API, Codex
Respons pantas — latensi terendah pada pertanyaan mudah
Integrasi sedia ada — sudah dibina di atas API OpenAI

Strategi Pelbagai Model

Jurang antara model semakin mengecil pada kebanyakan penanda aras tetapi semakin melebar pada keupayaan khusus. Amalan terbaik yang muncul:

Tugasan	Model Terbaik
Penaakulan abstrak / penyelidikan	Gemini 3.1 Pro
Penggunaan komputer / automasi pelayar	Claude Sonnet 4.6
Matematik kompleks	GPT-5.2
Tugasan pejabat / kewangan	Claude Sonnet 4.6
Analisis video / audio	Gemini 3.1 Pro
Pengkodan umum	Mana-mana (semua ≥79.6%)
Kumpulan ejen sensitif kos	Gemini 3.1 Pro
Pemfaktoran semula kod yang mendalam	Claude Opus 4.6

Kesimpulan

Februari 2026 mengakhiri era satu-model-untuk-semua. Gemini 3.1 Pro mendahului dalam penaakulan dan harga. Claude Sonnet 4.6 mendahului dalam penggunaan komputer dan tugasan pejabat. GPT-5.2 mendahului dalam matematik. Masing-masing mempunyai kelebihan yang jelas dan boleh dipertahankan.

Bagi kebanyakan pembangun yang membina produk, jawapan praktikalnya ialah: pilih mana-mana daripada tiga model ini untuk tugasan umum, dan tukar kepada model pakar apabila tugasan tersebut memerlukannya.

Kelebihan daya saing yang sebenar bukanlah model mana yang anda gunakan — ia adalah kepantasan anda melancarkan produk.

Lancar produk lebih pantas. Y Build mengendalikan keseluruhan stack selepas anda menulis kod: pelancaran satu klik, Demo Cut untuk video produk, SEO AI untuk trafik organik, dan analitik untuk memantau pertumbuhan. Berfungsi dengan mana-mana model AI. Mula secara percuma.

Sumber: