Gemini 3.1 Pro vs Sonnet 4.6 vs GPT-5.2: 2026
Gemini 3.1 Pro vs Claude Sonnet 4.6 vs GPT-5.2 — perbandingan muktamad Februari 2026. Penanda aras sebelah-menyebelah bagi penaakulan, pengkodan, penggunaan komputer, harga, dan model AI mana yang sesuai digunakan untuk apa.
TL;DR
| Gemini 3.1 Pro | Sonnet 4.6 | GPT-5.2 | |
|---|---|---|---|
| Penaakulan (ARC-AGI-2) | 77.1% | 58.3% | 52.9% |
| Sains (GPQA) | 94.3% | 89.9% | 92.4% |
| Pengkodan (SWE-bench) | 80.6% | 79.6% | 80.0% |
| Penggunaan komputer (OSWorld) | N/A | 72.5% | 38.2% |
| Tugasan pejabat (Elo) | N/A | 1633 | 1462 |
| Konteks | 1M (asli) | 1M (beta) | 400K |
| Harga input | $2/M | $3/M | $5/M |
| Harga output | $12/M | $15/M | $15/M |
- Penaakulan abstrak + sains + harga termurah → Gemini 3.1 Pro
- Penggunaan komputer + tugasan pejabat + keselamatan ejen → Claude Sonnet 4.6
- Matematik tulen + kelajuan → GPT-5.2
Februari 2026: Tiga Model Frontier dalam 13 Hari
Landskap model AI baru sahaja disusun semula. Dalam masa kurang daripada dua minggu:
- 6 Feb: Claude Opus 4.6 (Anthropic)
- 17 Feb: Claude Sonnet 4.6 (Anthropic)
- 19 Feb: Gemini 3.1 Pro (Google)
Penaakulan: Gemini 3.1 Pro Mendominasi
ARC-AGI-2 (Penyelesaian Masalah Baharu)
Ini adalah penanda aras yang menguji penaakulan tulen — menyelesaikan masalah yang tidak pernah dilihat oleh model sebelum ini, tanpa corak untuk dihafal.
| Model | Skor |
|---|---|
| Gemini 3.1 Pro | 77.1% |
| Claude Opus 4.6 | 68.8% |
| Claude Sonnet 4.6 | 58.3% |
| GPT-5.2 | 52.9% |
| Gemini 3 Pro | 31.1% |
Gemini 3.1 Pro mendahului dengan jurang besar 8.3 mata berbanding Opus 4.6, dan 24.2 mata berbanding GPT-5.2. Ini adalah jurang terluas pada mana-mana penanda aras frontier ketika ini.
Peningkatan daripada Gemini 3 Pro (31.1%) kepada 3.1 Pro (77.1%) — lonjakan sebanyak 148% — terhasil daripada penyepaduan teknik penaakulan Deep Think ke dalam model asas.
GPQA Diamond (Sains Tahap Siswazah)
| Model | Skor |
|---|---|
| Gemini 3.1 Pro | 94.3% |
| GPT-5.2 | 92.4% |
| Claude Opus 4.6 | 91.3% |
| Claude Sonnet 4.6 | 89.9% |
Gemini mendahului dalam penaakulan saintifik tahap pakar — soalan fizik, kimia, biologi pada tahap siswazah.
Pemenang: Gemini 3.1 Pro (mendahului secara signifikan dalam penaakulan)Pengkodan: Seri Tiga Hala
SWE-bench Verified (Kejuruteraan Perisian Dunia Nyata)
| Model | Skor |
|---|---|
| Claude Opus 4.6 | 80.8% |
| Gemini 3.1 Pro | 80.6% |
| GPT-5.2 | 80.0% |
| Claude Sonnet 4.6 | 79.6% |
Keempat-empat model berada dalam lingkungan 1.2 mata peratusan. Ini secara efektifnya adalah keputusan seri — kali pertama Gemini mampu bersaing dengan Claude dalam pengkodan.
Terminal-Bench 2.0 (Pengkodan Terminal Berasaskan Ejen)
| Model | Skor |
|---|---|
| GPT-5.3-Codex | 77.3% |
| Gemini 3.1 Pro | 68.5% |
| Claude Opus 4.6 | 65.4% |
| Claude Sonnet 4.6 | 59.1% |
Gemini 3.1 Pro sebenarnya mengalahkan kedua-dua model Claude dalam pengkodan berasaskan ejen di terminal. Hanya model khusus GPT-5.3-Codex (bukan GPT-5.2 standard) yang mencatatkan prestasi lebih baik.
Integrasi Alatan Pembangun
| Model | Alatan Tersedia |
|---|---|
| Gemini 3.1 Pro | Gemini CLI, GitHub Copilot, Android Studio, AI Studio |
| Claude Sonnet 4.6 | Claude Code, Cursor, GitHub Copilot |
| GPT-5.2 | GitHub Copilot, ChatGPT, Codex CLI |
Ketiga-tiga model tersedia dalam GitHub Copilot. Gemini mempunyai kelebihan unik dengan integrasi Android Studio untuk pembangun aplikasi mudah alih.
Pemenang: Seri (Gemini merapatkan jurang, semua model kompetitif)Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Penggunaan Komputer: Domain Eksklusif Claude
OSWorld (AI Mengawal Komputer)
| Model | Skor |
|---|---|
| Claude Sonnet 4.6 | 72.5% |
| Claude Opus 4.6 | 72.7% |
| GPT-5.2 | 38.2% |
| Gemini 3.1 Pro | Tidak ditanda aras |
Gemini 3.1 Pro tidak menawarkan keupayaan penggunaan komputer tujuan am. Claude Sonnet 4.6 adalah satu-satunya model yang boleh mengawal komputer dengan dipercayai — mengklik, menaip, menavigasi aplikasi, mengisi borang — pada ketepatan sedia untuk pengeluaran (production-ready).
Jika aliran kerja anda melibatkan automasi pelayar, pengekstrakan data daripada sistem lama, atau pengisian borang automatik, Claude adalah satu-satunya pilihan sebenar.
Pemenang: Claude Sonnet 4.6 (tiada persaingan)Keupayaan Ejen (Agentic)
Prestasi Ejen Pelbagai Alatan
| Penanda Aras | Gemini 3.1 Pro | Opus 4.6 | GPT-5.2 |
|---|---|---|---|
| APEX-Agents | 33.5% | 29.8% | 23.0% |
| MCP Atlas (penggunaan alatan) | 69.2% | — | — |
| BrowseComp (carian web) | 85.9% | 84.0% | — |
Gemini 3.1 Pro mendahului dalam penanda aras ejen — perancangan berbilang langkah, penggunaan alatan, dan carian web berasaskan ejen. Skor APEX-Agents (33.5% vs 29.8% bagi Opus) mencadangkan penyelesaian masalah autonomi yang lebih baik dalam persekitaran yang kompleks.
Keselamatan untuk Ejen
Claude Sonnet 4.6 secara khusus meningkatkan rintangan terhadap suntikan prom (prompt injection) ke tahap Opus, yang penting apabila ejen memproses kandungan web yang tidak dipercayai. Google belum menerbitkan metrik keselamatan yang setanding untuk Gemini 3.1 Pro dalam konteks ejen.
Pemenang: Gemini 3.1 Pro (pada penanda aras), Claude Sonnet 4.6 (pada keselamatan)Multimodal: Kelebihan Teras Gemini
Apa yang Boleh Diproses oleh Setiap Model
| Jenis Input | Gemini 3.1 Pro | Sonnet 4.6 | GPT-5.2 |
|---|---|---|---|
| Teks | Ya | Ya | Ya |
| Imej | Ya | Ya | Ya |
| Audio | Ya (asli) | Tidak | Ya |
| Video | Ya (asli) | Tidak | Tidak |
| Ya | Ya | Ya |
Gemini 3.1 Pro memproses secara asli sehingga 1 jam video dan 11 jam audio dalam tetingkap konteksnya. Claude mahupun GPT tidak dapat memproses video secara asli.
Untuk tugasan yang melibatkan analisis video, transkripsi audio, atau pemprosesan dokumen pelbagai format, Gemini adalah satu-satunya pilihan.
Pemenang: Gemini 3.1 Pro (secara signifikan)Tetingkap Konteks
| Model | Tetingkap Konteks | Skor Konteks Panjang (MRCR v2) |
|---|---|---|
| Gemini 3.1 Pro | 1M (asli) | 84.9% |
| Claude Sonnet 4.6 | 1M (beta) | 84.9% (seri) |
| Claude Opus 4.6 | 1M (asli) | 76.0% |
| GPT-5.2 | 400K | — |
Gemini dan Claude Sonnet seri dalam prestasi konteks panjang pada tahap 84.9% dalam MRCR v2. Kedua-duanya mengatasi had 400K GPT-5.2 secara signifikan.
Konteks 1M Gemini adalah asli (GA), manakala Claude masih dalam versi beta. Untuk beban kerja pengeluaran yang memerlukan kebolehpercayaan konteks panjang yang terjamin, Gemini mempunyai kelebihan.
Pemenang: Seri (Gemini asli vs Claude beta)Harga: Gemini Adalah Termurah
Perbandingan Kos API
| Model | Input (/M token) | Output (/M token) | Kos setiap Sesi* |
|---|---|---|---|
| Gemini 3.1 Pro | $2.00 | $12.00 | $0.44 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.60 |
| GPT-5.2 | $5.00 | $15.00 | $0.80 |
| Claude Opus 4.6 | $15.00 | $75.00 | $3.00 |
*Sesi = 100K input + 20K token output
Gemini 3.1 Pro adalah 27% lebih murah daripada Sonnet 4.6 dan 45% lebih murah daripada GPT-5.2 bagi setiap sesi.
Pada Skala Besar (100 sesi/hari, 30 hari)
| Model | Kos Bulanan |
|---|---|
| Gemini 3.1 Pro | $1,320 |
| Gemini 3.1 Pro (batch) | $660 |
| Claude Sonnet 4.6 | $1,800 |
| GPT-5.2 | $2,400 |
| Claude Opus 4.6 | $9,000 |
Dengan mod batch, Gemini 3.1 Pro berharga $660/bulan untuk 100 sesi harian — kurang daripada separuh daripada kos Sonnet 4.6 yang berjumlah $1,800.
Pemenang: Gemini 3.1 Pro (model frontier termurah)Tugasan Pejabat dan Kerja Pengetahuan
GDPval-AA Elo (Produktiviti Pejabat Dunia Nyata)
| Model | Skor |
|---|---|
| Claude Sonnet 4.6 | 1633 |
| Claude Opus 4.6 | 1606 |
| GPT-5.2 | 1462 |
| Gemini 3.1 Pro | Tidak didedahkan |
Claude mendahului dalam automasi pejabat — hamparan, borang, analisis dokumen. Google belum menerbitkan skor Gemini 3.1 Pro pada penanda aras ini, menunjukkan ia mungkin tidak sekuat Claude di sini.
Finance Agent v1.1
| Model | Skor |
|---|---|
| Claude Sonnet 4.6 | 63.3% |
| Claude Opus 4.6 | 60.1% |
| GPT-5.2 | 59.0% |
| Gemini 3.1 Pro | Tidak didedahkan |
Model Mana yang Patut Anda Gunakan?
Pilih Gemini 3.1 Pro Apabila:
- Penaakulan abstrak — 77.1% ARC-AGI-2 adalah yang terbaik tersedia
- Analisis saintifik — 94.3% GPQA Diamond mendahului semua model
- Bajet adalah kritikal — $2/$12 adalah harga frontier termurah
- Pemprosesan multimodal — analisis video dan audio
- Pembangunan Android — integrasi Android Studio asli
- Konteks besar — 1M asli dengan kebolehpercayaan terbukti
Pilih Claude Sonnet 4.6 Apabila:
- Penggunaan komputer — 72.5% OSWorld, tiada pesaing yang mendekati
- Automasi pejabat — hamparan, borang, analisis data (1633 Elo)
- Keselamatan ejen — rintangan suntikan prom terbaik
- Aliran kerja Claude Code — 70% lebih disukai berbanding Sonnet 4.5
- Analisis kewangan — 63.3% Finance Agent mendahului semua model
- Mengikut arahan — kurang halusinasi, kurang kejuruteraan berlebihan
Pilih GPT-5.2 Apabila:
- Matematik tulen — 100% AIME 2025 tidak tertandingi
- Ekosistem OpenAI — ChatGPT Plus, Assistants API, Codex
- Respons pantas — latensi terendah pada pertanyaan mudah
- Integrasi sedia ada — sudah dibina di atas API OpenAI
Strategi Pelbagai Model
Jurang antara model semakin mengecil pada kebanyakan penanda aras tetapi semakin melebar pada keupayaan khusus. Amalan terbaik yang muncul:
| Tugasan | Model Terbaik |
|---|---|
| Penaakulan abstrak / penyelidikan | Gemini 3.1 Pro |
| Penggunaan komputer / automasi pelayar | Claude Sonnet 4.6 |
| Matematik kompleks | GPT-5.2 |
| Tugasan pejabat / kewangan | Claude Sonnet 4.6 |
| Analisis video / audio | Gemini 3.1 Pro |
| Pengkodan umum | Mana-mana (semua ≥79.6%) |
| Kumpulan ejen sensitif kos | Gemini 3.1 Pro |
| Pemfaktoran semula kod yang mendalam | Claude Opus 4.6 |
Kesimpulan
Februari 2026 mengakhiri era satu-model-untuk-semua. Gemini 3.1 Pro mendahului dalam penaakulan dan harga. Claude Sonnet 4.6 mendahului dalam penggunaan komputer dan tugasan pejabat. GPT-5.2 mendahului dalam matematik. Masing-masing mempunyai kelebihan yang jelas dan boleh dipertahankan.
Bagi kebanyakan pembangun yang membina produk, jawapan praktikalnya ialah: pilih mana-mana daripada tiga model ini untuk tugasan umum, dan tukar kepada model pakar apabila tugasan tersebut memerlukannya.
Kelebihan daya saing yang sebenar bukanlah model mana yang anda gunakan — ia adalah kepantasan anda melancarkan produk.
Lancar produk lebih pantas. Y Build mengendalikan keseluruhan stack selepas anda menulis kod: pelancaran satu klik, Demo Cut untuk video produk, SEO AI untuk trafik organik, dan analitik untuk memantau pertumbuhan. Berfungsi dengan mana-mana model AI. Mula secara percuma.
Sumber:
- Google Blog: Pengumuman Gemini 3.1 Pro
- OfficeChai: Gemini 3.1 Pro tewaskan Claude Opus 4.6, GPT 5.2 pada kebanyakan penanda aras
- VentureBeat: Imbasan pertama Gemini 3.1 Pro
- MarkTechPost: Gemini 3.1 Pro dengan 77.1% ARC-AGI-2
- 9to5Google: Gemini 3.1 Pro untuk penyelesaian masalah kompleks
- Anthropic: Claude Sonnet 4.6
- GitHub Blog: Gemini 3.1 Pro dalam GitHub Copilot
- Trending Topics: Gemini 3.1 Pro mengekori Opus 4.6 dalam beberapa tugasan
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.