Gemini 3.1 Pro vs Sonnet 4.6 vs GPT-5.2: 2026
Gemini 3.1 Pro vs Claude Sonnet 4.6 vs GPT-5.2 — perbandingan definitif Februari 2026. Benchmark berdampingan pada penalaran, coding, penggunaan komputer, harga, dan model AI mana yang digunakan untuk apa.
TL;DR
| Gemini 3.1 Pro | Sonnet 4.6 | GPT-5.2 | |
|---|---|---|---|
| Penalaran (ARC-AGI-2) | 77.1% | 58.3% | 52.9% |
| Sains (GPQA) | 94.3% | 89.9% | 92.4% |
| Coding (SWE-bench) | 80.6% | 79.6% | 80.0% |
| Penggunaan komputer (OSWorld) | N/A | 72.5% | 38.2% |
| Tugas kantor (Elo) | N/A | 1633 | 1462 |
| Konteks | 1M (native) | 1M (beta) | 400K |
| Harga input | $2/M | $3/M | $5/M |
| Harga output | $12/M | $15/M | $15/M |
- Penalaran abstrak + sains + harga termurah → Gemini 3.1 Pro
- Penggunaan komputer + tugas kantor + keamanan agen → Claude Sonnet 4.6
- Matematika murni + kecepatan → GPT-5.2
Februari 2026: Tiga Model Frontier dalam 13 Hari
Lanskap model AI baru saja mengalami perombakan. Dalam kurang dari dua minggu:
- 6 Feb: Claude Opus 4.6 (Anthropic)
- 17 Feb: Claude Sonnet 4.6 (Anthropic)
- 19 Feb: Gemini 3.1 Pro (Google)
Penalaran: Gemini 3.1 Pro Mendominasi
ARC-AGI-2 (Pemecahan Masalah Baru)
Ini adalah benchmark yang menguji penalaran murni — menyelesaikan masalah yang belum pernah dilihat model sebelumnya, tanpa pola untuk dihafal.
| Model | Skor |
|---|---|
| Gemini 3.1 Pro | 77.1% |
| Claude Opus 4.6 | 68.8% |
| Claude Sonnet 4.6 | 58.3% |
| GPT-5.2 | 52.9% |
| Gemini 3 Pro | 31.1% |
Gemini 3.1 Pro memimpin dengan selisih besar 8,3 poin di atas Opus 4.6, dan 24,2 poin di atas GPT-5.2. Ini adalah celah terlebar pada benchmark frontier mana pun saat ini.
Peningkatan dari Gemini 3 Pro (31.1%) ke 3.1 Pro (77.1%) — lonjakan 148% — berasal dari pengintegrasian teknik penalaran Deep Think ke dalam model dasar.
GPQA Diamond (Sains Tingkat Pascasarjana)
| Model | Skor |
|---|---|
| Gemini 3.1 Pro | 94.3% |
| GPT-5.2 | 92.4% |
| Claude Opus 4.6 | 91.3% |
| Claude Sonnet 4.6 | 89.9% |
Gemini memimpin pada penalaran ilmiah tingkat ahli — pertanyaan fisika, kimia, biologi di tingkat pascasarjana.
Pemenang: Gemini 3.1 Pro (keunggulan signifikan dalam penalaran)Coding: Hasil Imbang Tiga Arah
SWE-bench Verified (Rekayasa Perangkat Lunak Dunia Nyata)
| Model | Skor |
|---|---|
| Claude Opus 4.6 | 80.8% |
| Gemini 3.1 Pro | 80.6% |
| GPT-5.2 | 80.0% |
| Claude Sonnet 4.6 | 79.6% |
Keempat model berada dalam rentang 1,2 poin persentase. Ini secara efektif merupakan hasil imbang — pertama kalinya Gemini kompetitif dengan Claude dalam hal coding.
Terminal-Bench 2.0 (Coding Terminal Agentic)
| Model | Skor |
|---|---|
| GPT-5.3-Codex | 77.3% |
| Gemini 3.1 Pro | 68.5% |
| Claude Opus 4.6 | 65.4% |
| Claude Sonnet 4.6 | 59.1% |
Gemini 3.1 Pro sebenarnya mengalahkan kedua model Claude pada coding agentic berbasis terminal. Hanya model khusus GPT-5.3-Codex (bukan standar GPT-5.2) yang mengunggulinya.
Integrasi Alat Pengembang
| Model | Alat yang Tersedia |
|---|---|
| Gemini 3.1 Pro | Gemini CLI, GitHub Copilot, Android Studio, AI Studio |
| Claude Sonnet 4.6 | Claude Code, Cursor, GitHub Copilot |
| GPT-5.2 | GitHub Copilot, ChatGPT, Codex CLI |
Ketiga model tersedia di GitHub Copilot. Gemini memiliki keuntungan unik berupa integrasi Android Studio bagi pengembang seluler.
Pemenang: Imbang (Gemini menutup celah, semua model kompetitif)Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Penggunaan Komputer: Domain Eksklusif Claude
OSWorld (AI Mengendalikan Komputer)
| Model | Skor |
|---|---|
| Claude Sonnet 4.6 | 72.5% |
| Claude Opus 4.6 | 72.7% |
| GPT-5.2 | 38.2% |
| Gemini 3.1 Pro | Tidak di-benchmark |
Gemini 3.1 Pro tidak menawarkan kemampuan penggunaan komputer tujuan umum. Claude Sonnet 4.6 adalah satu-satunya model yang dapat mengendalikan komputer secara andal — mengklik, mengetik, menavigasi aplikasi, mengisi formulir — dengan akurasi yang siap untuk produksi.
Jika alur kerja Anda melibatkan otomatisasi browser, ekstraksi data dari sistem lama, atau pengisian formulir otomatis, Claude adalah satu-satunya pilihan nyata.
Pemenang: Claude Sonnet 4.6 (tanpa persaingan)Kemampuan Agentic
Performa Agen Multi-Alat
| Benchmark | Gemini 3.1 Pro | Opus 4.6 | GPT-5.2 |
|---|---|---|---|
| APEX-Agents | 33.5% | 29.8% | 23.0% |
| MCP Atlas (penggunaan alat) | 69.2% | — | — |
| BrowseComp (pencarian web) | 85.9% | 84.0% | — |
Gemini 3.1 Pro memimpin pada benchmark agen — perencanaan multi-langkah, penggunaan alat, dan pencarian web agentic. Skor APEX-Agents (33.5% vs 29.8% milik Opus) menunjukkan pemecahan masalah otonom yang lebih baik di lingkungan yang kompleks.
Keamanan untuk Agen
Claude Sonnet 4.6 secara khusus meningkatkan ketahanan terhadap prompt injection ke tingkat Opus, yang sangat penting saat agen memproses konten web yang tidak tepercaya. Google belum mempublikasikan metrik keamanan yang sebanding untuk Gemini 3.1 Pro dalam konteks agentic.
Pemenang: Gemini 3.1 Pro (pada benchmark), Claude Sonnet 4.6 (pada keamanan)Multimodal: Keunggulan Utama Gemini
Apa yang Bisa Diproses Setiap Model
| Tipe Input | Gemini 3.1 Pro | Sonnet 4.6 | GPT-5.2 |
|---|---|---|---|
| Teks | Ya | Ya | Ya |
| Gambar | Ya | Ya | Ya |
| Audio | Ya (native) | Tidak | Ya |
| Video | Ya (native) | Tidak | Tidak |
| Ya | Ya | Ya |
Gemini 3.1 Pro secara native memproses hingga 1 jam video dan 11 jam audio dalam jendela konteksnya. Baik Claude maupun GPT tidak dapat memproses video secara native.
Untuk tugas yang melibatkan analisis video, transkripsi audio, atau pemrosesan dokumen multi-format, Gemini adalah satu-satunya pilihan.
Pemenang: Gemini 3.1 Pro (secara signifikan)Jendela Konteks
| Model | Jendela Konteks | Skor Konteks-Panjang (MRCR v2) |
|---|---|---|
| Gemini 3.1 Pro | 1M (native) | 84.9% |
| Claude Sonnet 4.6 | 1M (beta) | 84.9% (imbang) |
| Claude Opus 4.6 | 1M (native) | 76.0% |
| GPT-5.2 | 400K | — |
Gemini dan Claude Sonnet imbang pada performa konteks-panjang di angka 84.9% pada MRCR v2. Keduanya mengungguli batas 400K milik GPT-5.2 secara signifikan.
Konteks 1M Gemini adalah native (GA), sementara milik Claude masih dalam tahap beta. Untuk beban kerja produksi yang membutuhkan keandalan konteks-panjang yang terjamin, Gemini memiliki keunggulan.
Pemenang: Imbang (Gemini native vs Claude beta)Harga: Gemini Adalah yang Termurah
Perbandingan Biaya API
| Model | Input (/M token) | Output (/M token) | Biaya per Sesi* |
|---|---|---|---|
| Gemini 3.1 Pro | $2.00 | $12.00 | $0.44 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.60 |
| GPT-5.2 | $5.00 | $15.00 | $0.80 |
| Claude Opus 4.6 | $15.00 | $75.00 | $3.00 |
*Sesi = 100K input + 20K output token
Gemini 3.1 Pro 27% lebih murah daripada Sonnet 4.6 dan 45% lebih murah daripada GPT-5.2 per sesi.
Pada Skala Besar (100 sesi/hari, 30 hari)
| Model | Biaya Bulanan |
|---|---|
| Gemini 3.1 Pro | $1,320 |
| Gemini 3.1 Pro (batch) | $660 |
| Claude Sonnet 4.6 | $1,800 |
| GPT-5.2 | $2,400 |
| Claude Opus 4.6 | $9,000 |
Dengan mode batch, Gemini 3.1 Pro berbiaya $660/bulan untuk 100 sesi harian — kurang dari setengah biaya Sonnet 4.6 yang sebesar $1,800.
Pemenang: Gemini 3.1 Pro (model frontier termurah)Tugas Kantor dan Pekerjaan Pengetahuan
GDPval-AA Elo (Produktivitas Kantor Dunia Nyata)
| Model | Skor |
|---|---|
| Claude Sonnet 4.6 | 1633 |
| Claude Opus 4.6 | 1606 |
| GPT-5.2 | 1462 |
| Gemini 3.1 Pro | Tidak diungkapkan |
Claude memimpin pada otomatisasi kantor — spreadsheet, formulir, analisis dokumen. Google belum mempublikasikan skor Gemini 3.1 Pro pada benchmark ini, menunjukkan bahwa Gemini mungkin tidak sekuat Claude di sini.
Finance Agent v1.1
| Model | Skor |
|---|---|
| Claude Sonnet 4.6 | 63.3% |
| Claude Opus 4.6 | 60.1% |
| GPT-5.2 | 59.0% |
| Gemini 3.1 Pro | Tidak diungkapkan |
Model Mana yang Harus Anda Gunakan?
Pilih Gemini 3.1 Pro Saat:
- Penalaran abstrak — 77.1% ARC-AGI-2 adalah yang terbaik yang tersedia
- Analisis ilmiah — 94.3% GPQA Diamond memimpin semua model
- Anggaran sangat penting — $2/$12 adalah harga frontier termurah
- Pemecahan multimodal — analisis video dan audio
- Pengembangan Android — integrasi Android Studio native
- Konteks besar — native 1M dengan keandalan terbukti
Pilih Claude Sonnet 4.6 Saat:
- Penggunaan komputer — 72.5% OSWorld, tidak ada pesaing yang mendekati
- Otomatisasi kantor — spreadsheet, formulir, analisis data (1633 Elo)
- Keamanan agen — ketahanan terhadap prompt injection terbaik
- Alur kerja Claude Code — 70% lebih disukai daripada Sonnet 4.5
- Analisis keuangan — 63.3% Finance Agent memimpin semua model
- Kepatuhan instruksi — lebih sedikit halusinasi, lebih sedikit over-engineering
Pilih GPT-5.2 Saat:
- Matematika murni — 100% AIME 2025 tidak tertandingi
- Ekosistem OpenAI — ChatGPT Plus, Assistants API, Codex
- Respons cepat — latensi terendah pada kueri sederhana
- Integrasi yang sudah ada — sudah dibangun di atas API OpenAI
Strategi Multi-Model
Celah antara model-model tersebut menyempit pada sebagian besar benchmark tetapi melebar pada kemampuan khusus. Praktik terbaik yang muncul:
| Tugas | Model Terbaik |
|---|---|
| Penalaran abstrak / riset | Gemini 3.1 Pro |
| Penggunaan komputer / otomatisasi browser | Claude Sonnet 4.6 |
| Matematika kompleks | GPT-5.2 |
| Tugas kantor / keuangan | Claude Sonnet 4.6 |
| Analisis video / audio | Gemini 3.1 Pro |
| Coding umum | Apa pun (semua ≥79.6%) |
| Armada agen sensitif biaya | Gemini 3.1 Pro |
| Refactoring basis kode yang mendalam | Claude Opus 4.6 |
Kesimpulan
Februari 2026 mengakhiri era satu-model-untuk-semua. Gemini 3.1 Pro memimpin dalam penalaran dan harga. Claude Sonnet 4.6 memimpin dalam penggunaan komputer dan tugas kantor. GPT-5.2 memimpin dalam matematika. Masing-masing memiliki keunggulan yang jelas dan kuat.
Bagi sebagian besar pengembang yang membangun produk, jawaban praktisnya adalah: pilih salah satu dari ketiganya untuk tugas umum, dan beralihlah ke spesialis saat tugas tersebut menuntutnya.
Keunggulan kompetitif yang sebenarnya bukanlah model mana yang Anda gunakan — melainkan seberapa cepat Anda meluncurkan produk.
Meluncurkan lebih cepat. Y Build menangani seluruh stack setelah Anda menulis kode: deploy satu klik, Demo Cut untuk video produk, AI SEO untuk trafik organik, dan analitik untuk melacak pertumbuhan. Bekerja dengan model AI apa pun. Mulai gratis.
Sumber:
- Google Blog: Gemini 3.1 Pro announcement
- OfficeChai: Gemini 3.1 Pro mengalahkan Claude Opus 4.6, GPT 5.2 pada sebagian besar benchmark
- VentureBeat: Gemini 3.1 Pro first impressions
- MarkTechPost: Gemini 3.1 Pro dengan 77.1% ARC-AGI-2
- 9to5Google: Gemini 3.1 Pro untuk pemecahan masalah kompleks
- Anthropic: Claude Sonnet 4.6
- GitHub Blog: Gemini 3.1 Pro di GitHub Copilot
- Trending Topics: Gemini 3.1 Pro tertinggal dari Opus 4.6 dalam beberapa tugas
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.