Gemini 3.1 Pro: Lompatan Penalaran Google Dijelaskan
Google merilis Gemini 3.1 Pro pada 19 Februari 2026 — mencetak skor 77,1% pada ARC-AGI-2, lebih dari dua kali lipat Gemini 3 Pro. Rincian benchmark lengkap, harga ($2/$12 per M token), ketersediaan, dan dampaknya bagi pengembang.
TL;DR
Google merilis Gemini 3.1 Pro (pratinjau) pada 19 Februari 2026. Angka-angka kuncinya:
- ARC-AGI-2: 77,1% — lebih dari dua kali lipat Gemini 3 Pro (31,1%), mengalahkan Opus 4.6 (68,8%) dan GPT-5.2 (52,9%)
- GPQA Diamond: 94,3% — memimpin semua model pada sains tingkat pascasarjana
- SWE-bench: 80,6% — menyamai Opus 4.6 (80,8%) dalam pengodean
- Harga: $2/$12 per M token — model frontier termurah
- Konteks 1M token — tidak berubah dari Gemini 3 Pro
- Memimpin pada 13 dari 16 benchmark yang dievaluasi oleh Google
- Tersedia sekarang dalam pratinjau: AI Studio, Vertex AI, Gemini CLI, aplikasi Gemini
Apa yang Diumumkan Google
Pada 19 Februari 2026, Google merilis Gemini 3.1 Pro — peningkatan ".1" pertama dalam penomoran versi model mereka. Model ini dibangun berdasarkan Gemini 3 Pro (November 2025) dengan mengintegrasikan teknik-teknik dari seri Gemini 3 Deep Think ke dalam model yang lebih mudah diakses dan lebih cepat.
Blog Google mendeskripsikannya sebagai model yang dirancang untuk "tugas-tugas di mana jawaban sederhana tidaklah cukup" — penalaran multi-langkah yang kompleks, sintesis data, dan alur kerja agensi (agentic).
Statistik utamanya: 77,1% pada ARC-AGI-2, benchmark untuk penalaran abstrak baru. Itu lebih dari dua kali lipat skor Gemini 3 Pro yang sebesar 31,1%, dan secara signifikan di depan Opus 4.6 (68,8%) serta GPT-5.2 (52,9%). VentureBeat menyebutnya sebagai "Deep Think Mini dengan penalaran yang dapat disesuaikan sesuai permintaan."
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Rincian Benchmark Lengkap
Di Mana Gemini 3.1 Pro Memimpin (13 dari 16 benchmark)
| Benchmark | Apa yang Diuji | Gemini 3.1 Pro | Kompetitor Terbaik |
|---|---|---|---|
| ARC-AGI-2 | Penalaran baru | 77,1% | Opus 4.6: 68,8% |
| GPQA Diamond | Sains pascasarjana | 94,3% | GPT-5.2: 92,4% |
| BrowseComp | Pencarian web agensi | 85,9% | Opus 4.6: 84,0% |
| Terminal-Bench 2.0 | Pengodean terminal | 68,5% | Opus 4.6: 65,4% |
| APEX-Agents | Kemampuan agen | 33,5% | Opus 4.6: 29,8% |
| MCP Atlas | Penggunaan alat | 69,2% | — |
| t2-bench Telecom | Spesifik domain | 99,3% | — |
| SWE-bench Verified | Pengodean | 80,6% | Opus 4.6: 80,8% |
| MRCR v2 | Konteks panjang | 84,9% | Sonnet 4.6: 84,9% (seri) |
Di Mana Kompetitor Masih Menang
| Benchmark | Apa yang Diuji | Pemenang | Gemini 3.1 Pro |
|---|---|---|---|
| GDPval-AA (Elo) | Tugas kantor | Sonnet 4.6: 1633 | Tidak diungkapkan |
| Terminal-Bench 2.0 | Pengodean terminal berat | GPT-5.3-Codex: 77,3% | 68,5% |
| SWE-Bench Pro | Pengodean tingkat lanjut | GPT-5.3-Codex: 56,8% | Tidak diungkapkan |
| OSWorld | Penggunaan komputer | Sonnet 4.6: 72,5% | Tidak diuji |
Lompatan Penalaran dalam Konteks
ARC-AGI-2 mengukur kemampuan model untuk memecahkan masalah yang belum pernah dilihat sebelumnya — penalaran abstrak murni, bukan pencocokan pola dari data pelatihan. Berikut adalah seberapa cepat peningkatan Gemini:
| Model | ARC-AGI-2 | Tanggal |
|---|---|---|
| Gemini 3 Pro | 31,1% | Nov 2025 |
| GPT-5.2 | 52,9% | Des 2025 |
| Claude Opus 4.6 | 68,8% | Feb 2026 |
| Gemini 3.1 Pro | 77,1% | Feb 2026 |
Gemini 3.1 Pro melonjak dari 31,1% ke 77,1% dalam satu versi — peningkatan sebesar 148%. Hal ini berkat pengintegrasian teknik penalaran yang diperluas dari Deep Think ke dalam model dasar.
Apa yang Berubah vs. Gemini 3 Pro
1. Integrasi Deep Think
Gemini 3 Deep Think adalah model terpisah yang lebih lambat dan dioptimalkan untuk penalaran mendalam. Gemini 3.1 Pro menanamkan teknik-teknik tersebut ke dalam model standar, dengan kedalaman penalaran yang dapat disesuaikan. Anda mendapatkan penalaran tingkat Deep Think tanpa latensi Deep Think untuk sebagian besar tugas.
2. Penalaran yang Jauh Lebih Baik
Angka-angka tersebut berbicara sendiri:
| Benchmark | Gemini 3 Pro | Gemini 3.1 Pro | Peningkatan |
|---|---|---|---|
| ARC-AGI-2 | 31,1% | 77,1% | +148% |
| GPQA Diamond | ~88% | 94,3% | +7% |
| APEX-Agents | 18,4% | 33,5% | +82% |
3. Performa Agensi yang Lebih Baik
Skor APEX-Agents (33,5%) dan MCP Atlas (69,2%) menunjukkan bahwa Gemini 3.1 Pro secara signifikan lebih mampu sebagai agen otonom — penggunaan alat, perencanaan multi-langkah, dan koreksi diri semuanya telah ditingkatkan.
4. Kekuatan Multimodal yang Terjaga
Gemini 3.1 Pro tetap mempertahankan keunggulan utama Gemini: pemrosesan multimodal asli untuk teks, gambar, audio, dan video dalam satu konteks tunggal. Belum ada model frontier lain yang menandingi luasnya kemampuan ini pada titik harga ini.
Harga
Harga yang sama dengan Gemini 3 Pro — sebuah pemutakhiran gratis:
| Ukuran Konteks | Input (per M token) | Output (per M token) |
|---|---|---|
| ≤200K token | $2,00 | $12,00 |
| >200K token | $4,00 | $18,00 |
Perbandingan dengan Kompetitor
| Model | Input | Output | Biaya Relatif |
|---|---|---|---|
| Gemini 3.1 Pro | $2,00 | $12,00 | 1x |
| Claude Sonnet 4.6 | $3,00 | $15,00 | 1,5x |
| GPT-5.2 | $5,00 | $15,00 | 2,0x (input) |
| Claude Opus 4.6 | $15,00 | $75,00 | 7,5x |
Gemini 3.1 Pro adalah model frontier termurah — 33% lebih murah daripada Sonnet 4.6 untuk input, dan 20% lebih murah untuk output.
Biaya Per Sesi (100K in + 20K out)
| Model | Biaya |
|---|---|
| Gemini 3.1 Pro | $0,44 |
| Claude Sonnet 4.6 | $0,60 |
| GPT-5.2 | $0,80 |
| Claude Opus 4.6 | $3,00 |
Optimalisasi biaya tambahan:
- Mode batch: diskon 50% ($0,22/sesi)
- Caching konteks: Pembacaan input yang dicache dikenakan biaya 10% dari harga dasar
Ketersediaan
Di Mana Menggunakannya
| Platform | Status | ID Model |
|---|---|---|
| Aplikasi Gemini (konsumen) | Sedang diluncurkan | Dipilih otomatis |
| Google AI Studio | Tersedia sekarang | gemini-3.1-pro-preview |
| Vertex AI | Tersedia sekarang | gemini-3.1-pro-preview |
| Gemini API | Tersedia sekarang | gemini-3.1-pro-preview |
| Gemini CLI | Tersedia sekarang | gemini-3.1-pro-preview |
| Antigravity | Tersedia sekarang | Dipilih otomatis |
| Android Studio | Tersedia sekarang | Dipilih otomatis |
| GitHub Copilot | Pratinjau publik | Dapat dipilih |
| NotebookLM | Pelanggan Pro/Ultra | Dipilih otomatis |
Panduan Cepat API
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")
response = model.generate_content("Your prompt here")
print(response.text)
Endpoint Alat Kustom
Google juga meluncurkan endpoint khusus untuk performa alat yang lebih baik:
model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")
Gunakan endpoint ini saat membangun agen yang sangat bergantung pada pemanggilan fungsi (function calling) dan penggunaan alat.
Apa Artinya Ini
Persaingan Penalaran Semakin Memanas
Tiga model frontier dirilis dalam 13 hari:
- 6 Feb: Claude Opus 4.6 (Anthropic)
- 17 Feb: Claude Sonnet 4.6 (Anthropic)
- 19 Feb: Gemini 3.1 Pro (Google)
Masing-masing mengklaim kepemimpinan di bidang yang berbeda. Lanskap model kini semakin terfragmentasi — tidak ada satu pun model yang mendominasi segalanya lagi.
Penalaran Terbaik di Kelasnya dengan Harga Hemat
Skor 77,1% ARC-AGI-2 milik Gemini 3.1 Pro adalah skor penalaran tertinggi yang tersedia, dengan harga terendah ($2/$12). Untuk tugas-tugas yang membutuhkan pemecahan masalah baru, penalaran abstrak, atau analisis ilmiah, ini adalah pilihan yang jelas.
Paritas Pengodean
Dengan skor 80,6% pada SWE-bench (vs. Opus 4.6 80,8% dan Sonnet 4.6 79,6%), Gemini 3.1 Pro kini kompetitif dalam hal pengodean untuk pertama kalinya. Model Gemini sebelumnya tertinggal cukup jauh dari Claude pada benchmark ini.
Bagian yang Hilang: Penggunaan Komputer
Gemini 3.1 Pro tidak diuji pada OSWorld (penggunaan komputer). Claude Sonnet 4.6 memimpin dengan 72,5% pada kemampuan ini. Jika alur kerja Anda melibatkan otomatisasi browser, pengisian formulir, atau kontrol desktop, Claude tetap menjadi satu-satunya pilihan yang layak.
Untuk Pengembang yang Membangun Produk
Implikasi praktisnya:
- Penalaran termurah: $0,44/sesi vs $0,60 (Sonnet) vs $0,80 (GPT-5.2)
- Terbaik untuk tugas ilmiah/analitis: 94,3% GPQA Diamond adalah skor tertinggi yang tersedia
- Kompetitif dalam pengodean: 80,6% SWE-bench memperkecil jarak dengan Claude
- Keunggulan multimodal: Pemrosesan video/audio asli yang tidak tertandingi oleh Claude dan GPT
- Status pratinjau: Belum GA (General Availability) — nantikan peningkatan sebelum ketersediaan umum
Membangun dengan AI? Y Build terintegrasi dengan alat AI pilihan Anda untuk pengembangan, kemudian menangani penyebaran, video produk Demo Cut, AI SEO, dan analitik — tumpukan lengkap dari kode hingga pertumbuhan. Mulai gratis.
Sumber:
- Google Blog: Pengumuman Gemini 3.1 Pro
- Google DeepMind: Kartu Model Gemini 3.1 Pro
- 9to5Google: Gemini 3.1 Pro untuk pemecahan masalah kompleks
- VentureBeat: Kesan pertama Gemini 3.1 Pro
- MarkTechPost: Gemini 3.1 Pro 77,1% ARC-AGI-2
- OfficeChai: Benchmark Gemini 3.1 Pro
- GitHub Blog: Gemini 3.1 Pro di GitHub Copilot
- The Decoder: Penalaran Gemini 3.1 Pro
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.