Gemini 3.1 Pro: Lonjakan Penaakulan Google Dijelaskan
Google melancarkan Gemini 3.1 Pro pada 19 Februari 2026 — mencatatkan 77.1% pada ARC-AGI-2, lebih daripada dua kali ganda Gemini 3 Pro. Pecahan penuh penanda aras, harga ($2/$12 setiap M token), ketersediaan, dan maksudnya untuk pembangun.
TL;DR
Google melancarkan Gemini 3.1 Pro (pratonton) pada 19 Februari 2026. Angka-angka utama:
- ARC-AGI-2: 77.1% — lebih daripada dua kali ganda Gemini 3 Pro (31.1%), menewaskan Opus 4.6 (68.8%) dan GPT-5.2 (52.9%)
- GPQA Diamond: 94.3% — mendahului semua model dalam sains peringkat siswazah
- SWE-bench: 80.6% — setanding dengan Opus 4.6 (80.8%) dalam pengkodan
- Harga: $2/$12 setiap M token — model frontier termurah
- Konteks 1M token — tidak berubah daripada Gemini 3 Pro
- Mendahului dalam 13 daripada 16 penanda aras yang dinilai oleh Google
- Tersedia sekarang dalam pratonton: AI Studio, Vertex AI, Gemini CLI, aplikasi Gemini
Apa yang Diumumkan oleh Google
Pada 19 Februari 2026, Google melancarkan Gemini 3.1 Pro — peningkatan ".1" pertama dalam versi model mereka. Ia dibina berasaskan Gemini 3 Pro (November 2025) dengan mengintegrasikan teknik daripada siri Gemini 3 Deep Think ke dalam model yang lebih mudah dicapai dan lebih pantas.
Blog Google menerangkannya sebagai direka untuk "tugasan di mana jawapan ringkas tidak mencukupi" — penaakulan berbilang langkah yang kompleks, sintesis data, dan aliran kerja ejen (agentic).
Statistik utama: 77.1% pada ARC-AGI-2, penanda aras untuk penaakulan abstrak baharu. Itu adalah lebih daripada dua kali ganda 31.1% milik Gemini 3 Pro, dan jauh di hadapan Opus 4.6 (68.8%) serta GPT-5.2 (52.9%). VentureBeat menggelarnya sebagai "Deep Think Mini dengan penaakulan yang boleh dilaraskan mengikut permintaan."
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Pecahan Penuh Penanda Aras
Di Mana Gemini 3.1 Pro Mendahului (13 daripada 16 penanda aras)
| Penanda Aras | Apa Yang Diuji | Gemini 3.1 Pro | Pesaing Terbaik |
|---|---|---|---|
| ARC-AGI-2 | Penaakulan baharu | 77.1% | Opus 4.6: 68.8% |
| GPQA Diamond | Sains siswazah | 94.3% | GPT-5.2: 92.4% |
| BrowseComp | Carian web ejen | 85.9% | Opus 4.6: 84.0% |
| Terminal-Bench 2.0 | Pengkodan terminal | 68.5% | Opus 4.6: 65.4% |
| APEX-Agents | Keupayaan ejen | 33.5% | Opus 4.6: 29.8% |
| MCP Atlas | Penggunaan alatan | 69.2% | — |
| t2-bench Telecom | Khusus domain | 99.3% | — |
| SWE-bench Verified | Pengkodan | 80.6% | Opus 4.6: 80.8% |
| MRCR v2 | Konteks-panjang | 84.9% | Sonnet 4.6: 84.9% (seri) |
Di Mana Pesaing Masih Menang
| Penanda Aras | Apa Yang Diuji | Pemenang | Gemini 3.1 Pro |
|---|---|---|---|
| GDPval-AA (Elo) | Tugasan pejabat | Sonnet 4.6: 1633 | Tidak didedahkan |
| Terminal-Bench 2.0 | Pengkodan terminal berat | GPT-5.3-Codex: 77.3% | 68.5% |
| SWE-Bench Pro | Pengkodan lanjutan | GPT-5.3-Codex: 56.8% | Tidak didedahkan |
| OSWorld | Penggunaan komputer | Sonnet 4.6: 72.5% | Tiada penanda aras |
Lonjakan Penaakulan dalam Konteks
ARC-AGI-2 mengukur keupayaan model untuk menyelesaikan masalah yang tidak pernah dilihat sebelumnya — penaakulan abstrak tulen, bukannya pemadanan corak daripada data latihan. Berikut adalah kepantasan peningkatan Gemini:
| Model | ARC-AGI-2 | Tarikh |
|---|---|---|
| Gemini 3 Pro | 31.1% | Nov 2025 |
| GPT-5.2 | 52.9% | Dis 2025 |
| Claude Opus 4.6 | 68.8% | Feb 2026 |
| Gemini 3.1 Pro | 77.1% | Feb 2026 |
Gemini 3.1 Pro melonjak daripada 31.1% kepada 77.1% dalam satu versi — peningkatan sebanyak 148%. Ini hasil daripada integrasi teknik penaakulan lanjutan Deep Think ke dalam model asas.
Apa Yang Berubah lwn. Gemini 3 Pro
1. Integrasi Deep Think
Gemini 3 Deep Think adalah model berasingan yang lebih perlahan dan dioptimumkan untuk penaakulan lanjutan. Gemini 3.1 Pro menerapkan teknik tersebut ke dalam model standard, dengan kedalaman penaakulan yang boleh dilaraskan. Anda mendapat penaakulan setahap Deep Think tanpa latensi Deep Think untuk kebanyakan tugasan.
2. Penaakulan yang Jauh Lebih Baik
Angka-angka tersebut membuktikannya:
| Penanda Aras | Gemini 3 Pro | Gemini 3.1 Pro | Peningkatan |
|---|---|---|---|
| ARC-AGI-2 | 31.1% | 77.1% | +148% |
| GPQA Diamond | ~88% | 94.3% | +7% |
| APEX-Agents | 18.4% | 33.5% | +82% |
3. Prestasi Ejen yang Lebih Baik
Skor APEX-Agents (33.5%) dan MCP Atlas (69.2%) menunjukkan Gemini 3.1 Pro jauh lebih berkemampuan sebagai ejen autonomi — penggunaan alatan, perancangan berbilang langkah, dan pembetulan kendiri semuanya telah dipertingkatkan.
4. Kekuatan Multimodal yang Dikekalkan
Gemini 3.1 Pro mengekalkan kelebihan teras Gemini: pemprosesan multimodal asli untuk teks, imej, audio, dan video dalam satu konteks. Tiada model frontier lain yang setanding dengan keluasan ini pada titik harga ini.
Harga
Harga yang sama dengan Gemini 3 Pro — naiktaraf percuma:
| Saiz Konteks | Input (setiap M token) | Output (setiap M token) |
|---|---|---|
| ≤200K token | $2.00 | $12.00 |
| >200K token | $4.00 | $18.00 |
Perbandingan dengan Pesaing
| Model | Input | Output | Kos Relatif |
|---|---|---|---|
| Gemini 3.1 Pro | $2.00 | $12.00 | 1x |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 1.5x |
| GPT-5.2 | $5.00 | $15.00 | 2.0x (input) |
| Claude Opus 4.6 | $15.00 | $75.00 | 7.5x |
Gemini 3.1 Pro adalah model frontier termurah — 33% lebih murah daripada Sonnet 4.6 untuk input, dan 20% lebih murah untuk output.
Kos Per Sesi (100K in + 20K out)
| Model | Kos |
|---|---|
| Gemini 3.1 Pro | $0.44 |
| Claude Sonnet 4.6 | $0.60 |
| GPT-5.2 | $0.80 |
| Claude Opus 4.6 | $3.00 |
Pengoptimuman kos tambahan:
- Mod Batch: diskaun 50% ($0.22/sesi)
- Context caching: Bacaan input cache menelan kos 10% daripada harga asas
Ketersediaan
Di Mana Untuk Menggunakannya
| Platform | Status | ID Model |
|---|---|---|
| Aplikasi Gemini (pengguna) | Sedang dilancarkan | Dipilih secara automatik |
| Google AI Studio | Tersedia sekarang | gemini-3.1-pro-preview |
| Vertex AI | Tersedia sekarang | gemini-3.1-pro-preview |
| Gemini API | Tersedia sekarang | gemini-3.1-pro-preview |
| Gemini CLI | Tersedia sekarang | gemini-3.1-pro-preview |
| Antigravity | Tersedia sekarang | Dipilih secara automatik |
| Android Studio | Tersedia sekarang | Dipilih secara automatik |
| GitHub Copilot | Pratonton awam | Boleh dipilih |
| NotebookLM | Langganan Pro/Ultra | Dipilih secara automatik |
Permulaan Pantas API
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")
response = model.generate_content("Your prompt here")
print(response.text)
Endpoint Alatan Tersuai
Google juga melancarkan endpoint khusus untuk prestasi alatan yang lebih baik:
model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")
Gunakan endpoint ini apabila membina ejen yang bergantung kuat pada panggilan fungsi (function calling) dan penggunaan alatan.
Apa Maksudnya
Perlumbaan Penaakulan Semakin Hangat
Tiga model frontier dilancarkan dalam masa 13 hari:
- 6 Feb: Claude Opus 4.6 (Anthropic)
- 17 Feb: Claude Sonnet 4.6 (Anthropic)
- 19 Feb: Gemini 3.1 Pro (Google)
Masing-masing mendakwa kepimpinan dalam bidang yang berbeza. Landskap model sedang berpecah — tiada lagi model tunggal yang mendominasi segala-galanya.
Penaakulan Terbaik dalam Kelasnya pada Harga Bajet
Skor 77.1% ARC-AGI-2 Gemini 3.1 Pro adalah skor penaakulan tertinggi yang tersedia, pada harga terendah ($2/$12). Untuk tugasan yang memerlukan penyelesaian masalah baharu, penaakulan abstrak, atau analisis saintifik, ia adalah pilihan yang jelas.
Pariti Pengkodan
Dengan 80.6% pada SWE-bench (lwn. 80.8% milik Opus 4.6 dan 79.6% milik Sonnet 4.6), Gemini 3.1 Pro kini kompetitif dalam pengkodan buat kali pertama. Model Gemini sebelum ini ketinggalan jauh di belakang Claude dalam penanda aras ini.
Bahagian yang Hilang: Penggunaan Komputer
Gemini 3.1 Pro tidak mempunyai penanda aras pada OSWorld (penggunaan komputer). Claude Sonnet 4.6 mendahului dengan 72.5% dalam keupayaan ini. Jika aliran kerja anda melibatkan automasi pelayar, pengisian borang, atau kawalan desktop, Claude kekal sebagai satu-satunya pilihan yang berkesan.
Untuk Pembangun yang Membina Produk
Implikasi praktikal:
- Penaakulan termurah: $0.44/sesi berbanding $0.60 (Sonnet) berbanding $0.80 (GPT-5.2)
- Terbaik untuk tugasan saintifik/analitikal: 94.3% GPQA Diamond adalah skor tertinggi yang tersedia
- Kompetitif dalam pengkodan: 80.6% SWE-bench merapatkan jurang dengan Claude
- Kelebihan multimodal: Pemprosesan video/audio asli yang tidak dapat ditandingi oleh Claude dan GPT
- Status pratonton: Belum mencapai GA (ketersediaan umum) — jangkakan peningkatan sebelum pelancaran rasmi
Membina dengan AI? Y Build mengintegrasikan alatan AI pilihan anda untuk pembangunan, kemudian mengendalikan penggunaan, video produk Demo Cut, SEO AI, dan analitik — set lengkap daripada kod hingga pertumbuhan. Mula secara percuma.
Sumber:
- Google Blog: Pengumuman Gemini 3.1 Pro
- Google DeepMind: Kad Model Gemini 3.1 Pro
- 9to5Google: Gemini 3.1 Pro untuk penyelesaian masalah kompleks
- VentureBeat: Tanggapan pertama Gemini 3.1 Pro
- MarkTechPost: Gemini 3.1 Pro 77.1% ARC-AGI-2
- OfficeChai: Penanda Aras Gemini 3.1 Pro
- GitHub Blog: Gemini 3.1 Pro dalam GitHub Copilot
- The Decoder: Penaakulan Gemini 3.1 Pro
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.