Gemini 3.1 Pro: Lompatan Penalaran Google Dijelaskan

TL;DR

Google merilis Gemini 3.1 Pro (pratinjau) pada 19 Februari 2026. Angka-angka kuncinya:

ARC-AGI-2: 77,1% — lebih dari dua kali lipat Gemini 3 Pro (31,1%), mengalahkan Opus 4.6 (68,8%) dan GPT-5.2 (52,9%)
GPQA Diamond: 94,3% — memimpin semua model pada sains tingkat pascasarjana
SWE-bench: 80,6% — menyamai Opus 4.6 (80,8%) dalam pengodean
Harga: $2/$12 per M token — model frontier termurah
Konteks 1M token — tidak berubah dari Gemini 3 Pro
Memimpin pada 13 dari 16 benchmark yang dievaluasi oleh Google
Tersedia sekarang dalam pratinjau: AI Studio, Vertex AI, Gemini CLI, aplikasi Gemini

Apa yang Diumumkan Google

Pada 19 Februari 2026, Google merilis Gemini 3.1 Pro — peningkatan ".1" pertama dalam penomoran versi model mereka. Model ini dibangun berdasarkan Gemini 3 Pro (November 2025) dengan mengintegrasikan teknik-teknik dari seri Gemini 3 Deep Think ke dalam model yang lebih mudah diakses dan lebih cepat.

Blog Google mendeskripsikannya sebagai model yang dirancang untuk "tugas-tugas di mana jawaban sederhana tidaklah cukup" — penalaran multi-langkah yang kompleks, sintesis data, dan alur kerja agensi (agentic).

Statistik utamanya: 77,1% pada ARC-AGI-2, benchmark untuk penalaran abstrak baru. Itu lebih dari dua kali lipat skor Gemini 3 Pro yang sebesar 31,1%, dan secara signifikan di depan Opus 4.6 (68,8%) serta GPT-5.2 (52,9%). VentureBeat menyebutnya sebagai "Deep Think Mini dengan penalaran yang dapat disesuaikan sesuai permintaan."

Rincian Benchmark Lengkap

Di Mana Gemini 3.1 Pro Memimpin (13 dari 16 benchmark)

Benchmark	Apa yang Diuji	Gemini 3.1 Pro	Kompetitor Terbaik
ARC-AGI-2	Penalaran baru	77,1%	Opus 4.6: 68,8%
GPQA Diamond	Sains pascasarjana	94,3%	GPT-5.2: 92,4%
BrowseComp	Pencarian web agensi	85,9%	Opus 4.6: 84,0%
Terminal-Bench 2.0	Pengodean terminal	68,5%	Opus 4.6: 65,4%
APEX-Agents	Kemampuan agen	33,5%	Opus 4.6: 29,8%
MCP Atlas	Penggunaan alat	69,2%	—
t2-bench Telecom	Spesifik domain	99,3%	—
SWE-bench Verified	Pengodean	80,6%	Opus 4.6: 80,8%
MRCR v2	Konteks panjang	84,9%	Sonnet 4.6: 84,9% (seri)

Di Mana Kompetitor Masih Menang

Benchmark	Apa yang Diuji	Pemenang	Gemini 3.1 Pro
GDPval-AA (Elo)	Tugas kantor	Sonnet 4.6: 1633	Tidak diungkapkan
Terminal-Bench 2.0	Pengodean terminal berat	GPT-5.3-Codex: 77,3%	68,5%
SWE-Bench Pro	Pengodean tingkat lanjut	GPT-5.3-Codex: 56,8%	Tidak diungkapkan
OSWorld	Penggunaan komputer	Sonnet 4.6: 72,5%	Tidak diuji

Lompatan Penalaran dalam Konteks

ARC-AGI-2 mengukur kemampuan model untuk memecahkan masalah yang belum pernah dilihat sebelumnya — penalaran abstrak murni, bukan pencocokan pola dari data pelatihan. Berikut adalah seberapa cepat peningkatan Gemini:

Model	ARC-AGI-2	Tanggal
Gemini 3 Pro	31,1%	Nov 2025
GPT-5.2	52,9%	Des 2025
Claude Opus 4.6	68,8%	Feb 2026
Gemini 3.1 Pro	77,1%	Feb 2026

Gemini 3.1 Pro melonjak dari 31,1% ke 77,1% dalam satu versi — peningkatan sebesar 148%. Hal ini berkat pengintegrasian teknik penalaran yang diperluas dari Deep Think ke dalam model dasar.

Apa yang Berubah vs. Gemini 3 Pro

1. Integrasi Deep Think

Gemini 3 Deep Think adalah model terpisah yang lebih lambat dan dioptimalkan untuk penalaran mendalam. Gemini 3.1 Pro menanamkan teknik-teknik tersebut ke dalam model standar, dengan kedalaman penalaran yang dapat disesuaikan. Anda mendapatkan penalaran tingkat Deep Think tanpa latensi Deep Think untuk sebagian besar tugas.

2. Penalaran yang Jauh Lebih Baik

Angka-angka tersebut berbicara sendiri:

Benchmark	Gemini 3 Pro	Gemini 3.1 Pro	Peningkatan
ARC-AGI-2	31,1%	77,1%	+148%
GPQA Diamond	~88%	94,3%	+7%
APEX-Agents	18,4%	33,5%	+82%

3. Performa Agensi yang Lebih Baik

Skor APEX-Agents (33,5%) dan MCP Atlas (69,2%) menunjukkan bahwa Gemini 3.1 Pro secara signifikan lebih mampu sebagai agen otonom — penggunaan alat, perencanaan multi-langkah, dan koreksi diri semuanya telah ditingkatkan.

4. Kekuatan Multimodal yang Terjaga

Gemini 3.1 Pro tetap mempertahankan keunggulan utama Gemini: pemrosesan multimodal asli untuk teks, gambar, audio, dan video dalam satu konteks tunggal. Belum ada model frontier lain yang menandingi luasnya kemampuan ini pada titik harga ini.

Harga

Harga yang sama dengan Gemini 3 Pro — sebuah pemutakhiran gratis:

Ukuran Konteks	Input (per M token)	Output (per M token)
≤200K token	$2,00	$12,00
>200K token	$4,00	$18,00

Perbandingan dengan Kompetitor

Model	Input	Output	Biaya Relatif
Gemini 3.1 Pro	$2,00	$12,00	1x
Claude Sonnet 4.6	$3,00	$15,00	1,5x
GPT-5.2	$5,00	$15,00	2,0x (input)
Claude Opus 4.6	$15,00	$75,00	7,5x

Gemini 3.1 Pro adalah model frontier termurah — 33% lebih murah daripada Sonnet 4.6 untuk input, dan 20% lebih murah untuk output.

Biaya Per Sesi (100K in + 20K out)

Model	Biaya
Gemini 3.1 Pro	$0,44
Claude Sonnet 4.6	$0,60
GPT-5.2	$0,80
Claude Opus 4.6	$3,00

Optimalisasi biaya tambahan:

Mode batch: diskon 50% ($0,22/sesi)

Caching konteks: Pembacaan input yang dicache dikenakan biaya 10% dari harga dasar

Ketersediaan

Di Mana Menggunakannya

Platform	Status	ID Model
Aplikasi Gemini (konsumen)	Sedang diluncurkan	Dipilih otomatis
Google AI Studio	Tersedia sekarang	`gemini-3.1-pro-preview`
Vertex AI	Tersedia sekarang	`gemini-3.1-pro-preview`
Gemini API	Tersedia sekarang	`gemini-3.1-pro-preview`
Gemini CLI	Tersedia sekarang	`gemini-3.1-pro-preview`
Antigravity	Tersedia sekarang	Dipilih otomatis
Android Studio	Tersedia sekarang	Dipilih otomatis
GitHub Copilot	Pratinjau publik	Dapat dipilih
NotebookLM	Pelanggan Pro/Ultra	Dipilih otomatis

Panduan Cepat API

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Endpoint Alat Kustom

Google juga meluncurkan endpoint khusus untuk performa alat yang lebih baik:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Gunakan endpoint ini saat membangun agen yang sangat bergantung pada pemanggilan fungsi (function calling) dan penggunaan alat.

Apa Artinya Ini

Persaingan Penalaran Semakin Memanas

Tiga model frontier dirilis dalam 13 hari:

6 Feb: Claude Opus 4.6 (Anthropic)

17 Feb: Claude Sonnet 4.6 (Anthropic)

19 Feb: Gemini 3.1 Pro (Google)

Masing-masing mengklaim kepemimpinan di bidang yang berbeda. Lanskap model kini semakin terfragmentasi — tidak ada satu pun model yang mendominasi segalanya lagi.

Penalaran Terbaik di Kelasnya dengan Harga Hemat

Skor 77,1% ARC-AGI-2 milik Gemini 3.1 Pro adalah skor penalaran tertinggi yang tersedia, dengan harga terendah ($2/$12). Untuk tugas-tugas yang membutuhkan pemecahan masalah baru, penalaran abstrak, atau analisis ilmiah, ini adalah pilihan yang jelas.

Paritas Pengodean

Dengan skor 80,6% pada SWE-bench (vs. Opus 4.6 80,8% dan Sonnet 4.6 79,6%), Gemini 3.1 Pro kini kompetitif dalam hal pengodean untuk pertama kalinya. Model Gemini sebelumnya tertinggal cukup jauh dari Claude pada benchmark ini.

Bagian yang Hilang: Penggunaan Komputer

Gemini 3.1 Pro tidak diuji pada OSWorld (penggunaan komputer). Claude Sonnet 4.6 memimpin dengan 72,5% pada kemampuan ini. Jika alur kerja Anda melibatkan otomatisasi browser, pengisian formulir, atau kontrol desktop, Claude tetap menjadi satu-satunya pilihan yang layak.

Untuk Pengembang yang Membangun Produk

Implikasi praktisnya:

Penalaran termurah: $0,44/sesi vs $0,60 (Sonnet) vs $0,80 (GPT-5.2)

Terbaik untuk tugas ilmiah/analitis: 94,3% GPQA Diamond adalah skor tertinggi yang tersedia

Kompetitif dalam pengodean: 80,6% SWE-bench memperkecil jarak dengan Claude

Keunggulan multimodal: Pemrosesan video/audio asli yang tidak tertandingi oleh Claude dan GPT

Status pratinjau: Belum GA (General Availability) — nantikan peningkatan sebelum ketersediaan umum

Membangun dengan AI? Y Build terintegrasi dengan alat AI pilihan Anda untuk pengembangan, kemudian menangani penyebaran, video produk Demo Cut, AI SEO, dan analitik — tumpukan lengkap dari kode hingga pertumbuhan. Mulai gratis.

Sumber:

TL;DR

Google merilis Gemini 3.1 Pro (pratinjau) pada 19 Februari 2026. Angka-angka kuncinya:

ARC-AGI-2: 77,1% — lebih dari dua kali lipat Gemini 3 Pro (31,1%), mengalahkan Opus 4.6 (68,8%) dan GPT-5.2 (52,9%)
GPQA Diamond: 94,3% — memimpin semua model pada sains tingkat pascasarjana
SWE-bench: 80,6% — menyamai Opus 4.6 (80,8%) dalam pengodean
Harga: $2/$12 per M token — model frontier termurah
Konteks 1M token — tidak berubah dari Gemini 3 Pro
Memimpin pada 13 dari 16 benchmark yang dievaluasi oleh Google
Tersedia sekarang dalam pratinjau: AI Studio, Vertex AI, Gemini CLI, aplikasi Gemini

Apa yang Diumumkan Google

Rincian Benchmark Lengkap

Di Mana Gemini 3.1 Pro Memimpin (13 dari 16 benchmark)

Benchmark	Apa yang Diuji	Gemini 3.1 Pro	Kompetitor Terbaik
ARC-AGI-2	Penalaran baru	77,1%	Opus 4.6: 68,8%
GPQA Diamond	Sains pascasarjana	94,3%	GPT-5.2: 92,4%
BrowseComp	Pencarian web agensi	85,9%	Opus 4.6: 84,0%
Terminal-Bench 2.0	Pengodean terminal	68,5%	Opus 4.6: 65,4%
APEX-Agents	Kemampuan agen	33,5%	Opus 4.6: 29,8%
MCP Atlas	Penggunaan alat	69,2%	—
t2-bench Telecom	Spesifik domain	99,3%	—
SWE-bench Verified	Pengodean	80,6%	Opus 4.6: 80,8%
MRCR v2	Konteks panjang	84,9%	Sonnet 4.6: 84,9% (seri)

Di Mana Kompetitor Masih Menang

Benchmark	Apa yang Diuji	Pemenang	Gemini 3.1 Pro
GDPval-AA (Elo)	Tugas kantor	Sonnet 4.6: 1633	Tidak diungkapkan
Terminal-Bench 2.0	Pengodean terminal berat	GPT-5.3-Codex: 77,3%	68,5%
SWE-Bench Pro	Pengodean tingkat lanjut	GPT-5.3-Codex: 56,8%	Tidak diungkapkan
OSWorld	Penggunaan komputer	Sonnet 4.6: 72,5%	Tidak diuji

Lompatan Penalaran dalam Konteks

Model	ARC-AGI-2	Tanggal
Gemini 3 Pro	31,1%	Nov 2025
GPT-5.2	52,9%	Des 2025
Claude Opus 4.6	68,8%	Feb 2026
Gemini 3.1 Pro	77,1%	Feb 2026

Gemini 3.1 Pro melonjak dari 31,1% ke 77,1% dalam satu versi — peningkatan sebesar 148%. Hal ini berkat pengintegrasian teknik penalaran yang diperluas dari Deep Think ke dalam model dasar.

Apa yang Berubah vs. Gemini 3 Pro

1. Integrasi Deep Think

2. Penalaran yang Jauh Lebih Baik

Angka-angka tersebut berbicara sendiri:

Benchmark	Gemini 3 Pro	Gemini 3.1 Pro	Peningkatan
ARC-AGI-2	31,1%	77,1%	+148%
GPQA Diamond	~88%	94,3%	+7%
APEX-Agents	18,4%	33,5%	+82%

3. Performa Agensi yang Lebih Baik

4. Kekuatan Multimodal yang Terjaga

Harga

Harga yang sama dengan Gemini 3 Pro — sebuah pemutakhiran gratis:

Ukuran Konteks	Input (per M token)	Output (per M token)
≤200K token	$2,00	$12,00
>200K token	$4,00	$18,00

Perbandingan dengan Kompetitor

Model	Input	Output	Biaya Relatif
Gemini 3.1 Pro	$2,00	$12,00	1x
Claude Sonnet 4.6	$3,00	$15,00	1,5x
GPT-5.2	$5,00	$15,00	2,0x (input)
Claude Opus 4.6	$15,00	$75,00	7,5x

Gemini 3.1 Pro adalah model frontier termurah — 33% lebih murah daripada Sonnet 4.6 untuk input, dan 20% lebih murah untuk output.

Biaya Per Sesi (100K in + 20K out)

Model	Biaya
Gemini 3.1 Pro	$0,44
Claude Sonnet 4.6	$0,60
GPT-5.2	$0,80
Claude Opus 4.6	$3,00

Optimalisasi biaya tambahan:

Mode batch: diskon 50% ($0,22/sesi)

Caching konteks: Pembacaan input yang dicache dikenakan biaya 10% dari harga dasar

Ketersediaan

Di Mana Menggunakannya

Platform	Status	ID Model
Aplikasi Gemini (konsumen)	Sedang diluncurkan	Dipilih otomatis
Google AI Studio	Tersedia sekarang	`gemini-3.1-pro-preview`
Vertex AI	Tersedia sekarang	`gemini-3.1-pro-preview`
Gemini API	Tersedia sekarang	`gemini-3.1-pro-preview`
Gemini CLI	Tersedia sekarang	`gemini-3.1-pro-preview`
Antigravity	Tersedia sekarang	Dipilih otomatis
Android Studio	Tersedia sekarang	Dipilih otomatis
GitHub Copilot	Pratinjau publik	Dapat dipilih
NotebookLM	Pelanggan Pro/Ultra	Dipilih otomatis

Panduan Cepat API

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Endpoint Alat Kustom

Google juga meluncurkan endpoint khusus untuk performa alat yang lebih baik:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Gunakan endpoint ini saat membangun agen yang sangat bergantung pada pemanggilan fungsi (function calling) dan penggunaan alat.

Apa Artinya Ini

Persaingan Penalaran Semakin Memanas

Tiga model frontier dirilis dalam 13 hari:

6 Feb: Claude Opus 4.6 (Anthropic)

17 Feb: Claude Sonnet 4.6 (Anthropic)

19 Feb: Gemini 3.1 Pro (Google)

Masing-masing mengklaim kepemimpinan di bidang yang berbeda. Lanskap model kini semakin terfragmentasi — tidak ada satu pun model yang mendominasi segalanya lagi.

Penalaran Terbaik di Kelasnya dengan Harga Hemat

Paritas Pengodean

Bagian yang Hilang: Penggunaan Komputer

Untuk Pengembang yang Membangun Produk

Implikasi praktisnya:

Penalaran termurah: $0,44/sesi vs $0,60 (Sonnet) vs $0,80 (GPT-5.2)

Terbaik untuk tugas ilmiah/analitis: 94,3% GPQA Diamond adalah skor tertinggi yang tersedia

Kompetitif dalam pengodean: 80,6% SWE-bench memperkecil jarak dengan Claude

Keunggulan multimodal: Pemrosesan video/audio asli yang tidak tertandingi oleh Claude dan GPT

Status pratinjau: Belum GA (General Availability) — nantikan peningkatan sebelum ketersediaan umum

Sumber: