Gemini 3.1 Pro: Lonjakan Penaakulan Google Dijelaskan

TL;DR

Google melancarkan Gemini 3.1 Pro (pratonton) pada 19 Februari 2026. Angka-angka utama:

ARC-AGI-2: 77.1% — lebih daripada dua kali ganda Gemini 3 Pro (31.1%), menewaskan Opus 4.6 (68.8%) dan GPT-5.2 (52.9%)
GPQA Diamond: 94.3% — mendahului semua model dalam sains peringkat siswazah
SWE-bench: 80.6% — setanding dengan Opus 4.6 (80.8%) dalam pengkodan
Harga: $2/$12 setiap M token — model frontier termurah
Konteks 1M token — tidak berubah daripada Gemini 3 Pro
Mendahului dalam 13 daripada 16 penanda aras yang dinilai oleh Google
Tersedia sekarang dalam pratonton: AI Studio, Vertex AI, Gemini CLI, aplikasi Gemini

Apa yang Diumumkan oleh Google

Pada 19 Februari 2026, Google melancarkan Gemini 3.1 Pro — peningkatan ".1" pertama dalam versi model mereka. Ia dibina berasaskan Gemini 3 Pro (November 2025) dengan mengintegrasikan teknik daripada siri Gemini 3 Deep Think ke dalam model yang lebih mudah dicapai dan lebih pantas.

Blog Google menerangkannya sebagai direka untuk "tugasan di mana jawapan ringkas tidak mencukupi" — penaakulan berbilang langkah yang kompleks, sintesis data, dan aliran kerja ejen (agentic).

Statistik utama: 77.1% pada ARC-AGI-2, penanda aras untuk penaakulan abstrak baharu. Itu adalah lebih daripada dua kali ganda 31.1% milik Gemini 3 Pro, dan jauh di hadapan Opus 4.6 (68.8%) serta GPT-5.2 (52.9%). VentureBeat menggelarnya sebagai "Deep Think Mini dengan penaakulan yang boleh dilaraskan mengikut permintaan."

Pecahan Penuh Penanda Aras

Di Mana Gemini 3.1 Pro Mendahului (13 daripada 16 penanda aras)

Penanda Aras	Apa Yang Diuji	Gemini 3.1 Pro	Pesaing Terbaik
ARC-AGI-2	Penaakulan baharu	77.1%	Opus 4.6: 68.8%
GPQA Diamond	Sains siswazah	94.3%	GPT-5.2: 92.4%
BrowseComp	Carian web ejen	85.9%	Opus 4.6: 84.0%
Terminal-Bench 2.0	Pengkodan terminal	68.5%	Opus 4.6: 65.4%
APEX-Agents	Keupayaan ejen	33.5%	Opus 4.6: 29.8%
MCP Atlas	Penggunaan alatan	69.2%	—
t2-bench Telecom	Khusus domain	99.3%	—
SWE-bench Verified	Pengkodan	80.6%	Opus 4.6: 80.8%
MRCR v2	Konteks-panjang	84.9%	Sonnet 4.6: 84.9% (seri)

Di Mana Pesaing Masih Menang

Penanda Aras	Apa Yang Diuji	Pemenang	Gemini 3.1 Pro
GDPval-AA (Elo)	Tugasan pejabat	Sonnet 4.6: 1633	Tidak didedahkan
Terminal-Bench 2.0	Pengkodan terminal berat	GPT-5.3-Codex: 77.3%	68.5%
SWE-Bench Pro	Pengkodan lanjutan	GPT-5.3-Codex: 56.8%	Tidak didedahkan
OSWorld	Penggunaan komputer	Sonnet 4.6: 72.5%	Tiada penanda aras

Lonjakan Penaakulan dalam Konteks

ARC-AGI-2 mengukur keupayaan model untuk menyelesaikan masalah yang tidak pernah dilihat sebelumnya — penaakulan abstrak tulen, bukannya pemadanan corak daripada data latihan. Berikut adalah kepantasan peningkatan Gemini:

Model	ARC-AGI-2	Tarikh
Gemini 3 Pro	31.1%	Nov 2025
GPT-5.2	52.9%	Dis 2025
Claude Opus 4.6	68.8%	Feb 2026
Gemini 3.1 Pro	77.1%	Feb 2026

Gemini 3.1 Pro melonjak daripada 31.1% kepada 77.1% dalam satu versi — peningkatan sebanyak 148%. Ini hasil daripada integrasi teknik penaakulan lanjutan Deep Think ke dalam model asas.

Apa Yang Berubah lwn. Gemini 3 Pro

1. Integrasi Deep Think

Gemini 3 Deep Think adalah model berasingan yang lebih perlahan dan dioptimumkan untuk penaakulan lanjutan. Gemini 3.1 Pro menerapkan teknik tersebut ke dalam model standard, dengan kedalaman penaakulan yang boleh dilaraskan. Anda mendapat penaakulan setahap Deep Think tanpa latensi Deep Think untuk kebanyakan tugasan.

2. Penaakulan yang Jauh Lebih Baik

Angka-angka tersebut membuktikannya:

Penanda Aras	Gemini 3 Pro	Gemini 3.1 Pro	Peningkatan
ARC-AGI-2	31.1%	77.1%	+148%
GPQA Diamond	~88%	94.3%	+7%
APEX-Agents	18.4%	33.5%	+82%

3. Prestasi Ejen yang Lebih Baik

Skor APEX-Agents (33.5%) dan MCP Atlas (69.2%) menunjukkan Gemini 3.1 Pro jauh lebih berkemampuan sebagai ejen autonomi — penggunaan alatan, perancangan berbilang langkah, dan pembetulan kendiri semuanya telah dipertingkatkan.

4. Kekuatan Multimodal yang Dikekalkan

Gemini 3.1 Pro mengekalkan kelebihan teras Gemini: pemprosesan multimodal asli untuk teks, imej, audio, dan video dalam satu konteks. Tiada model frontier lain yang setanding dengan keluasan ini pada titik harga ini.

Harga

Harga yang sama dengan Gemini 3 Pro — naiktaraf percuma:

Saiz Konteks	Input (setiap M token)	Output (setiap M token)
≤200K token	$2.00	$12.00
>200K token	$4.00	$18.00

Perbandingan dengan Pesaing

Model	Input	Output	Kos Relatif
Gemini 3.1 Pro	$2.00	$12.00	1x
Claude Sonnet 4.6	$3.00	$15.00	1.5x
GPT-5.2	$5.00	$15.00	2.0x (input)
Claude Opus 4.6	$15.00	$75.00	7.5x

Gemini 3.1 Pro adalah model frontier termurah — 33% lebih murah daripada Sonnet 4.6 untuk input, dan 20% lebih murah untuk output.

Kos Per Sesi (100K in + 20K out)

Model	Kos
Gemini 3.1 Pro	$0.44
Claude Sonnet 4.6	$0.60
GPT-5.2	$0.80
Claude Opus 4.6	$3.00

Pengoptimuman kos tambahan:

Mod Batch: diskaun 50% ($0.22/sesi)

Context caching: Bacaan input cache menelan kos 10% daripada harga asas

Ketersediaan

Di Mana Untuk Menggunakannya

Platform	Status	ID Model
Aplikasi Gemini (pengguna)	Sedang dilancarkan	Dipilih secara automatik
Google AI Studio	Tersedia sekarang	`gemini-3.1-pro-preview`
Vertex AI	Tersedia sekarang	`gemini-3.1-pro-preview`
Gemini API	Tersedia sekarang	`gemini-3.1-pro-preview`
Gemini CLI	Tersedia sekarang	`gemini-3.1-pro-preview`
Antigravity	Tersedia sekarang	Dipilih secara automatik
Android Studio	Tersedia sekarang	Dipilih secara automatik
GitHub Copilot	Pratonton awam	Boleh dipilih
NotebookLM	Langganan Pro/Ultra	Dipilih secara automatik

Permulaan Pantas API

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Endpoint Alatan Tersuai

Google juga melancarkan endpoint khusus untuk prestasi alatan yang lebih baik:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Gunakan endpoint ini apabila membina ejen yang bergantung kuat pada panggilan fungsi (function calling) dan penggunaan alatan.

Apa Maksudnya

Perlumbaan Penaakulan Semakin Hangat

Tiga model frontier dilancarkan dalam masa 13 hari:

6 Feb: Claude Opus 4.6 (Anthropic)

17 Feb: Claude Sonnet 4.6 (Anthropic)

19 Feb: Gemini 3.1 Pro (Google)

Masing-masing mendakwa kepimpinan dalam bidang yang berbeza. Landskap model sedang berpecah — tiada lagi model tunggal yang mendominasi segala-galanya.

Penaakulan Terbaik dalam Kelasnya pada Harga Bajet

Skor 77.1% ARC-AGI-2 Gemini 3.1 Pro adalah skor penaakulan tertinggi yang tersedia, pada harga terendah ($2/$12). Untuk tugasan yang memerlukan penyelesaian masalah baharu, penaakulan abstrak, atau analisis saintifik, ia adalah pilihan yang jelas.

Pariti Pengkodan

Dengan 80.6% pada SWE-bench (lwn. 80.8% milik Opus 4.6 dan 79.6% milik Sonnet 4.6), Gemini 3.1 Pro kini kompetitif dalam pengkodan buat kali pertama. Model Gemini sebelum ini ketinggalan jauh di belakang Claude dalam penanda aras ini.

Bahagian yang Hilang: Penggunaan Komputer

Gemini 3.1 Pro tidak mempunyai penanda aras pada OSWorld (penggunaan komputer). Claude Sonnet 4.6 mendahului dengan 72.5% dalam keupayaan ini. Jika aliran kerja anda melibatkan automasi pelayar, pengisian borang, atau kawalan desktop, Claude kekal sebagai satu-satunya pilihan yang berkesan.

Untuk Pembangun yang Membina Produk

Implikasi praktikal:

Penaakulan termurah: $0.44/sesi berbanding $0.60 (Sonnet) berbanding $0.80 (GPT-5.2)

Terbaik untuk tugasan saintifik/analitikal: 94.3% GPQA Diamond adalah skor tertinggi yang tersedia

Kompetitif dalam pengkodan: 80.6% SWE-bench merapatkan jurang dengan Claude

Kelebihan multimodal: Pemprosesan video/audio asli yang tidak dapat ditandingi oleh Claude dan GPT

Status pratonton: Belum mencapai GA (ketersediaan umum) — jangkakan peningkatan sebelum pelancaran rasmi

Membina dengan AI? Y Build mengintegrasikan alatan AI pilihan anda untuk pembangunan, kemudian mengendalikan penggunaan, video produk Demo Cut, SEO AI, dan analitik — set lengkap daripada kod hingga pertumbuhan. Mula secara percuma.

Sumber:

TL;DR

Google melancarkan Gemini 3.1 Pro (pratonton) pada 19 Februari 2026. Angka-angka utama:

ARC-AGI-2: 77.1% — lebih daripada dua kali ganda Gemini 3 Pro (31.1%), menewaskan Opus 4.6 (68.8%) dan GPT-5.2 (52.9%)
GPQA Diamond: 94.3% — mendahului semua model dalam sains peringkat siswazah
SWE-bench: 80.6% — setanding dengan Opus 4.6 (80.8%) dalam pengkodan
Harga: $2/$12 setiap M token — model frontier termurah
Konteks 1M token — tidak berubah daripada Gemini 3 Pro
Mendahului dalam 13 daripada 16 penanda aras yang dinilai oleh Google
Tersedia sekarang dalam pratonton: AI Studio, Vertex AI, Gemini CLI, aplikasi Gemini

Apa yang Diumumkan oleh Google

Blog Google menerangkannya sebagai direka untuk "tugasan di mana jawapan ringkas tidak mencukupi" — penaakulan berbilang langkah yang kompleks, sintesis data, dan aliran kerja ejen (agentic).

Pecahan Penuh Penanda Aras

Di Mana Gemini 3.1 Pro Mendahului (13 daripada 16 penanda aras)

Penanda Aras	Apa Yang Diuji	Gemini 3.1 Pro	Pesaing Terbaik
ARC-AGI-2	Penaakulan baharu	77.1%	Opus 4.6: 68.8%
GPQA Diamond	Sains siswazah	94.3%	GPT-5.2: 92.4%
BrowseComp	Carian web ejen	85.9%	Opus 4.6: 84.0%
Terminal-Bench 2.0	Pengkodan terminal	68.5%	Opus 4.6: 65.4%
APEX-Agents	Keupayaan ejen	33.5%	Opus 4.6: 29.8%
MCP Atlas	Penggunaan alatan	69.2%	—
t2-bench Telecom	Khusus domain	99.3%	—
SWE-bench Verified	Pengkodan	80.6%	Opus 4.6: 80.8%
MRCR v2	Konteks-panjang	84.9%	Sonnet 4.6: 84.9% (seri)

Di Mana Pesaing Masih Menang

Penanda Aras	Apa Yang Diuji	Pemenang	Gemini 3.1 Pro
GDPval-AA (Elo)	Tugasan pejabat	Sonnet 4.6: 1633	Tidak didedahkan
Terminal-Bench 2.0	Pengkodan terminal berat	GPT-5.3-Codex: 77.3%	68.5%
SWE-Bench Pro	Pengkodan lanjutan	GPT-5.3-Codex: 56.8%	Tidak didedahkan
OSWorld	Penggunaan komputer	Sonnet 4.6: 72.5%	Tiada penanda aras

Lonjakan Penaakulan dalam Konteks

Model	ARC-AGI-2	Tarikh
Gemini 3 Pro	31.1%	Nov 2025
GPT-5.2	52.9%	Dis 2025
Claude Opus 4.6	68.8%	Feb 2026
Gemini 3.1 Pro	77.1%	Feb 2026

Gemini 3.1 Pro melonjak daripada 31.1% kepada 77.1% dalam satu versi — peningkatan sebanyak 148%. Ini hasil daripada integrasi teknik penaakulan lanjutan Deep Think ke dalam model asas.

Apa Yang Berubah lwn. Gemini 3 Pro

1. Integrasi Deep Think

2. Penaakulan yang Jauh Lebih Baik

Angka-angka tersebut membuktikannya:

Penanda Aras	Gemini 3 Pro	Gemini 3.1 Pro	Peningkatan
ARC-AGI-2	31.1%	77.1%	+148%
GPQA Diamond	~88%	94.3%	+7%
APEX-Agents	18.4%	33.5%	+82%

3. Prestasi Ejen yang Lebih Baik

4. Kekuatan Multimodal yang Dikekalkan

Harga

Harga yang sama dengan Gemini 3 Pro — naiktaraf percuma:

Saiz Konteks	Input (setiap M token)	Output (setiap M token)
≤200K token	$2.00	$12.00
>200K token	$4.00	$18.00

Perbandingan dengan Pesaing

Model	Input	Output	Kos Relatif
Gemini 3.1 Pro	$2.00	$12.00	1x
Claude Sonnet 4.6	$3.00	$15.00	1.5x
GPT-5.2	$5.00	$15.00	2.0x (input)
Claude Opus 4.6	$15.00	$75.00	7.5x

Gemini 3.1 Pro adalah model frontier termurah — 33% lebih murah daripada Sonnet 4.6 untuk input, dan 20% lebih murah untuk output.

Kos Per Sesi (100K in + 20K out)

Model	Kos
Gemini 3.1 Pro	$0.44
Claude Sonnet 4.6	$0.60
GPT-5.2	$0.80
Claude Opus 4.6	$3.00

Pengoptimuman kos tambahan:

Mod Batch: diskaun 50% ($0.22/sesi)

Context caching: Bacaan input cache menelan kos 10% daripada harga asas

Ketersediaan

Di Mana Untuk Menggunakannya

Platform	Status	ID Model
Aplikasi Gemini (pengguna)	Sedang dilancarkan	Dipilih secara automatik
Google AI Studio	Tersedia sekarang	`gemini-3.1-pro-preview`
Vertex AI	Tersedia sekarang	`gemini-3.1-pro-preview`
Gemini API	Tersedia sekarang	`gemini-3.1-pro-preview`
Gemini CLI	Tersedia sekarang	`gemini-3.1-pro-preview`
Antigravity	Tersedia sekarang	Dipilih secara automatik
Android Studio	Tersedia sekarang	Dipilih secara automatik
GitHub Copilot	Pratonton awam	Boleh dipilih
NotebookLM	Langganan Pro/Ultra	Dipilih secara automatik

Permulaan Pantas API

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Endpoint Alatan Tersuai

Google juga melancarkan endpoint khusus untuk prestasi alatan yang lebih baik:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Gunakan endpoint ini apabila membina ejen yang bergantung kuat pada panggilan fungsi (function calling) dan penggunaan alatan.

Apa Maksudnya

Perlumbaan Penaakulan Semakin Hangat

Tiga model frontier dilancarkan dalam masa 13 hari:

6 Feb: Claude Opus 4.6 (Anthropic)

17 Feb: Claude Sonnet 4.6 (Anthropic)

19 Feb: Gemini 3.1 Pro (Google)

Masing-masing mendakwa kepimpinan dalam bidang yang berbeza. Landskap model sedang berpecah — tiada lagi model tunggal yang mendominasi segala-galanya.

Penaakulan Terbaik dalam Kelasnya pada Harga Bajet

Pariti Pengkodan

Bahagian yang Hilang: Penggunaan Komputer

Untuk Pembangun yang Membina Produk

Implikasi praktikal:

Penaakulan termurah: $0.44/sesi berbanding $0.60 (Sonnet) berbanding $0.80 (GPT-5.2)

Terbaik untuk tugasan saintifik/analitikal: 94.3% GPQA Diamond adalah skor tertinggi yang tersedia

Kompetitif dalam pengkodan: 80.6% SWE-bench merapatkan jurang dengan Claude

Kelebihan multimodal: Pemprosesan video/audio asli yang tidak dapat ditandingi oleh Claude dan GPT

Status pratonton: Belum mencapai GA (ketersediaan umum) — jangkakan peningkatan sebelum pelancaran rasmi

Sumber: