Gemini 3.1 Pro: Googlen päättelykyvyn harppaus selitettynä

TL;DR

Google julkaisi Gemini 3.1 Pron (esiversio) 19. helmikuuta 2026. Tärkeimmät luvut:

ARC-AGI-2: 77,1 % — yli kaksinkertainen Gemini 3 Prohon (31,1 %) verrattuna, voittaa Opus 4.6:n (68,8 %) ja GPT-5.2:n (52,9 %)
GPQA Diamond: 94,3 % — johtaa kaikkia malleja maisteritason tieteessä
SWE-bench: 80,6 % — vastaa Opus 4.6:tta (80,8 %) koodauksessa
Hinta: 2 $/12 $ per M tokenia — halvin huippumalli (frontier model)
1M tokenin konteksti — ennallaan Gemini 3 Prosta
Johtaa 13:ssa 16:sta Googlen arvioimasta suorituskykytestistä
Saatavilla nyt esiversiona: AI Studio, Vertex AI, Gemini CLI, Gemini-sovellus

Mitä Google ilmoitti

helmikuuta 2026 Google julkaisi Gemini 3.1 Pron — ensimmäisen ".1"-päivityksen malliensa versioinnissa. Se rakentuu Gemini 3 Pron (marraskuu 2025) päälle integroimalla Gemini 3 Deep Think -sarjan tekniikoita helpommin lähestyttävään ja nopeampaan malliin.

Googlen blogi kuvailee mallin olevan suunniteltu "tehtäviin, joissa yksinkertainen vastaus ei riitä" — monimutkaiseen monivaiheiseen päättelyyn, datan synteesiin ja agenttipohjaisiin työnkulkuihin.

Pääasiallinen tilasto: 77,1 % ARC-AGI-2-testissä, joka mittaa uudenlaista abstraktia päättelykykyä. Se on yli tuplasti Gemini 3 Pron 31,1 % ja merkittävästi edellä sekä Opus 4.6:tta (68,8 %) että GPT-5.2:ta (52,9 %). VentureBeat kutsuu sitä "Deep Think Miniksi, jossa on säädettävä päättelykyky tarvittaessa."

Kattava suorituskykyvertailu

Missä Gemini 3.1 Pro johtaa (13/16 testiä)

Suorituskykytesti	Mitä se testaa	Gemini 3.1 Pro	Paras kilpailija
ARC-AGI-2	Uusi päättely	77,1 %	Opus 4.6: 68,8 %
GPQA Diamond	Maisteritason tiede	94,3 %	GPT-5.2: 92,4 %
BrowseComp	Agenttipohjainen verkkohaku	85,9 %	Opus 4.6: 84,0 %
Terminal-Bench 2.0	Päätepohjainen koodaus	68,5 %	Opus 4.6: 65,4 %
APEX-Agents	Agenttien kyvykkyydet	33,5 %	Opus 4.6: 29,8 %
MCP Atlas	Työkalujen käyttö	69,2 %	—
t2-bench Telecom	Toimialakohtainen	99,3 %	—
SWE-bench Verified	Koodaus	80,6 %	Opus 4.6: 80,8 %
MRCR v2	Pitkä konteksti	84,9 %	Sonnet 4.6: 84,9 % (tasapeli)

Missä kilpailijat voittavat edelleen

Suorituskykytesti	Mitä se testaa	Voittaja	Gemini 3.1 Pro
GDPval-AA (Elo)	Toimistotehtävät	Sonnet 4.6: 1633	Ei ilmoitettu
Terminal-Bench 2.0	Vaativa päätepohjainen koodaus	GPT-5.3-Codex: 77,3 %	68,5 %
SWE-Bench Pro	Edistynyt koodaus	GPT-5.3-Codex: 56,8 %	Ei ilmoitettu
OSWorld	Tietokoneen käyttö	Sonnet 4.6: 72,5 %	Ei testattu

Päättelykyvyn harppaus kontekstissa

ARC-AGI-2 mittaa mallin kykyä ratkaista ongelmia, joita se ei ole koskaan aiemmin nähnyt — puhdasta abstraktia päättelyä, ei opetusdatasta periytyvää mallien tunnistusta. Näin nopeasti Gemini parani:

Malli	ARC-AGI-2	Päivämäärä
Gemini 3 Pro	31,1 %	Marraskuu 2025
GPT-5.2	52,9 %	Joulukuu 2025
Claude Opus 4.6	68,8 %	Helmikuu 2026
Gemini 3.1 Pro	77,1 %	Helmikuu 2026

Gemini 3.1 Pro hyppäsi 31,1 prosentista 77,1 prosenttiin yhdessä versiossa — 148 % parannus. Tämä johtuu Deep Thinkin laajennetun päättelyn tekniikoiden integroimisesta perusmalliin.

Mikä muuttui verrattuna Gemini 3 Prohon

1. Deep Think -integraatio

Gemini 3 Deep Think oli erillinen, hitaampi malli, joka oli optimoitu laajennettuun päättelyyn. Gemini 3.1 Pro leipoo nämä tekniikat vakiomalliin, jossa on säädettävä päättelysyvyys. Saat Deep Think -tason päättelyn ilman Deep Thinkin viivettä useimmissa tehtävissä.

2. Huomattavasti parempi päättelykyky

Luvut puhuvat puolestaan:

Suorituskykytesti	Gemini 3 Pro	Gemini 3.1 Pro	Parannus
ARC-AGI-2	31,1 %	77,1 %	+148 %
GPQA Diamond	~88 %	94,3 %	+7 %
APEX-Agents	18,4 %	33,5 %	+82 %

3. Parempi agenttisuorituskyky

APEX-Agents (33,5 %) ja MCP Atlas (69,2 %) -tulokset osoittavat, että Gemini 3.1 Pro on huomattavasti kyvykkäämpi autonomisena agenttina — työkalujen käyttö, monivaiheinen suunnittelu ja itsensä korjaaminen ovat kaikki parantuneet.

4. Säilytetty multimodaalinen vahvuus

Gemini 3.1 Pro säilyttää Geminin keskeisen edun: natiivin multimodaalisen prosessoinnin tekstille, kuville, audiolle ja videolle yhdessä kontekstissa. Mikään muu huippumalli ei vastaa tätä laajuutta tässä hintapisteessä.

Hinnoittelu

Sama hinta kuin Gemini 3 Prolla — ilmainen päivitys:

Kontekstin koko	Syöte (per M tokenia)	Tuloste (per M tokenia)
≤200K tokenia	2,00 $	12,00 $
>200K tokenia	4,00 $	18,00 $

Vertailu kilpailijoihin

Malli	Syöte	Tuloste	Suhteellinen kustannus
Gemini 3.1 Pro	2,00 $	12,00 $	1x
Claude Sonnet 4.6	3,00 $	15,00 $	1,5x
GPT-5.2	5,00 $	15,00 $	2,0x (syöte)
Claude Opus 4.6	15,00 $	75,00 $	7,5x

Gemini 3.1 Pro on halvin huippumalli — 33 % halvempi kuin Sonnet 4.6 syötteessä ja 20 % halvempi tulosteessa.

Istuntokohtainen hinta (100K sisään + 20K ulos)

Malli	Kustannus
Gemini 3.1 Pro	0,44 $
Claude Sonnet 4.6	0,60 $
GPT-5.2	0,80 $
Claude Opus 4.6	3,00 $

Muita kustannusoptimointeja:

Batch mode (eräajo): 50 % alennus (0,22 $/istunto)

Context caching (kontekstin välimuisti): Välimuistiin tallennetun syötteen luku maksaa 10 % perushinnasta

Saatavuus

Missä sitä voi käyttää

Alusta	Tila	Mallin tunnus (Model ID)
Gemini-sovellus (kuluttajat)	Käyttöönotto meneillään	Automaattisesti valittu
Google AI Studio	Saatavilla nyt	`gemini-3.1-pro-preview`
Vertex AI	Saatavilla nyt	`gemini-3.1-pro-preview`
Gemini API	Saatavilla nyt	`gemini-3.1-pro-preview`
Gemini CLI	Saatavilla nyt	`gemini-3.1-pro-preview`
Antigravity	Saatavilla nyt	Automaattisesti valittu
Android Studio	Saatavilla nyt	Automaattisesti valittu
GitHub Copilot	Julkinen esiversio	Valittavissa
NotebookLM	Pro/Ultra-tilaajat	Automaattisesti valittu

API-pikastartti

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Räätälöityjen työkalujen päätepiste

Google julkaisi myös erikoistuneen päätepisteen parempaa työkalujen suorituskykyä varten:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Käytä tätä päätepistettä, kun rakennat agentteja, jotka luottavat vahvasti funktioiden kutsumiseen ja työkalujen käyttöön.

Mitä tämä tarkoittaa

Päättelykilpailu kiihtyy

Kolme huippumallia julkaistiin 13 päivän sisällä:

6. helmikuuta: Claude Opus 4.6 (Anthropic)

17. helmikuuta: Claude Sonnet 4.6 (Anthropic)

19. helmikuuta: Gemini 3.1 Pro (Google)

Jokainen väittää johtajuutta eri osa-alueilla. Mallikenttä pirstoutuu — mikään yksittäinen malli ei enää hallitse kaikkea.

Luokkansa paras päättelykyky edulliseen hintaan

Gemini 3.1 Pron 77,1 % ARC-AGI-2 on korkein saatavilla oleva päättelytulos halvimmalla hinnalla (2 $/12 $). Tehtäviin, jotka vaativat uudenlaista ongelmanratkaisua, abstraktia päättelyä tai tieteellistä analyysia, se on selkeä valinta.

Tasapeli koodauksessa

80,6 % tuloksella SWE-bench-testissä (verrattuna Opus 4.6:n 80,8 % ja Sonnet 4.6:n 79,6 %), Gemini 3.1 Pro on nyt ensimmäistä kertaa kilpailukykyinen koodauksessa. Aiemmat Gemini-mallit jäivät tässä testissä merkittävästi Claudesta jälkeen.

Puuttuva palanen: Tietokoneen käyttö

Gemini 3.1 Prosta ei ole tuloksia OSWorld-testissä (tietokoneen käyttö). Claude Sonnet 4.6 johtaa tätä osa-aluetta 72,5 % tuloksella. Jos työnkulkusi sisältää selaimen automaatiota, lomakkeiden täyttöä tai työpöydän hallintaa, Claude on edelleen ainoa varteenotettava vaihtoehto.

Tuotteita rakentaville kehittäjille

Käytännön vaikutukset:

Halvin päättely: 0,44 $/istunto vs. 0,60 $ (Sonnet) vs. 0,80 $ (GPT-5.2)

Paras tieteellisiin/analyyttisiin tehtäviin: 94,3 % GPQA Diamond on korkein saatavilla oleva tulos

Kilpailukykyinen koodauksessa: 80,6 % SWE-bench kuroo umpeen eron Claudeen

Multimodaalinen etu: Natiivi video/audio-prosessointi, jota Claude ja GPT eivät vastaa

Esiversio-tila: Ei vielä GA-vaiheessa (general availability) — odota parannuksia ennen yleistä julkaisua

Rakennatko tekoälyllä? Y Build integroituu suosikki-AI-työkaluihisi kehitystä varten ja hoitaa sitten julkaisun, Demo Cut -tuotevideot, AI SEO:n ja analytiikan — koko stack koodista kasvuun. Aloita ilmaiseksi.

Lähteet:

TL;DR

Google julkaisi Gemini 3.1 Pron (esiversio) 19. helmikuuta 2026. Tärkeimmät luvut:

ARC-AGI-2: 77,1 % — yli kaksinkertainen Gemini 3 Prohon (31,1 %) verrattuna, voittaa Opus 4.6:n (68,8 %) ja GPT-5.2:n (52,9 %)
GPQA Diamond: 94,3 % — johtaa kaikkia malleja maisteritason tieteessä
SWE-bench: 80,6 % — vastaa Opus 4.6:tta (80,8 %) koodauksessa
Hinta: 2 $/12 $ per M tokenia — halvin huippumalli (frontier model)
1M tokenin konteksti — ennallaan Gemini 3 Prosta
Johtaa 13:ssa 16:sta Googlen arvioimasta suorituskykytestistä
Saatavilla nyt esiversiona: AI Studio, Vertex AI, Gemini CLI, Gemini-sovellus

Mitä Google ilmoitti

helmikuuta 2026 Google julkaisi Gemini 3.1 Pron — ensimmäisen ".1"-päivityksen malliensa versioinnissa. Se rakentuu Gemini 3 Pron (marraskuu 2025) päälle integroimalla Gemini 3 Deep Think -sarjan tekniikoita helpommin lähestyttävään ja nopeampaan malliin.

Kattava suorituskykyvertailu

Missä Gemini 3.1 Pro johtaa (13/16 testiä)

Suorituskykytesti	Mitä se testaa	Gemini 3.1 Pro	Paras kilpailija
ARC-AGI-2	Uusi päättely	77,1 %	Opus 4.6: 68,8 %
GPQA Diamond	Maisteritason tiede	94,3 %	GPT-5.2: 92,4 %
BrowseComp	Agenttipohjainen verkkohaku	85,9 %	Opus 4.6: 84,0 %
Terminal-Bench 2.0	Päätepohjainen koodaus	68,5 %	Opus 4.6: 65,4 %
APEX-Agents	Agenttien kyvykkyydet	33,5 %	Opus 4.6: 29,8 %
MCP Atlas	Työkalujen käyttö	69,2 %	—
t2-bench Telecom	Toimialakohtainen	99,3 %	—
SWE-bench Verified	Koodaus	80,6 %	Opus 4.6: 80,8 %
MRCR v2	Pitkä konteksti	84,9 %	Sonnet 4.6: 84,9 % (tasapeli)

Missä kilpailijat voittavat edelleen

Suorituskykytesti	Mitä se testaa	Voittaja	Gemini 3.1 Pro
GDPval-AA (Elo)	Toimistotehtävät	Sonnet 4.6: 1633	Ei ilmoitettu
Terminal-Bench 2.0	Vaativa päätepohjainen koodaus	GPT-5.3-Codex: 77,3 %	68,5 %
SWE-Bench Pro	Edistynyt koodaus	GPT-5.3-Codex: 56,8 %	Ei ilmoitettu
OSWorld	Tietokoneen käyttö	Sonnet 4.6: 72,5 %	Ei testattu

Päättelykyvyn harppaus kontekstissa

Malli	ARC-AGI-2	Päivämäärä
Gemini 3 Pro	31,1 %	Marraskuu 2025
GPT-5.2	52,9 %	Joulukuu 2025
Claude Opus 4.6	68,8 %	Helmikuu 2026
Gemini 3.1 Pro	77,1 %	Helmikuu 2026

Gemini 3.1 Pro hyppäsi 31,1 prosentista 77,1 prosenttiin yhdessä versiossa — 148 % parannus. Tämä johtuu Deep Thinkin laajennetun päättelyn tekniikoiden integroimisesta perusmalliin.

Mikä muuttui verrattuna Gemini 3 Prohon

1. Deep Think -integraatio

2. Huomattavasti parempi päättelykyky

Luvut puhuvat puolestaan:

Suorituskykytesti	Gemini 3 Pro	Gemini 3.1 Pro	Parannus
ARC-AGI-2	31,1 %	77,1 %	+148 %
GPQA Diamond	~88 %	94,3 %	+7 %
APEX-Agents	18,4 %	33,5 %	+82 %

3. Parempi agenttisuorituskyky

4. Säilytetty multimodaalinen vahvuus

Hinnoittelu

Sama hinta kuin Gemini 3 Prolla — ilmainen päivitys:

Kontekstin koko	Syöte (per M tokenia)	Tuloste (per M tokenia)
≤200K tokenia	2,00 $	12,00 $
>200K tokenia	4,00 $	18,00 $

Vertailu kilpailijoihin

Malli	Syöte	Tuloste	Suhteellinen kustannus
Gemini 3.1 Pro	2,00 $	12,00 $	1x
Claude Sonnet 4.6	3,00 $	15,00 $	1,5x
GPT-5.2	5,00 $	15,00 $	2,0x (syöte)
Claude Opus 4.6	15,00 $	75,00 $	7,5x

Gemini 3.1 Pro on halvin huippumalli — 33 % halvempi kuin Sonnet 4.6 syötteessä ja 20 % halvempi tulosteessa.

Istuntokohtainen hinta (100K sisään + 20K ulos)

Malli	Kustannus
Gemini 3.1 Pro	0,44 $
Claude Sonnet 4.6	0,60 $
GPT-5.2	0,80 $
Claude Opus 4.6	3,00 $

Muita kustannusoptimointeja:

Batch mode (eräajo): 50 % alennus (0,22 $/istunto)

Context caching (kontekstin välimuisti): Välimuistiin tallennetun syötteen luku maksaa 10 % perushinnasta

Saatavuus

Missä sitä voi käyttää

Alusta	Tila	Mallin tunnus (Model ID)
Gemini-sovellus (kuluttajat)	Käyttöönotto meneillään	Automaattisesti valittu
Google AI Studio	Saatavilla nyt	`gemini-3.1-pro-preview`
Vertex AI	Saatavilla nyt	`gemini-3.1-pro-preview`
Gemini API	Saatavilla nyt	`gemini-3.1-pro-preview`
Gemini CLI	Saatavilla nyt	`gemini-3.1-pro-preview`
Antigravity	Saatavilla nyt	Automaattisesti valittu
Android Studio	Saatavilla nyt	Automaattisesti valittu
GitHub Copilot	Julkinen esiversio	Valittavissa
NotebookLM	Pro/Ultra-tilaajat	Automaattisesti valittu

API-pikastartti

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Räätälöityjen työkalujen päätepiste

Google julkaisi myös erikoistuneen päätepisteen parempaa työkalujen suorituskykyä varten:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Käytä tätä päätepistettä, kun rakennat agentteja, jotka luottavat vahvasti funktioiden kutsumiseen ja työkalujen käyttöön.

Mitä tämä tarkoittaa

Päättelykilpailu kiihtyy

Kolme huippumallia julkaistiin 13 päivän sisällä:

6. helmikuuta: Claude Opus 4.6 (Anthropic)

17. helmikuuta: Claude Sonnet 4.6 (Anthropic)

19. helmikuuta: Gemini 3.1 Pro (Google)

Jokainen väittää johtajuutta eri osa-alueilla. Mallikenttä pirstoutuu — mikään yksittäinen malli ei enää hallitse kaikkea.

Luokkansa paras päättelykyky edulliseen hintaan

Tasapeli koodauksessa

Puuttuva palanen: Tietokoneen käyttö

Tuotteita rakentaville kehittäjille

Käytännön vaikutukset:

Halvin päättely: 0,44 $/istunto vs. 0,60 $ (Sonnet) vs. 0,80 $ (GPT-5.2)

Paras tieteellisiin/analyyttisiin tehtäviin: 94,3 % GPQA Diamond on korkein saatavilla oleva tulos

Kilpailukykyinen koodauksessa: 80,6 % SWE-bench kuroo umpeen eron Claudeen

Multimodaalinen etu: Natiivi video/audio-prosessointi, jota Claude ja GPT eivät vastaa

Esiversio-tila: Ei vielä GA-vaiheessa (general availability) — odota parannuksia ennen yleistä julkaisua

Lähteet: