Gemini 3.1 Pro: Google's sprong in redeneervermogen uitgelegd

TL;DR

Google bracht Gemini 3.1 Pro (preview) uit op 19 februari 2026. De belangrijkste cijfers:

ARC-AGI-2: 77,1% — meer dan het dubbele van Gemini 3 Pro (31,1%), verslaat Opus 4.6 (68,8%) en GPT-5.2 (52,9%)
GPQA Diamond: 94,3% — leidt alle modellen op wetenschappelijk niveau voor afgestudeerden
SWE-bench: 80,6% — evenaart Opus 4.6 (80,8%) op het gebied van coderen
Prijs: $2/$12 per M tokens — goedkoopste frontier-model
1M token context — ongewijzigd ten opzichte van Gemini 3 Pro
Leidt op 13 van de 16 benchmarks die door Google zijn geëvalueerd
Nu beschikbaar in preview: AI Studio, Vertex AI, Gemini CLI, Gemini app

Wat Google aankondigde

Op 19 februari 2026 lanceerde Google Gemini 3.1 Pro — de eerste ".1"-stap in hun modelversiebeheer. Het bouwt voort op Gemini 3 Pro (november 2025) door technieken uit de Gemini 3 Deep Think-serie te integreren in een toegankelijker en sneller model.

Het blog van Google beschrijft het model als ontworpen voor "taken waarbij een simpel antwoord niet volstaat" — complexe meerstapsredeneringen, datasynthese en agentic workflows.

De belangrijkste statistiek: 77,1% op ARC-AGI-2, de benchmark voor nieuwe abstracte redeneringen. Dat is meer dan het dubbele van de 31,1% van Gemini 3 Pro, en aanzienlijk hoger dan zowel Opus 4.6 (68,8%) als GPT-5.2 (52,9%). VentureBeat noemt het "een Deep Think Mini met aanpasbaar redeneervermogen op aanvraag."

Volledig overzicht van benchmarks

Waar Gemini 3.1 Pro leidt (13 van de 16 benchmarks)

Benchmark	Wat het test	Gemini 3.1 Pro	Beste concurrent
ARC-AGI-2	Nieuwe redeneringen	77,1%	Opus 4.6: 68,8%
GPQA Diamond	Wetenschappelijk (graduaat)	94,3%	GPT-5.2: 92,4%
BrowseComp	Agentic webzoekopdrachten	85,9%	Opus 4.6: 84,0%
Terminal-Bench 2.0	Terminal-coderen	68,5%	Opus 4.6: 65,4%
APEX-Agents	Agent-capaciteiten	33,5%	Opus 4.6: 29,8%
MCP Atlas	Tool-gebruik	69,2%	—
t2-bench Telecom	Domeinspecifiek	99,3%	—
SWE-bench Verified	Coderen	80,6%	Opus 4.6: 80,8%
MRCR v2	Lange context	84,9%	Sonnet 4.6: 84,9% (gelijkspel)

Waar concurrenten nog steeds winnen

Benchmark	Wat het test	Winnaar	Gemini 3.1 Pro
GDPval-AA (Elo)	Kantoortaken	Sonnet 4.6: 1633	Niet bekendgemaakt
Terminal-Bench 2.0	Zwaar terminal-coderen	GPT-5.3-Codex: 77,3%	68,5%
SWE-Bench Pro	Geavanceerd coderen	GPT-5.3-Codex: 56,8%	Niet bekendgemaakt
OSWorld	Computergebruik	Sonnet 4.6: 72,5%	Niet getest

De sprong in redeneervermogen in context

ARC-AGI-2 meet het vermogen van een model om problemen op te lossen die het nog nooit eerder heeft gezien — puur abstract redeneren, geen patroonherkenning uit trainingsdata. Hier ziet u hoe snel Gemini verbeterde:

Model	ARC-AGI-2	Datum
Gemini 3 Pro	31,1%	Nov 2025
GPT-5.2	52,9%	Dec 2025
Claude Opus 4.6	68,8%	Feb 2026
Gemini 3.1 Pro	77,1%	Feb 2026

Gemini 3.1 Pro sprong van 31,1% naar 77,1% in één versie — een verbetering van 148%. Dit komt door het integreren van de uitgebreide redeneertechnieken van Deep Think in het basismodel.

Wat er is veranderd t.o.v. Gemini 3 Pro

1. Deep Think-integratie

Gemini 3 Deep Think was een apart, trager model dat was geoptimaliseerd voor uitgebreid redeneren. Gemini 3.1 Pro verwerkt die technieken in het standaardmodel, met een aanpasbare redeneerdiepte. Je krijgt redeneringen op Deep Think-niveau zonder de latentie van Deep Think voor de meeste taken.

2. Drastisch beter redeneervermogen

De cijfers spreken voor zich:

Benchmark	Gemini 3 Pro	Gemini 3.1 Pro	Verbetering
ARC-AGI-2	31,1%	77,1%	+148%
GPQA Diamond	~88%	94,3%	+7%
APEX-Agents	18,4%	33,5%	+82%

3. Betere agentic-prestaties

De scores voor APEX-Agents (33,5%) and MCP Atlas (69,2%) tonen aan dat Gemini 3.1 Pro aanzienlijk capabeler is als autonome agent — tool-gebruik, meerstapsplanning en zelfcorrectie zijn allemaal verbeterd.

4. Behoud van multimodale kracht

Gemini 3.1 Pro behoudt het kernvoordeel van Gemini: native multimodale verwerking van tekst, afbeeldingen, audio en video binnen één enkele context. Geen enkel ander frontier-model evenaart deze breedte tegen dit prijspunt.

Prijzen

Dezelfde prijs als Gemini 3 Pro — een gratis upgrade:

Contextgrootte	Input (per M tokens)	Output (per M tokens)
≤200K tokens	$2,00	$12,00
>200K tokens	$4,00	$18,00

Vergelijking met concurrenten

Model	Input	Output	Relatieve kosten
Gemini 3.1 Pro	$2,00	$12,00	1x
Claude Sonnet 4.6	$3,00	$15,00	1,5x
GPT-5.2	$5,00	$15,00	2,0x (input)
Claude Opus 4.6	$15,00	$75,00	7,5x

Gemini 3.1 Pro is het goedkoopste frontier-model — 33% goedkoper dan Sonnet 4.6 op input en 20% goedkoper op output.

Kosten per sessie (100K in + 20K out)

Model	Kosten
Gemini 3.1 Pro	$0,44
Claude Sonnet 4.6	$0,60
GPT-5.2	$0,80
Claude Opus 4.6	$3,00

Aanvullende kostenoptimalisatie:

Batch-modus: 50% korting ($0,22/sessie)

Context-caching: Gecachte input-reads kosten 10% van de basisprijs

Beschikbaarheid

Waar te gebruiken

Platform	Status	Model ID
Gemini App (consument)	Wordt uitgerold	Automatisch geselecteerd
Google AI Studio	Nu beschikbaar	`gemini-3.1-pro-preview`
Vertex AI	Nu beschikbaar	`gemini-3.1-pro-preview`
Gemini API	Nu beschikbaar	`gemini-3.1-pro-preview`
Gemini CLI	Nu beschikbaar	`gemini-3.1-pro-preview`
Antigravity	Nu beschikbaar	Automatisch geselecteerd
Android Studio	Nu beschikbaar	Automatisch geselecteerd
GitHub Copilot	Publieke preview	Selecteerbaar
NotebookLM	Pro/Ultra-abonnees	Automatisch geselecteerd

Snel aan de slag met de API

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Custom Tools-endpoint

Google lanceerde ook een gespecialiseerd endpoint voor betere tool-prestaties:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Gebruik dit endpoint bij het bouwen van agents die zwaar leunen op function calling en tool-gebruik.

Wat dit betekent

De redeneerwedloop laait op

Drie frontier-modellen uitgebracht in 13 dagen:

6 feb: Claude Opus 4.6 (Anthropic)

17 feb: Claude Sonnet 4.6 (Anthropic)

19 feb: Gemini 3.1 Pro (Google)

Elk model claimt leiderschap op verschillende gebieden. Het modellandschap fragmenteert — er is niet langer één enkel model dat alles domineert.

Beste redeneervermogen in zijn klasse tegen budgetprijzen

De 77,1% van Gemini 3.1 Pro op ARC-AGI-2 is de hoogste redeneerscore die beschikbaar is, tegen de laagste prijs ($2/$12). Voor taken die vragen om nieuwe probleemoplossing, abstract redeneren of wetenschappelijke analyse, is dit de overduidelijke keuze.

Gelijkheid in coderen

Met 80,6% op SWE-bench (tegenover 80,8% voor Opus 4.6 en 79,6% voor Sonnet 4.6), is Gemini 3.1 Pro voor het eerst concurrerend op het gebied van coderen. Vorige Gemini-modellen liepen op deze benchmark aanzienlijk achter op Claude.

Het ontbrekende stukje: Computergebruik

Gemini 3.1 Pro is niet getest op OSWorld (computergebruik). Claude Sonnet 4.6 leidt op dit gebied met 72,5%. Als uw workflow browserautomatisering, het invullen van formulieren of desktopbesturing omvat, blijft Claude de enige levensvatbare optie.

Voor ontwikkelaars die producten bouwen

De praktische implicaties:

Goedkoopste redeneervermogen: $0,44/sessie vs $0,60 (Sonnet) vs $0,80 (GPT-5.2)

Beste voor wetenschappelijke/analytische taken: 94,3% GPQA Diamond is de hoogste beschikbare score

Concurrerend in coderen: 80,6% SWE-bench dicht het gat met Claude

Multimodaal voordeel: Native video- en audioverwerking die Claude en GPT niet evenaren

Preview-status: Nog niet GA — verwacht verbeteringen vóór de algemene beschikbaarheid

Bouwen met AI? Y Build integreert met je favoriete AI-tools voor ontwikkeling en beheert vervolgens de implementatie, Demo Cut-productvideo's, AI SEO en analytics — de volledige stack van code tot groei. Gratis starten.

Bronnen:

TL;DR

Google bracht Gemini 3.1 Pro (preview) uit op 19 februari 2026. De belangrijkste cijfers:

ARC-AGI-2: 77,1% — meer dan het dubbele van Gemini 3 Pro (31,1%), verslaat Opus 4.6 (68,8%) en GPT-5.2 (52,9%)
GPQA Diamond: 94,3% — leidt alle modellen op wetenschappelijk niveau voor afgestudeerden
SWE-bench: 80,6% — evenaart Opus 4.6 (80,8%) op het gebied van coderen
Prijs: $2/$12 per M tokens — goedkoopste frontier-model
1M token context — ongewijzigd ten opzichte van Gemini 3 Pro
Leidt op 13 van de 16 benchmarks die door Google zijn geëvalueerd
Nu beschikbaar in preview: AI Studio, Vertex AI, Gemini CLI, Gemini app

Wat Google aankondigde

Het blog van Google beschrijft het model als ontworpen voor "taken waarbij een simpel antwoord niet volstaat" — complexe meerstapsredeneringen, datasynthese en agentic workflows.

Volledig overzicht van benchmarks

Waar Gemini 3.1 Pro leidt (13 van de 16 benchmarks)

Benchmark	Wat het test	Gemini 3.1 Pro	Beste concurrent
ARC-AGI-2	Nieuwe redeneringen	77,1%	Opus 4.6: 68,8%
GPQA Diamond	Wetenschappelijk (graduaat)	94,3%	GPT-5.2: 92,4%
BrowseComp	Agentic webzoekopdrachten	85,9%	Opus 4.6: 84,0%
Terminal-Bench 2.0	Terminal-coderen	68,5%	Opus 4.6: 65,4%
APEX-Agents	Agent-capaciteiten	33,5%	Opus 4.6: 29,8%
MCP Atlas	Tool-gebruik	69,2%	—
t2-bench Telecom	Domeinspecifiek	99,3%	—
SWE-bench Verified	Coderen	80,6%	Opus 4.6: 80,8%
MRCR v2	Lange context	84,9%	Sonnet 4.6: 84,9% (gelijkspel)

Waar concurrenten nog steeds winnen

Benchmark	Wat het test	Winnaar	Gemini 3.1 Pro
GDPval-AA (Elo)	Kantoortaken	Sonnet 4.6: 1633	Niet bekendgemaakt
Terminal-Bench 2.0	Zwaar terminal-coderen	GPT-5.3-Codex: 77,3%	68,5%
SWE-Bench Pro	Geavanceerd coderen	GPT-5.3-Codex: 56,8%	Niet bekendgemaakt
OSWorld	Computergebruik	Sonnet 4.6: 72,5%	Niet getest

De sprong in redeneervermogen in context

Model	ARC-AGI-2	Datum
Gemini 3 Pro	31,1%	Nov 2025
GPT-5.2	52,9%	Dec 2025
Claude Opus 4.6	68,8%	Feb 2026
Gemini 3.1 Pro	77,1%	Feb 2026

Gemini 3.1 Pro sprong van 31,1% naar 77,1% in één versie — een verbetering van 148%. Dit komt door het integreren van de uitgebreide redeneertechnieken van Deep Think in het basismodel.

Wat er is veranderd t.o.v. Gemini 3 Pro

1. Deep Think-integratie

2. Drastisch beter redeneervermogen

De cijfers spreken voor zich:

Benchmark	Gemini 3 Pro	Gemini 3.1 Pro	Verbetering
ARC-AGI-2	31,1%	77,1%	+148%
GPQA Diamond	~88%	94,3%	+7%
APEX-Agents	18,4%	33,5%	+82%

3. Betere agentic-prestaties

4. Behoud van multimodale kracht

Prijzen

Dezelfde prijs als Gemini 3 Pro — een gratis upgrade:

Contextgrootte	Input (per M tokens)	Output (per M tokens)
≤200K tokens	$2,00	$12,00
>200K tokens	$4,00	$18,00

Vergelijking met concurrenten

Model	Input	Output	Relatieve kosten
Gemini 3.1 Pro	$2,00	$12,00	1x
Claude Sonnet 4.6	$3,00	$15,00	1,5x
GPT-5.2	$5,00	$15,00	2,0x (input)
Claude Opus 4.6	$15,00	$75,00	7,5x

Gemini 3.1 Pro is het goedkoopste frontier-model — 33% goedkoper dan Sonnet 4.6 op input en 20% goedkoper op output.

Kosten per sessie (100K in + 20K out)

Model	Kosten
Gemini 3.1 Pro	$0,44
Claude Sonnet 4.6	$0,60
GPT-5.2	$0,80
Claude Opus 4.6	$3,00

Aanvullende kostenoptimalisatie:

Batch-modus: 50% korting ($0,22/sessie)

Context-caching: Gecachte input-reads kosten 10% van de basisprijs

Beschikbaarheid

Waar te gebruiken

Platform	Status	Model ID
Gemini App (consument)	Wordt uitgerold	Automatisch geselecteerd
Google AI Studio	Nu beschikbaar	`gemini-3.1-pro-preview`
Vertex AI	Nu beschikbaar	`gemini-3.1-pro-preview`
Gemini API	Nu beschikbaar	`gemini-3.1-pro-preview`
Gemini CLI	Nu beschikbaar	`gemini-3.1-pro-preview`
Antigravity	Nu beschikbaar	Automatisch geselecteerd
Android Studio	Nu beschikbaar	Automatisch geselecteerd
GitHub Copilot	Publieke preview	Selecteerbaar
NotebookLM	Pro/Ultra-abonnees	Automatisch geselecteerd

Snel aan de slag met de API

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Custom Tools-endpoint

Google lanceerde ook een gespecialiseerd endpoint voor betere tool-prestaties:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Gebruik dit endpoint bij het bouwen van agents die zwaar leunen op function calling en tool-gebruik.

Wat dit betekent

De redeneerwedloop laait op

Drie frontier-modellen uitgebracht in 13 dagen:

6 feb: Claude Opus 4.6 (Anthropic)

17 feb: Claude Sonnet 4.6 (Anthropic)

19 feb: Gemini 3.1 Pro (Google)

Elk model claimt leiderschap op verschillende gebieden. Het modellandschap fragmenteert — er is niet langer één enkel model dat alles domineert.

Beste redeneervermogen in zijn klasse tegen budgetprijzen

Gelijkheid in coderen

Het ontbrekende stukje: Computergebruik

Voor ontwikkelaars die producten bouwen

De praktische implicaties:

Goedkoopste redeneervermogen: $0,44/sessie vs $0,60 (Sonnet) vs $0,80 (GPT-5.2)

Beste voor wetenschappelijke/analytische taken: 94,3% GPQA Diamond is de hoogste beschikbare score

Concurrerend in coderen: 80,6% SWE-bench dicht het gat met Claude

Multimodaal voordeel: Native video- en audioverwerking die Claude en GPT niet evenaren

Preview-status: Nog niet GA — verwacht verbeteringen vóór de algemene beschikbaarheid

Bronnen: