Gemini 3.1 Pro: Google's sprong in redeneervermogen uitgelegd
Google bracht Gemini 3.1 Pro uit op 19 februari 2026 — met een score van 77,1% op ARC-AGI-2, meer dan een verdubbeling van Gemini 3 Pro. Volledig overzicht van benchmarks, prijzen ($2/$12 per M tokens), beschikbaarheid en wat het betekent voor ontwikkelaars.
TL;DR
Google bracht Gemini 3.1 Pro (preview) uit op 19 februari 2026. De belangrijkste cijfers:
- ARC-AGI-2: 77,1% — meer dan het dubbele van Gemini 3 Pro (31,1%), verslaat Opus 4.6 (68,8%) en GPT-5.2 (52,9%)
- GPQA Diamond: 94,3% — leidt alle modellen op wetenschappelijk niveau voor afgestudeerden
- SWE-bench: 80,6% — evenaart Opus 4.6 (80,8%) op het gebied van coderen
- Prijs: $2/$12 per M tokens — goedkoopste frontier-model
- 1M token context — ongewijzigd ten opzichte van Gemini 3 Pro
- Leidt op 13 van de 16 benchmarks die door Google zijn geëvalueerd
- Nu beschikbaar in preview: AI Studio, Vertex AI, Gemini CLI, Gemini app
Wat Google aankondigde
Op 19 februari 2026 lanceerde Google Gemini 3.1 Pro — de eerste ".1"-stap in hun modelversiebeheer. Het bouwt voort op Gemini 3 Pro (november 2025) door technieken uit de Gemini 3 Deep Think-serie te integreren in een toegankelijker en sneller model.
Het blog van Google beschrijft het model als ontworpen voor "taken waarbij een simpel antwoord niet volstaat" — complexe meerstapsredeneringen, datasynthese en agentic workflows.
De belangrijkste statistiek: 77,1% op ARC-AGI-2, de benchmark voor nieuwe abstracte redeneringen. Dat is meer dan het dubbele van de 31,1% van Gemini 3 Pro, en aanzienlijk hoger dan zowel Opus 4.6 (68,8%) als GPT-5.2 (52,9%). VentureBeat noemt het "een Deep Think Mini met aanpasbaar redeneervermogen op aanvraag."
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Volledig overzicht van benchmarks
Waar Gemini 3.1 Pro leidt (13 van de 16 benchmarks)
| Benchmark | Wat het test | Gemini 3.1 Pro | Beste concurrent |
|---|---|---|---|
| ARC-AGI-2 | Nieuwe redeneringen | 77,1% | Opus 4.6: 68,8% |
| GPQA Diamond | Wetenschappelijk (graduaat) | 94,3% | GPT-5.2: 92,4% |
| BrowseComp | Agentic webzoekopdrachten | 85,9% | Opus 4.6: 84,0% |
| Terminal-Bench 2.0 | Terminal-coderen | 68,5% | Opus 4.6: 65,4% |
| APEX-Agents | Agent-capaciteiten | 33,5% | Opus 4.6: 29,8% |
| MCP Atlas | Tool-gebruik | 69,2% | — |
| t2-bench Telecom | Domeinspecifiek | 99,3% | — |
| SWE-bench Verified | Coderen | 80,6% | Opus 4.6: 80,8% |
| MRCR v2 | Lange context | 84,9% | Sonnet 4.6: 84,9% (gelijkspel) |
Waar concurrenten nog steeds winnen
| Benchmark | Wat het test | Winnaar | Gemini 3.1 Pro |
|---|---|---|---|
| GDPval-AA (Elo) | Kantoortaken | Sonnet 4.6: 1633 | Niet bekendgemaakt |
| Terminal-Bench 2.0 | Zwaar terminal-coderen | GPT-5.3-Codex: 77,3% | 68,5% |
| SWE-Bench Pro | Geavanceerd coderen | GPT-5.3-Codex: 56,8% | Niet bekendgemaakt |
| OSWorld | Computergebruik | Sonnet 4.6: 72,5% | Niet getest |
De sprong in redeneervermogen in context
ARC-AGI-2 meet het vermogen van een model om problemen op te lossen die het nog nooit eerder heeft gezien — puur abstract redeneren, geen patroonherkenning uit trainingsdata. Hier ziet u hoe snel Gemini verbeterde:
| Model | ARC-AGI-2 | Datum |
|---|---|---|
| Gemini 3 Pro | 31,1% | Nov 2025 |
| GPT-5.2 | 52,9% | Dec 2025 |
| Claude Opus 4.6 | 68,8% | Feb 2026 |
| Gemini 3.1 Pro | 77,1% | Feb 2026 |
Gemini 3.1 Pro sprong van 31,1% naar 77,1% in één versie — een verbetering van 148%. Dit komt door het integreren van de uitgebreide redeneertechnieken van Deep Think in het basismodel.
Wat er is veranderd t.o.v. Gemini 3 Pro
1. Deep Think-integratie
Gemini 3 Deep Think was een apart, trager model dat was geoptimaliseerd voor uitgebreid redeneren. Gemini 3.1 Pro verwerkt die technieken in het standaardmodel, met een aanpasbare redeneerdiepte. Je krijgt redeneringen op Deep Think-niveau zonder de latentie van Deep Think voor de meeste taken.
2. Drastisch beter redeneervermogen
De cijfers spreken voor zich:
| Benchmark | Gemini 3 Pro | Gemini 3.1 Pro | Verbetering |
|---|---|---|---|
| ARC-AGI-2 | 31,1% | 77,1% | +148% |
| GPQA Diamond | ~88% | 94,3% | +7% |
| APEX-Agents | 18,4% | 33,5% | +82% |
3. Betere agentic-prestaties
De scores voor APEX-Agents (33,5%) and MCP Atlas (69,2%) tonen aan dat Gemini 3.1 Pro aanzienlijk capabeler is als autonome agent — tool-gebruik, meerstapsplanning en zelfcorrectie zijn allemaal verbeterd.
4. Behoud van multimodale kracht
Gemini 3.1 Pro behoudt het kernvoordeel van Gemini: native multimodale verwerking van tekst, afbeeldingen, audio en video binnen één enkele context. Geen enkel ander frontier-model evenaart deze breedte tegen dit prijspunt.
Prijzen
Dezelfde prijs als Gemini 3 Pro — een gratis upgrade:
| Contextgrootte | Input (per M tokens) | Output (per M tokens) |
|---|---|---|
| ≤200K tokens | $2,00 | $12,00 |
| >200K tokens | $4,00 | $18,00 |
Vergelijking met concurrenten
| Model | Input | Output | Relatieve kosten |
|---|---|---|---|
| Gemini 3.1 Pro | $2,00 | $12,00 | 1x |
| Claude Sonnet 4.6 | $3,00 | $15,00 | 1,5x |
| GPT-5.2 | $5,00 | $15,00 | 2,0x (input) |
| Claude Opus 4.6 | $15,00 | $75,00 | 7,5x |
Gemini 3.1 Pro is het goedkoopste frontier-model — 33% goedkoper dan Sonnet 4.6 op input en 20% goedkoper op output.
Kosten per sessie (100K in + 20K out)
| Model | Kosten |
|---|---|
| Gemini 3.1 Pro | $0,44 |
| Claude Sonnet 4.6 | $0,60 |
| GPT-5.2 | $0,80 |
| Claude Opus 4.6 | $3,00 |
Aanvullende kostenoptimalisatie:
- Batch-modus: 50% korting ($0,22/sessie)
- Context-caching: Gecachte input-reads kosten 10% van de basisprijs
Beschikbaarheid
Waar te gebruiken
| Platform | Status | Model ID |
|---|---|---|
| Gemini App (consument) | Wordt uitgerold | Automatisch geselecteerd |
| Google AI Studio | Nu beschikbaar | gemini-3.1-pro-preview |
| Vertex AI | Nu beschikbaar | gemini-3.1-pro-preview |
| Gemini API | Nu beschikbaar | gemini-3.1-pro-preview |
| Gemini CLI | Nu beschikbaar | gemini-3.1-pro-preview |
| Antigravity | Nu beschikbaar | Automatisch geselecteerd |
| Android Studio | Nu beschikbaar | Automatisch geselecteerd |
| GitHub Copilot | Publieke preview | Selecteerbaar |
| NotebookLM | Pro/Ultra-abonnees | Automatisch geselecteerd |
Snel aan de slag met de API
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")
response = model.generate_content("Your prompt here")
print(response.text)
Custom Tools-endpoint
Google lanceerde ook een gespecialiseerd endpoint voor betere tool-prestaties:
model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")
Gebruik dit endpoint bij het bouwen van agents die zwaar leunen op function calling en tool-gebruik.
Wat dit betekent
De redeneerwedloop laait op
Drie frontier-modellen uitgebracht in 13 dagen:
- 6 feb: Claude Opus 4.6 (Anthropic)
- 17 feb: Claude Sonnet 4.6 (Anthropic)
- 19 feb: Gemini 3.1 Pro (Google)
Elk model claimt leiderschap op verschillende gebieden. Het modellandschap fragmenteert — er is niet langer één enkel model dat alles domineert.
Beste redeneervermogen in zijn klasse tegen budgetprijzen
De 77,1% van Gemini 3.1 Pro op ARC-AGI-2 is de hoogste redeneerscore die beschikbaar is, tegen de laagste prijs ($2/$12). Voor taken die vragen om nieuwe probleemoplossing, abstract redeneren of wetenschappelijke analyse, is dit de overduidelijke keuze.
Gelijkheid in coderen
Met 80,6% op SWE-bench (tegenover 80,8% voor Opus 4.6 en 79,6% voor Sonnet 4.6), is Gemini 3.1 Pro voor het eerst concurrerend op het gebied van coderen. Vorige Gemini-modellen liepen op deze benchmark aanzienlijk achter op Claude.
Het ontbrekende stukje: Computergebruik
Gemini 3.1 Pro is niet getest op OSWorld (computergebruik). Claude Sonnet 4.6 leidt op dit gebied met 72,5%. Als uw workflow browserautomatisering, het invullen van formulieren of desktopbesturing omvat, blijft Claude de enige levensvatbare optie.
Voor ontwikkelaars die producten bouwen
De praktische implicaties:
- Goedkoopste redeneervermogen: $0,44/sessie vs $0,60 (Sonnet) vs $0,80 (GPT-5.2)
- Beste voor wetenschappelijke/analytische taken: 94,3% GPQA Diamond is de hoogste beschikbare score
- Concurrerend in coderen: 80,6% SWE-bench dicht het gat met Claude
- Multimodaal voordeel: Native video- en audioverwerking die Claude en GPT niet evenaren
- Preview-status: Nog niet GA — verwacht verbeteringen vóór de algemene beschikbaarheid
Bouwen met AI? Y Build integreert met je favoriete AI-tools voor ontwikkeling en beheert vervolgens de implementatie, Demo Cut-productvideo's, AI SEO en analytics — de volledige stack van code tot groei. Gratis starten.
Bronnen:
- Google Blog: Gemini 3.1 Pro announcement
- Google DeepMind: Gemini 3.1 Pro Model Card
- 9to5Google: Gemini 3.1 Pro for complex problem-solving
- VentureBeat: Gemini 3.1 Pro first impressions
- MarkTechPost: Gemini 3.1 Pro 77.1% ARC-AGI-2
- OfficeChai: Gemini 3.1 Pro Benchmarks
- GitHub Blog: Gemini 3.1 Pro in GitHub Copilot
- The Decoder: Gemini 3.1 Pro reasoning
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.