Gemini 3.1 Pro: Googles spring inden for ræsonnement forklaret
Google udgav Gemini 3.1 Pro den 19. februar 2026 — med en score på 77,1 % på ARC-AGI-2, hvilket er mere end en fordobling af Gemini 3 Pro. Komplet benchmark-gennemgang, priser ($2/$12 pr. M tokens), tilgængelighed, og hvad det betyder for udviklere.
Kort opsummeret (TL;DR)
Google udgav Gemini 3.1 Pro (preview) den 19. februar 2026. De vigtigste tal:
- ARC-AGI-2: 77,1 % — mere end det dobbelte af Gemini 3 Pro (31,1 %), slår Opus 4.6 (68,8 %) og GPT-5.2 (52,9 %)
- GPQA Diamond: 94,3 % — fører over alle modeller inden for videnskab på kandidatniveau
- SWE-bench: 80,6 % — matcher Opus 4.6 (80,8 %) på kodning
- Pris: $2/$12 pr. M tokens — billigste frontier-model
- 1M token kontekst — uændret fra Gemini 3 Pro
- Fører på 13 ud af 16 benchmarks evalueret af Google
- Tilgængelig nu i preview: AI Studio, Vertex AI, Gemini CLI, Gemini app
Hvad Google annoncerede
Den 19. februar 2026 udgav Google Gemini 3.1 Pro — den første ".1" opdatering i deres model-versionering. Den bygger på Gemini 3 Pro (november 2025) ved at integrere teknikker fra Gemini 3 Deep Think-serien i en mere tilgængelig og hurtigere model.
Googles blog beskriver den som designet til "opgaver, hvor et simpelt svar ikke er nok" — kompleks flertrins-ræsonnement, datasyntese og agentbaserede workflows.
Hovedstatistikken: 77,1 % på ARC-AGI-2, benchmarken for ny abstrakt ræsonnement. Det er mere end det dobbelte af Gemini 3 Pros 31,1 % og betydeligt foran både Opus 4.6 (68,8 %) og GPT-5.2 (52,9 %). VentureBeat kalder den "en Deep Think Mini med justerbart ræsonnement efter behov."
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Komplet benchmark-gennemgang
Her fører Gemini 3.1 Pro (13 ud af 16 benchmarks)
| Benchmark | Hvad den tester | Gemini 3.1 Pro | Bedste konkurrent |
|---|---|---|---|
| ARC-AGI-2 | Ny ræsonnement | 77,1 % | Opus 4.6: 68,8 % |
| GPQA Diamond | Videnskab (kandidatniveau) | 94,3 % | GPT-5.2: 92,4 % |
| BrowseComp | Agentbaseret websøgning | 85,9 % | Opus 4.6: 84,0 % |
| Terminal-Bench 2.0 | Terminal-kodning | 68,5 % | Opus 4.6: 65,4 % |
| APEX-Agents | Agent-kapaciteter | 33,5 % | Opus 4.6: 29,8 % |
| MCP Atlas | Brug af værktøjer | 69,2 % | — |
| t2-bench Telecom | Domænespecifik | 99,3 % | — |
| SWE-bench Verified | Kodning | 80,6 % | Opus 4.6: 80,8 % |
| MRCR v2 | Lang kontekst | 84,9 % | Sonnet 4.6: 84,9 % (uafgjort) |
Her vinder konkurrenterne stadig
| Benchmark | Hvad den tester | Vinder | Gemini 3.1 Pro |
|---|---|---|---|
| GDPval-AA (Elo) | Kontoropgaver | Sonnet 4.6: 1633 | Ikke oplyst |
| Terminal-Bench 2.0 | Tung terminal-kodning | GPT-5.3-Codex: 77,3 % | 68,5 % |
| SWE-Bench Pro | Avanceret kodning | GPT-5.3-Codex: 56,8 % | Ikke oplyst |
| OSWorld | Brug af computer | Sonnet 4.6: 72,5 % | Ikke benchmarked |
Ræsonnementsspringet i kontekst
ARC-AGI-2 måler en models evne til at løse problemer, den aldrig har set før — ren abstrakt ræsonnement, ikke mønstergenkendelse fra træningsdata. Her ses det, hvor hurtigt Gemini forbedrede sig:
| Model | ARC-AGI-2 | Dato |
|---|---|---|
| Gemini 3 Pro | 31,1 % | Nov 2025 |
| GPT-5.2 | 52,9 % | Dec 2025 |
| Claude Opus 4.6 | 68,8 % | Feb 2026 |
| Gemini 3.1 Pro | 77,1 % | Feb 2026 |
Gemini 3.1 Pro hoppede fra 31,1 % til 77,1 % i én version — en forbedring på 148 %. Dette skyldes integrationen af Deep Thinks udvidede ræsonnementsteknikker i basismodellen.
Hvad er ændret i forhold til Gemini 3 Pro
1. Deep Think-integration
Gemini 3 Deep Think var en separat, langsommere model optimeret til udvidet ræsonnement. Gemini 3.1 Pro bager disse teknikker ind i standardmodellen med justerbar ræsonnementsdybde. Du får ræsonnement på Deep Think-niveau uden Deep Think-latens for de fleste opgaver.
2. Dramatisk bedre ræsonnement
Tallene taler for sig selv:
| Benchmark | Gemini 3 Pro | Gemini 3.1 Pro | Forbedring |
|---|---|---|---|
| ARC-AGI-2 | 31,1 % | 77,1 % | +148 % |
| GPQA Diamond | ~88 % | 94,3 % | +7 % |
| APEX-Agents | 18,4 % | 33,5 % | +82 % |
3. Bedre agent-ydeevne
APEX-Agents (33,5 %) og MCP Atlas (69,2 %) scorerne viser, at Gemini 3.1 Pro er betydeligt mere kapabel som en autonom agent — brug af værktøjer, flertrins-planlægning og selvkorrektion er alt sammen forbedret.
4. Bibeholdt multimodal styrke
Gemini 3.1 Pro bevarer Geminis kernefordel: indfødt multimodal behandling af tekst, billeder, lyd og video inden for en enkelt kontekst. Ingen anden frontier-model matcher denne bredde til dette prispunkt.
Priser
Samme pris som Gemini 3 Pro — en gratis opgradering:
| Kontekststørrelse | Input (pr. M tokens) | Output (pr. M tokens) |
|---|---|---|
| ≤200K tokens | $2,00 | $12,00 |
| >200K tokens | $4,00 | $18,00 |
Sammenligning med konkurrenter
| Model | Input | Output | Relativ pris |
|---|---|---|---|
| Gemini 3.1 Pro | $2,00 | $12,00 | 1x |
| Claude Sonnet 4.6 | $3,00 | $15,00 | 1,5x |
| GPT-5.2 | $5,00 | $15,00 | 2,0x (input) |
| Claude Opus 4.6 | $15,00 | $75,00 | 7,5x |
Gemini 3.1 Pro er den billigste frontier-model — 33 % billigere end Sonnet 4.6 på input og 20 % billigere på output.
Pris pr. session (100K ind + 20K ud)
| Model | Pris |
|---|---|
| Gemini 3.1 Pro | $0,44 |
| Claude Sonnet 4.6 | $0,60 |
| GPT-5.2 | $0,80 |
| Claude Opus 4.6 | $3,00 |
Yderligere prisoptimering:
- Batch-tilstand: 50 % rabat ($0,22/session)
- Kontekst-caching: Cachede input-læsninger koster 10 % af basisprisen
Tilgængelighed
Her kan den bruges
| Platform | Status | Model-ID |
|---|---|---|
| Gemini App (forbruger) | Rulles ud | Vælges automatisk |
| Google AI Studio | Tilgængelig nu | gemini-3.1-pro-preview |
| Vertex AI | Tilgængelig nu | gemini-3.1-pro-preview |
| Gemini API | Tilgængelig nu | gemini-3.1-pro-preview |
| Gemini CLI | Tilgængelig nu | gemini-3.1-pro-preview |
| Antigravity | Tilgængelig nu | Vælges automatisk |
| Android Studio | Tilgængelig nu | Vælges automatisk |
| GitHub Copilot | Offentlig preview | Kan vælges |
| NotebookLM | Pro/Ultra-abonnenter | Vælges automatisk |
API Quick Start
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")
response = model.generate_content("Dit prompt her")
print(response.text)
Custom Tools Endpoint
Google lancerede også et specialiseret endpoint for bedre værktøjs-ydeevne:
model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")
Brug dette endpoint, når du bygger agenter, der læner sig tungt op ad funktionskald og brug af værktøjer.
Hvad det betyder
Kapløbet om ræsonnement spidser til
Tre frontier-modeller udgivet på 13 dage:
- 6. feb: Claude Opus 4.6 (Anthropic)
- 17. feb: Claude Sonnet 4.6 (Anthropic)
- 19. feb: Gemini 3.1 Pro (Google)
Hver især gør de krav på førerpositionen inden for forskellige områder. Modellandskabet fragmenteres — ingen enkelt model dominerer alt længere.
Bedst-i-klassen ræsonnement til budgetpris
Gemini 3.1 Pros 77,1 % på ARC-AGI-2 er den højeste ræsonnementsscore til rådighed til den laveste pris ($2/$12). Til opgaver, der kræver ny problemløsning, abstrakt ræsonnement eller videnskabelig analyse, er det det oplagte valg.
Kodning på niveau med de bedste
Med 80,6 % på SWE-bench (mod Opus 4.6's 80,8 % og Sonnet 4.6's 79,6 %) er Gemini 3.1 Pro nu for første gang konkurrencedygtig på kodning. Tidligere Gemini-modeller lå betydeligt efter Claude på denne benchmark.
Den manglende brik: Brug af computer
Gemini 3.1 Pro er ikke benchmarked på OSWorld (brug af computer). Claude Sonnet 4.6 fører med 72,5 % på denne kapacitet. Hvis din workflow involverer browser-automatisering, udfyldning af formularer eller kontrol af skrivebordet, forbliver Claude den eneste levedygtige mulighed.
Til udviklere, der bygger produkter
De praktiske implikationer:
- Billigste ræsonnement: $0,44/session mod $0,60 (Sonnet) mod $0,80 (GPT-5.2)
- Bedst til videnskabelige/analytiske opgaver: 94,3 % GPQA Diamond er den højeste score til rådighed
- Konkurrencedygtig på kodning: 80,6 % SWE-bench lukker hullet til Claude
- Multimodal fordel: Indfødt video/lyd-behandling, som Claude og GPT ikke matcher
- Preview-status: Ikke generelt tilgængelig (GA) endnu — forvent forbedringer før endelig lancering
Bygger du med AI? Y Build integreres med dine foretrukne AI-værktøjer til udvikling og håndterer derefter udrulning, Demo Cut produktvideoer, AI SEO og analyse — hele stakken fra kode til vækst. Start gratis.
Kilder:
- Google Blog: Gemini 3.1 Pro announcement
- Google DeepMind: Gemini 3.1 Pro Model Card
- 9to5Google: Gemini 3.1 Pro for complex problem-solving
- VentureBeat: Gemini 3.1 Pro first impressions
- MarkTechPost: Gemini 3.1 Pro 77.1% ARC-AGI-2
- OfficeChai: Gemini 3.1 Pro Benchmarks
- GitHub Blog: Gemini 3.1 Pro in GitHub Copilot
- The Decoder: Gemini 3.1 Pro reasoning
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.