Gemini 3.1 Pro: Googles spring inden for ræsonnement forklaret

Kort opsummeret (TL;DR)

Google udgav Gemini 3.1 Pro (preview) den 19. februar 2026. De vigtigste tal:

ARC-AGI-2: 77,1 % — mere end det dobbelte af Gemini 3 Pro (31,1 %), slår Opus 4.6 (68,8 %) og GPT-5.2 (52,9 %)
GPQA Diamond: 94,3 % — fører over alle modeller inden for videnskab på kandidatniveau
SWE-bench: 80,6 % — matcher Opus 4.6 (80,8 %) på kodning
Pris: $2/$12 pr. M tokens — billigste frontier-model
1M token kontekst — uændret fra Gemini 3 Pro
Fører på 13 ud af 16 benchmarks evalueret af Google
Tilgængelig nu i preview: AI Studio, Vertex AI, Gemini CLI, Gemini app

Hvad Google annoncerede

Den 19. februar 2026 udgav Google Gemini 3.1 Pro — den første ".1" opdatering i deres model-versionering. Den bygger på Gemini 3 Pro (november 2025) ved at integrere teknikker fra Gemini 3 Deep Think-serien i en mere tilgængelig og hurtigere model.

Googles blog beskriver den som designet til "opgaver, hvor et simpelt svar ikke er nok" — kompleks flertrins-ræsonnement, datasyntese og agentbaserede workflows.

Hovedstatistikken: 77,1 % på ARC-AGI-2, benchmarken for ny abstrakt ræsonnement. Det er mere end det dobbelte af Gemini 3 Pros 31,1 % og betydeligt foran både Opus 4.6 (68,8 %) og GPT-5.2 (52,9 %). VentureBeat kalder den "en Deep Think Mini med justerbart ræsonnement efter behov."

Komplet benchmark-gennemgang

Her fører Gemini 3.1 Pro (13 ud af 16 benchmarks)

Benchmark	Hvad den tester	Gemini 3.1 Pro	Bedste konkurrent
ARC-AGI-2	Ny ræsonnement	77,1 %	Opus 4.6: 68,8 %
GPQA Diamond	Videnskab (kandidatniveau)	94,3 %	GPT-5.2: 92,4 %
BrowseComp	Agentbaseret websøgning	85,9 %	Opus 4.6: 84,0 %
Terminal-Bench 2.0	Terminal-kodning	68,5 %	Opus 4.6: 65,4 %
APEX-Agents	Agent-kapaciteter	33,5 %	Opus 4.6: 29,8 %
MCP Atlas	Brug af værktøjer	69,2 %	—
t2-bench Telecom	Domænespecifik	99,3 %	—
SWE-bench Verified	Kodning	80,6 %	Opus 4.6: 80,8 %
MRCR v2	Lang kontekst	84,9 %	Sonnet 4.6: 84,9 % (uafgjort)

Her vinder konkurrenterne stadig

Benchmark	Hvad den tester	Vinder	Gemini 3.1 Pro
GDPval-AA (Elo)	Kontoropgaver	Sonnet 4.6: 1633	Ikke oplyst
Terminal-Bench 2.0	Tung terminal-kodning	GPT-5.3-Codex: 77,3 %	68,5 %
SWE-Bench Pro	Avanceret kodning	GPT-5.3-Codex: 56,8 %	Ikke oplyst
OSWorld	Brug af computer	Sonnet 4.6: 72,5 %	Ikke benchmarked

Ræsonnementsspringet i kontekst

ARC-AGI-2 måler en models evne til at løse problemer, den aldrig har set før — ren abstrakt ræsonnement, ikke mønstergenkendelse fra træningsdata. Her ses det, hvor hurtigt Gemini forbedrede sig:

Model	ARC-AGI-2	Dato
Gemini 3 Pro	31,1 %	Nov 2025
GPT-5.2	52,9 %	Dec 2025
Claude Opus 4.6	68,8 %	Feb 2026
Gemini 3.1 Pro	77,1 %	Feb 2026

Gemini 3.1 Pro hoppede fra 31,1 % til 77,1 % i én version — en forbedring på 148 %. Dette skyldes integrationen af Deep Thinks udvidede ræsonnementsteknikker i basismodellen.

Hvad er ændret i forhold til Gemini 3 Pro

1. Deep Think-integration

Gemini 3 Deep Think var en separat, langsommere model optimeret til udvidet ræsonnement. Gemini 3.1 Pro bager disse teknikker ind i standardmodellen med justerbar ræsonnementsdybde. Du får ræsonnement på Deep Think-niveau uden Deep Think-latens for de fleste opgaver.

2. Dramatisk bedre ræsonnement

Tallene taler for sig selv:

Benchmark	Gemini 3 Pro	Gemini 3.1 Pro	Forbedring
ARC-AGI-2	31,1 %	77,1 %	+148 %
GPQA Diamond	~88 %	94,3 %	+7 %
APEX-Agents	18,4 %	33,5 %	+82 %

3. Bedre agent-ydeevne

APEX-Agents (33,5 %) og MCP Atlas (69,2 %) scorerne viser, at Gemini 3.1 Pro er betydeligt mere kapabel som en autonom agent — brug af værktøjer, flertrins-planlægning og selvkorrektion er alt sammen forbedret.

4. Bibeholdt multimodal styrke

Gemini 3.1 Pro bevarer Geminis kernefordel: indfødt multimodal behandling af tekst, billeder, lyd og video inden for en enkelt kontekst. Ingen anden frontier-model matcher denne bredde til dette prispunkt.

Priser

Samme pris som Gemini 3 Pro — en gratis opgradering:

Kontekststørrelse	Input (pr. M tokens)	Output (pr. M tokens)
≤200K tokens	$2,00	$12,00
>200K tokens	$4,00	$18,00

Sammenligning med konkurrenter

Model	Input	Output	Relativ pris
Gemini 3.1 Pro	$2,00	$12,00	1x
Claude Sonnet 4.6	$3,00	$15,00	1,5x
GPT-5.2	$5,00	$15,00	2,0x (input)
Claude Opus 4.6	$15,00	$75,00	7,5x

Gemini 3.1 Pro er den billigste frontier-model — 33 % billigere end Sonnet 4.6 på input og 20 % billigere på output.

Pris pr. session (100K ind + 20K ud)

Model	Pris
Gemini 3.1 Pro	$0,44
Claude Sonnet 4.6	$0,60
GPT-5.2	$0,80
Claude Opus 4.6	$3,00

Yderligere prisoptimering:

Batch-tilstand: 50 % rabat ($0,22/session)

Kontekst-caching: Cachede input-læsninger koster 10 % af basisprisen

Tilgængelighed

Her kan den bruges

Platform	Status	Model-ID
Gemini App (forbruger)	Rulles ud	Vælges automatisk
Google AI Studio	Tilgængelig nu	`gemini-3.1-pro-preview`
Vertex AI	Tilgængelig nu	`gemini-3.1-pro-preview`
Gemini API	Tilgængelig nu	`gemini-3.1-pro-preview`
Gemini CLI	Tilgængelig nu	`gemini-3.1-pro-preview`
Antigravity	Tilgængelig nu	Vælges automatisk
Android Studio	Tilgængelig nu	Vælges automatisk
GitHub Copilot	Offentlig preview	Kan vælges
NotebookLM	Pro/Ultra-abonnenter	Vælges automatisk

API Quick Start

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Dit prompt her")
print(response.text)

Custom Tools Endpoint

Google lancerede også et specialiseret endpoint for bedre værktøjs-ydeevne:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Brug dette endpoint, når du bygger agenter, der læner sig tungt op ad funktionskald og brug af værktøjer.

Hvad det betyder

Kapløbet om ræsonnement spidser til

Tre frontier-modeller udgivet på 13 dage:

6. feb: Claude Opus 4.6 (Anthropic)

17. feb: Claude Sonnet 4.6 (Anthropic)

19. feb: Gemini 3.1 Pro (Google)

Hver især gør de krav på førerpositionen inden for forskellige områder. Modellandskabet fragmenteres — ingen enkelt model dominerer alt længere.

Bedst-i-klassen ræsonnement til budgetpris

Gemini 3.1 Pros 77,1 % på ARC-AGI-2 er den højeste ræsonnementsscore til rådighed til den laveste pris ($2/$12). Til opgaver, der kræver ny problemløsning, abstrakt ræsonnement eller videnskabelig analyse, er det det oplagte valg.

Kodning på niveau med de bedste

Med 80,6 % på SWE-bench (mod Opus 4.6's 80,8 % og Sonnet 4.6's 79,6 %) er Gemini 3.1 Pro nu for første gang konkurrencedygtig på kodning. Tidligere Gemini-modeller lå betydeligt efter Claude på denne benchmark.

Den manglende brik: Brug af computer

Gemini 3.1 Pro er ikke benchmarked på OSWorld (brug af computer). Claude Sonnet 4.6 fører med 72,5 % på denne kapacitet. Hvis din workflow involverer browser-automatisering, udfyldning af formularer eller kontrol af skrivebordet, forbliver Claude den eneste levedygtige mulighed.

Til udviklere, der bygger produkter

De praktiske implikationer:

Billigste ræsonnement: $0,44/session mod $0,60 (Sonnet) mod $0,80 (GPT-5.2)

Bedst til videnskabelige/analytiske opgaver: 94,3 % GPQA Diamond er den højeste score til rådighed

Konkurrencedygtig på kodning: 80,6 % SWE-bench lukker hullet til Claude

Multimodal fordel: Indfødt video/lyd-behandling, som Claude og GPT ikke matcher

Preview-status: Ikke generelt tilgængelig (GA) endnu — forvent forbedringer før endelig lancering

Bygger du med AI? Y Build integreres med dine foretrukne AI-værktøjer til udvikling og håndterer derefter udrulning, Demo Cut produktvideoer, AI SEO og analyse — hele stakken fra kode til vækst. Start gratis.

Kilder:

Kort opsummeret (TL;DR)

Google udgav Gemini 3.1 Pro (preview) den 19. februar 2026. De vigtigste tal:

ARC-AGI-2: 77,1 % — mere end det dobbelte af Gemini 3 Pro (31,1 %), slår Opus 4.6 (68,8 %) og GPT-5.2 (52,9 %)
GPQA Diamond: 94,3 % — fører over alle modeller inden for videnskab på kandidatniveau
SWE-bench: 80,6 % — matcher Opus 4.6 (80,8 %) på kodning
Pris: $2/$12 pr. M tokens — billigste frontier-model
1M token kontekst — uændret fra Gemini 3 Pro
Fører på 13 ud af 16 benchmarks evalueret af Google
Tilgængelig nu i preview: AI Studio, Vertex AI, Gemini CLI, Gemini app

Hvad Google annoncerede

Googles blog beskriver den som designet til "opgaver, hvor et simpelt svar ikke er nok" — kompleks flertrins-ræsonnement, datasyntese og agentbaserede workflows.

Komplet benchmark-gennemgang

Her fører Gemini 3.1 Pro (13 ud af 16 benchmarks)

Benchmark	Hvad den tester	Gemini 3.1 Pro	Bedste konkurrent
ARC-AGI-2	Ny ræsonnement	77,1 %	Opus 4.6: 68,8 %
GPQA Diamond	Videnskab (kandidatniveau)	94,3 %	GPT-5.2: 92,4 %
BrowseComp	Agentbaseret websøgning	85,9 %	Opus 4.6: 84,0 %
Terminal-Bench 2.0	Terminal-kodning	68,5 %	Opus 4.6: 65,4 %
APEX-Agents	Agent-kapaciteter	33,5 %	Opus 4.6: 29,8 %
MCP Atlas	Brug af værktøjer	69,2 %	—
t2-bench Telecom	Domænespecifik	99,3 %	—
SWE-bench Verified	Kodning	80,6 %	Opus 4.6: 80,8 %
MRCR v2	Lang kontekst	84,9 %	Sonnet 4.6: 84,9 % (uafgjort)

Her vinder konkurrenterne stadig

Benchmark	Hvad den tester	Vinder	Gemini 3.1 Pro
GDPval-AA (Elo)	Kontoropgaver	Sonnet 4.6: 1633	Ikke oplyst
Terminal-Bench 2.0	Tung terminal-kodning	GPT-5.3-Codex: 77,3 %	68,5 %
SWE-Bench Pro	Avanceret kodning	GPT-5.3-Codex: 56,8 %	Ikke oplyst
OSWorld	Brug af computer	Sonnet 4.6: 72,5 %	Ikke benchmarked

Ræsonnementsspringet i kontekst

Model	ARC-AGI-2	Dato
Gemini 3 Pro	31,1 %	Nov 2025
GPT-5.2	52,9 %	Dec 2025
Claude Opus 4.6	68,8 %	Feb 2026
Gemini 3.1 Pro	77,1 %	Feb 2026

Gemini 3.1 Pro hoppede fra 31,1 % til 77,1 % i én version — en forbedring på 148 %. Dette skyldes integrationen af Deep Thinks udvidede ræsonnementsteknikker i basismodellen.

Hvad er ændret i forhold til Gemini 3 Pro

1. Deep Think-integration

2. Dramatisk bedre ræsonnement

Tallene taler for sig selv:

Benchmark	Gemini 3 Pro	Gemini 3.1 Pro	Forbedring
ARC-AGI-2	31,1 %	77,1 %	+148 %
GPQA Diamond	~88 %	94,3 %	+7 %
APEX-Agents	18,4 %	33,5 %	+82 %

3. Bedre agent-ydeevne

4. Bibeholdt multimodal styrke

Priser

Samme pris som Gemini 3 Pro — en gratis opgradering:

Kontekststørrelse	Input (pr. M tokens)	Output (pr. M tokens)
≤200K tokens	$2,00	$12,00
>200K tokens	$4,00	$18,00

Sammenligning med konkurrenter

Model	Input	Output	Relativ pris
Gemini 3.1 Pro	$2,00	$12,00	1x
Claude Sonnet 4.6	$3,00	$15,00	1,5x
GPT-5.2	$5,00	$15,00	2,0x (input)
Claude Opus 4.6	$15,00	$75,00	7,5x

Gemini 3.1 Pro er den billigste frontier-model — 33 % billigere end Sonnet 4.6 på input og 20 % billigere på output.

Pris pr. session (100K ind + 20K ud)

Model	Pris
Gemini 3.1 Pro	$0,44
Claude Sonnet 4.6	$0,60
GPT-5.2	$0,80
Claude Opus 4.6	$3,00

Yderligere prisoptimering:

Batch-tilstand: 50 % rabat ($0,22/session)

Kontekst-caching: Cachede input-læsninger koster 10 % af basisprisen

Tilgængelighed

Her kan den bruges

Platform	Status	Model-ID
Gemini App (forbruger)	Rulles ud	Vælges automatisk
Google AI Studio	Tilgængelig nu	`gemini-3.1-pro-preview`
Vertex AI	Tilgængelig nu	`gemini-3.1-pro-preview`
Gemini API	Tilgængelig nu	`gemini-3.1-pro-preview`
Gemini CLI	Tilgængelig nu	`gemini-3.1-pro-preview`
Antigravity	Tilgængelig nu	Vælges automatisk
Android Studio	Tilgængelig nu	Vælges automatisk
GitHub Copilot	Offentlig preview	Kan vælges
NotebookLM	Pro/Ultra-abonnenter	Vælges automatisk

API Quick Start

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Dit prompt her")
print(response.text)

Custom Tools Endpoint

Google lancerede også et specialiseret endpoint for bedre værktøjs-ydeevne:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Brug dette endpoint, når du bygger agenter, der læner sig tungt op ad funktionskald og brug af værktøjer.

Hvad det betyder

Kapløbet om ræsonnement spidser til

Tre frontier-modeller udgivet på 13 dage:

6. feb: Claude Opus 4.6 (Anthropic)

17. feb: Claude Sonnet 4.6 (Anthropic)

19. feb: Gemini 3.1 Pro (Google)

Hver især gør de krav på førerpositionen inden for forskellige områder. Modellandskabet fragmenteres — ingen enkelt model dominerer alt længere.

Bedst-i-klassen ræsonnement til budgetpris

Kodning på niveau med de bedste

Den manglende brik: Brug af computer

Til udviklere, der bygger produkter

De praktiske implikationer:

Billigste ræsonnement: $0,44/session mod $0,60 (Sonnet) mod $0,80 (GPT-5.2)

Bedst til videnskabelige/analytiske opgaver: 94,3 % GPQA Diamond er den højeste score til rådighed

Konkurrencedygtig på kodning: 80,6 % SWE-bench lukker hullet til Claude

Multimodal fordel: Indfødt video/lyd-behandling, som Claude og GPT ikke matcher

Preview-status: Ikke generelt tilgængelig (GA) endnu — forvent forbedringer før endelig lancering

Kilder: