Gemini 3.1 Pro: Googles resonneringssprang forklart

TL;DR

Google lanserte Gemini 3.1 Pro (preview) den 19. februar 2026. Nøkkeltallene:

ARC-AGI-2: 77,1 % — mer enn det dobbelte av Gemini 3 Pro (31,1 %), slår Opus 4.6 (68,8 %) og GPT-5.2 (52,9 %)
GPQA Diamond: 94,3 % — leder over alle modeller på vitenskap på masternivå
SWE-bench: 80,6 % — matcher Opus 4.6 (80,8 %) på koding
Pris: $2/$12 per M tokens — billigste "frontier"-modell
1M token kontekst — uendret fra Gemini 3 Pro
Leder på 13 av 16 benchmarks evaluert av Google
Tilgjengelig nå i preview: AI Studio, Vertex AI, Gemini CLI, Gemini-appen

Hva Google annonserte

Den 19. februar 2026 lanserte Google Gemini 3.1 Pro — den første ".1"-oppdateringen i deres modellversjonering. Den bygger på Gemini 3 Pro (november 2025) ved å integrere teknikker fra Gemini 3 Deep Think-serien i en mer tilgjengelig og raskere modell.

Googles blogg beskriver den som designet for "oppgaver der et enkelt svar ikke er nok" — kompleks flertrinns resonnering, datasyntese og agent-baserte arbeidsflyter.

Hovedstatistikken: 77,1 % på ARC-AGI-2, benchmarken for ny abstrakt resonnering. Det er mer enn det dobbelte av Gemini 3 Pros 31,1 %, og betydelig foran både Opus 4.6 (68,8 %) og GPT-5.2 (52,9 %). VentureBeat kaller det "en Deep Think Mini med justerbar resonnering på forespørsel."

Full oversikt over benchmarks

Der Gemini 3.1 Pro leder (13 av 16 benchmarks)

Benchmark	Hva den tester	Gemini 3.1 Pro	Beste konkurrent
ARC-AGI-2	Ny resonnering	77,1 %	Opus 4.6: 68,8 %
GPQA Diamond	Vitenskap på masternivå	94,3 %	GPT-5.2: 92,4 %
BrowseComp	Agent-basert nettsøk	85,9 %	Opus 4.6: 84,0 %
Terminal-Bench 2.0	Terminal-koding	68,5 %	Opus 4.6: 65,4 %
APEX-Agents	Agent-kapasiteter	33,5 %	Opus 4.6: 29,8 %
MCP Atlas	Verktøybruk	69,2 %	—
t2-bench Telecom	Domenespesifikk	99,3 %	—
SWE-bench Verified	Koding	80,6 %	Opus 4.6: 80,8 %
MRCR v2	Lang kontekst	84,9 %	Sonnet 4.6: 84,9 % (uavgjort)

Der konkurrentene fortsatt vinner

Benchmark	Hva den tester	Vinner	Gemini 3.1 Pro
GDPval-AA (Elo)	Kontoroppgaver	Sonnet 4.6: 1633	Ikke oppgitt
Terminal-Bench 2.0	Tung terminal-koding	GPT-5.3-Codex: 77,3 %	68,5 %
SWE-Bench Pro	Avansert koding	GPT-5.3-Codex: 56,8 %	Ikke oppgitt
OSWorld	Datamaskinbruk	Sonnet 4.6: 72,5 %	Ikke benchmark-testet

Resonneringsspranget i kontekst

ARC-AGI-2 måler en modells evne til å løse problemer den aldri har sett før — ren abstrakt resonnering, ikke mønstergjenkjenning fra treningsdata. Her er hvor raskt Gemini forbedret seg:

Modell	ARC-AGI-2	Dato
Gemini 3 Pro	31,1 %	Nov 2025
GPT-5.2	52,9 %	Des 2025
Claude Opus 4.6	68,8 %	Feb 2026
Gemini 3.1 Pro	77,1 %	Feb 2026

Gemini 3.1 Pro hoppet fra 31,1 % til 77,1 % i én versjon — en forbedring på 148 %. Dette kommer av integrering av Deep Thinks utvidede resonneringsteknikker i basemodellen.

Hva er endret sammenlignet med Gemini 3 Pro

1. Deep Think-integrering

Gemini 3 Deep Think var en separat, tregere modell optimalisert for utvidet resonnering. Gemini 3.1 Pro baker disse teknikkene inn i standardmodellen, med justerbar resonneringsdybde. Du får resonnering på Deep Think-nivå uten Deep Think-latens for de fleste oppgaver.

2. Dramatisk bedre resonnering

Tallene taler for seg selv:

Benchmark	Gemini 3 Pro	Gemini 3.1 Pro	Forbedring
ARC-AGI-2	31,1 %	77,1 %	+148 %
GPQA Diamond	~88 %	94,3 %	+7 %
APEX-Agents	18,4 %	33,5 %	+82 %

3. Bedre agent-ytelse

APEX-Agents (33,5 %) og MCP Atlas (69,2 %) poengsummer viser at Gemini 3.1 Pro er betydelig mer kapabel som en autonom agent — verktøybruk, flertrinns planlegging og selvkorrigering er alle forbedret.

4. Bevart multimodal styrke

Gemini 3.1 Pro beholder Geminis kjernefordel: medfødt multimodal prosessering av tekst, bilder, lyd og video innenfor en enkelt kontekst. Ingen annen frontier-modell matcher denne bredden til dette prispunktet.

Prising

Samme pris som Gemini 3 Pro — en gratis oppgradering:

Kontekststørrelse	Input (per M tokens)	Output (per M tokens)
≤200K tokens	$2.00	$12.00
>200K tokens	$4.00	$18.00

Sammenligning med konkurrenter

Modell	Input	Output	Relativ kostnad
Gemini 3.1 Pro	$2.00	$12.00	1x
Claude Sonnet 4.6	$3.00	$15.00	1,5x
GPT-5.2	$5.00	$15.00	2,0x (input)
Claude Opus 4.6	$15.00	$75.00	7,5x

Gemini 3.1 Pro er den billigste frontier-modellen — 33 % billigere enn Sonnet 4.6 på input, og 20 % billigere på output.

Kostnad per sesjon (100K inn + 20K ut)

Modell	Kostnad
Gemini 3.1 Pro	$0,44
Claude Sonnet 4.6	$0,60
GPT-5.2	$0,80
Claude Opus 4.6	$3,00

Ytterligere kostnadsoptimalisering:

Batch-modus: 50 % rabatt ($0,22/sesjon)

Kontekst-caching: Bufrede input-lesinger koster 10 % av baseprisen

Tilgjengelighet

Hvor du kan bruke den

Plattform	Status	Modell-ID
Gemini-appen (forbruker)	Rulles ut	Valgt automatisk
Google AI Studio	Tilgjengelig nå	`gemini-3.1-pro-preview`
Vertex AI	Tilgjengelig nå	`gemini-3.1-pro-preview`
Gemini API	Tilgjengelig nå	`gemini-3.1-pro-preview`
Gemini CLI	Tilgjengelig nå	`gemini-3.1-pro-preview`
Antigravity	Tilgjengelig nå	Valgt automatisk
Android Studio	Tilgjengelig nå	Valgt automatisk
GitHub Copilot	Offentlig forhåndsvisning	Valgbar
NotebookLM	Pro/Ultra-abonnenter	Valgt automatisk

API-hurtigstart

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Endepunkt for egendefinerte verktøy

Google lanserte også et spesialisert endepunkt for bedre verktøyytelse:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Bruk dette endepunktet når du bygger agenter som er sterkt avhengige av funksjonskalling og verktøybruk.

Hva dette betyr

Kappløpet om resonnering tilspisser seg

Tre frontier-modeller lansert på 13 dager:

6. feb: Claude Opus 4.6 (Anthropic)

17. feb: Claude Sonnet 4.6 (Anthropic)

19. feb: Gemini 3.1 Pro (Google)

Hver av dem hevder lederskap på ulike områder. Modellandskapet fragmenteres — ingen enkeltmodell dominerer alt lenger.

Best-i-klassen resonnering til budsjettpris

Gemini 3.1 Pros 77,1 % på ARC-AGI-2 er den høyeste resonneringssummen som er tilgjelig, til den laveste prisen ($2/$12). For oppgaver som krever ny problemløsning, abstrakt resonnering eller vitenskapelig analyse, er den det klare valget.

Paritet på koding

Med 80,6 % på SWE-bench (mot Opus 4.6 sine 80,8 % og Sonnet 4.6 sine 79,6 %), er Gemini 3.1 Pro nå konkurransedyktig på koding for første gang. Tidligere Gemini-modeller lå betydelig bak Claude på denne benchmarken.

Den manglende brikken: Datamaskinbruk

Gemini 3.1 Pro har ikke benchmark-resultater på OSWorld (datamaskinbruk). Claude Sonnet 4.6 leder med 72,5 % på denne kapabiliteten. Hvis arbeidsflyten din involverer nettleserautomatisering, skjemautfylling eller skrivebordskontroll, forblir Claude det eneste levedyktige alternativet.

For utviklere som bygger produkter

De praktiske implikasjonene:

Billigste resonnering: $0,44/sesjon mot $0,60 (Sonnet) mot $0,80 (GPT-5.2)

Best for vitenskapelige/analytiske oppgaver: 94,3 % på GPQA Diamond er den høyeste poengsummen som er tilgjengelig

Konkurransedyktig på koding: 80,6 % på SWE-bench tetter gapet til Claude

Multimodal fordel: Medfødt video/lyd-prosessering som Claude og GPT ikke matcher

Preview-status: Ikke GA (generelt tilgjengelig) ennå — forvent forbedringer før full lansering

Bygger du med AI? Y Build integreres med dine foretrukne AI-verktøy for utvikling, og håndterer deretter distribusjon, Demo Cut-produktvideoer, AI SEO og analyse — hele "stacket" fra kode til vekst. Start gratis.

Kilder:

TL;DR

Google lanserte Gemini 3.1 Pro (preview) den 19. februar 2026. Nøkkeltallene:

ARC-AGI-2: 77,1 % — mer enn det dobbelte av Gemini 3 Pro (31,1 %), slår Opus 4.6 (68,8 %) og GPT-5.2 (52,9 %)
GPQA Diamond: 94,3 % — leder over alle modeller på vitenskap på masternivå
SWE-bench: 80,6 % — matcher Opus 4.6 (80,8 %) på koding
Pris: $2/$12 per M tokens — billigste "frontier"-modell
1M token kontekst — uendret fra Gemini 3 Pro
Leder på 13 av 16 benchmarks evaluert av Google
Tilgjengelig nå i preview: AI Studio, Vertex AI, Gemini CLI, Gemini-appen

Hva Google annonserte

Googles blogg beskriver den som designet for "oppgaver der et enkelt svar ikke er nok" — kompleks flertrinns resonnering, datasyntese og agent-baserte arbeidsflyter.

Full oversikt over benchmarks

Der Gemini 3.1 Pro leder (13 av 16 benchmarks)

Benchmark	Hva den tester	Gemini 3.1 Pro	Beste konkurrent
ARC-AGI-2	Ny resonnering	77,1 %	Opus 4.6: 68,8 %
GPQA Diamond	Vitenskap på masternivå	94,3 %	GPT-5.2: 92,4 %
BrowseComp	Agent-basert nettsøk	85,9 %	Opus 4.6: 84,0 %
Terminal-Bench 2.0	Terminal-koding	68,5 %	Opus 4.6: 65,4 %
APEX-Agents	Agent-kapasiteter	33,5 %	Opus 4.6: 29,8 %
MCP Atlas	Verktøybruk	69,2 %	—
t2-bench Telecom	Domenespesifikk	99,3 %	—
SWE-bench Verified	Koding	80,6 %	Opus 4.6: 80,8 %
MRCR v2	Lang kontekst	84,9 %	Sonnet 4.6: 84,9 % (uavgjort)

Der konkurrentene fortsatt vinner

Benchmark	Hva den tester	Vinner	Gemini 3.1 Pro
GDPval-AA (Elo)	Kontoroppgaver	Sonnet 4.6: 1633	Ikke oppgitt
Terminal-Bench 2.0	Tung terminal-koding	GPT-5.3-Codex: 77,3 %	68,5 %
SWE-Bench Pro	Avansert koding	GPT-5.3-Codex: 56,8 %	Ikke oppgitt
OSWorld	Datamaskinbruk	Sonnet 4.6: 72,5 %	Ikke benchmark-testet

Resonneringsspranget i kontekst

ARC-AGI-2 måler en modells evne til å løse problemer den aldri har sett før — ren abstrakt resonnering, ikke mønstergjenkjenning fra treningsdata. Her er hvor raskt Gemini forbedret seg:

Modell	ARC-AGI-2	Dato
Gemini 3 Pro	31,1 %	Nov 2025
GPT-5.2	52,9 %	Des 2025
Claude Opus 4.6	68,8 %	Feb 2026
Gemini 3.1 Pro	77,1 %	Feb 2026

Gemini 3.1 Pro hoppet fra 31,1 % til 77,1 % i én versjon — en forbedring på 148 %. Dette kommer av integrering av Deep Thinks utvidede resonneringsteknikker i basemodellen.

Hva er endret sammenlignet med Gemini 3 Pro

1. Deep Think-integrering

2. Dramatisk bedre resonnering

Tallene taler for seg selv:

Benchmark	Gemini 3 Pro	Gemini 3.1 Pro	Forbedring
ARC-AGI-2	31,1 %	77,1 %	+148 %
GPQA Diamond	~88 %	94,3 %	+7 %
APEX-Agents	18,4 %	33,5 %	+82 %

3. Bedre agent-ytelse

4. Bevart multimodal styrke

Prising

Samme pris som Gemini 3 Pro — en gratis oppgradering:

Kontekststørrelse	Input (per M tokens)	Output (per M tokens)
≤200K tokens	$2.00	$12.00
>200K tokens	$4.00	$18.00

Sammenligning med konkurrenter

Modell	Input	Output	Relativ kostnad
Gemini 3.1 Pro	$2.00	$12.00	1x
Claude Sonnet 4.6	$3.00	$15.00	1,5x
GPT-5.2	$5.00	$15.00	2,0x (input)
Claude Opus 4.6	$15.00	$75.00	7,5x

Gemini 3.1 Pro er den billigste frontier-modellen — 33 % billigere enn Sonnet 4.6 på input, og 20 % billigere på output.

Kostnad per sesjon (100K inn + 20K ut)

Modell	Kostnad
Gemini 3.1 Pro	$0,44
Claude Sonnet 4.6	$0,60
GPT-5.2	$0,80
Claude Opus 4.6	$3,00

Ytterligere kostnadsoptimalisering:

Batch-modus: 50 % rabatt ($0,22/sesjon)

Kontekst-caching: Bufrede input-lesinger koster 10 % av baseprisen

Tilgjengelighet

Hvor du kan bruke den

Plattform	Status	Modell-ID
Gemini-appen (forbruker)	Rulles ut	Valgt automatisk
Google AI Studio	Tilgjengelig nå	`gemini-3.1-pro-preview`
Vertex AI	Tilgjengelig nå	`gemini-3.1-pro-preview`
Gemini API	Tilgjengelig nå	`gemini-3.1-pro-preview`
Gemini CLI	Tilgjengelig nå	`gemini-3.1-pro-preview`
Antigravity	Tilgjengelig nå	Valgt automatisk
Android Studio	Tilgjengelig nå	Valgt automatisk
GitHub Copilot	Offentlig forhåndsvisning	Valgbar
NotebookLM	Pro/Ultra-abonnenter	Valgt automatisk

API-hurtigstart

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Endepunkt for egendefinerte verktøy

Google lanserte også et spesialisert endepunkt for bedre verktøyytelse:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Bruk dette endepunktet når du bygger agenter som er sterkt avhengige av funksjonskalling og verktøybruk.

Hva dette betyr

Kappløpet om resonnering tilspisser seg

Tre frontier-modeller lansert på 13 dager:

6. feb: Claude Opus 4.6 (Anthropic)

17. feb: Claude Sonnet 4.6 (Anthropic)

19. feb: Gemini 3.1 Pro (Google)

Hver av dem hevder lederskap på ulike områder. Modellandskapet fragmenteres — ingen enkeltmodell dominerer alt lenger.

Best-i-klassen resonnering til budsjettpris

Paritet på koding

Den manglende brikken: Datamaskinbruk

For utviklere som bygger produkter

De praktiske implikasjonene:

Billigste resonnering: $0,44/sesjon mot $0,60 (Sonnet) mot $0,80 (GPT-5.2)

Best for vitenskapelige/analytiske oppgaver: 94,3 % på GPQA Diamond er den høyeste poengsummen som er tilgjengelig

Konkurransedyktig på koding: 80,6 % på SWE-bench tetter gapet til Claude

Multimodal fordel: Medfødt video/lyd-prosessering som Claude og GPT ikke matcher

Preview-status: Ikke GA (generelt tilgjengelig) ennå — forvent forbedringer før full lansering

Kilder: