Gemini 3.1 Pro: Googles resonemangskliv förklarat

TL;DR

Google släppte Gemini 3.1 Pro (preview) den 19 februari 2026. De viktigaste siffrorna:

ARC-AGI-2: 77,1 % — mer än dubbelt så mycket som Gemini 3 Pro (31,1 %), slår Opus 4.6 (68,8 %) och GPT-5.2 (52,9 %)
GPQA Diamond: 94,3 % — leder över alla modeller inom vetenskap på avancerad nivå
SWE-bench: 80,6 % — matchar Opus 4.6 (80,8 %) inom kodning
Pris: $2/$12 per M tokens — billigaste frontier-modellen
1M token context — oförändrat från Gemini 3 Pro
Leder på 13 av 16 benchmarks som utvärderats av Google
Tillgänglig nu i preview: AI Studio, Vertex AI, Gemini CLI, Gemini-appen

Vad Google tillkännagav

Den 19 februari 2026 släppte Google Gemini 3.1 Pro — den första ".1"-uppdateringen i deras modellversionering. Den bygger på Gemini 3 Pro (november 2025) genom att integrera tekniker från Gemini 3 Deep Think-serien i en mer tillgänglig och snabbare modell.

Googles blogg beskriver den som utformad för "uppgifter där ett enkelt svar inte räcker" — komplexa resonemang i flera steg, datasyntes och agentiska arbetsflöden.

Den viktigaste statistiken: 77,1 % på ARC-AGI-2, benchmarken för ny abstrakt slutledningsförmåga. Det är mer än dubbelt så mycket som Gemini 3 Pros 31,1 % och betydligt före både Opus 4.6 (68,8 %) och GPT-5.2 (52,9 %). VentureBeat kallar den "en Deep Think Mini med anpassningsbart resonemang vid behov".

Fullständig genomgång av benchmarks

Där Gemini 3.1 Pro leder (13 av 16 benchmarks)

Benchmark	Vad den testar	Gemini 3.1 Pro	Bästa konkurrent
ARC-AGI-2	Nytt resonemang	77,1 %	Opus 4.6: 68,8 %
GPQA Diamond	Vetenskap (avanc.)	94,3 %	GPT-5.2: 92,4 %
BrowseComp	Agentisk webbsökning	85,9 %	Opus 4.6: 84,0 %
Terminal-Bench 2.0	Terminalkodning	68,5 %	Opus 4.6: 65,4 %
APEX-Agents	Agentförmågor	33,5 %	Opus 4.6: 29,8 %
MCP Atlas	Verktygsanvändning	69,2 %	—
t2-bench Telecom	Domänspecifikt	99,3 %	—
SWE-bench Verified	Kodning	80,6 %	Opus 4.6: 80,8 %
MRCR v2	Lång kontext	84,9 %	Sonnet 4.6: 84,9 % (delad)

Där konkurrenterna fortfarande vinner

Benchmark	Vad den testar	Vinnare	Gemini 3.1 Pro
GDPval-AA (Elo)	Kontorsuppgifter	Sonnet 4.6: 1633	Ej offentliggjort
Terminal-Bench 2.0	Tung terminalkodning	GPT-5.3-Codex: 77,3 %	68,5 %
SWE-Bench Pro	Avancerad kodning	GPT-5.3-Codex: 56,8 %	Ej offentliggjort
OSWorld	Datoranvändning	Sonnet 4.6: 72,5 %	Ej testad

Resonemangsklivet i sitt sammanhang

ARC-AGI-2 mäter en modells förmåga att lösa problem den aldrig sett tidigare — rent abstrakt resonemang, inte mönsterigenkänning från träningsdata. Så här snabbt förbättrades Gemini:

Modell	ARC-AGI-2	Datum
Gemini 3 Pro	31,1 %	Nov 2025
GPT-5.2	52,9 %	Dec 2025
Claude Opus 4.6	68,8 %	Feb 2026
Gemini 3.1 Pro	77,1 %	Feb 2026

Gemini 3.1 Pro hoppade från 31,1 % till 77,1 % i en enda version — en förbättring på 148 %. Detta beror på integreringen av Deep Thinks utökade resonemangstekniker i basmodellen.

Vad har ändrats jämfört med Gemini 3 Pro

1. Deep Think-integrering

Gemini 3 Deep Think var en separat, långsammare modell optimerad för omfattande resonemang. Gemini 3.1 Pro bakar in dessa tekniker i standardmodellen, med justerbart resonemangsdjup. Du får resonemang på Deep Think-nivå utan Deep Think-latensen för de flesta uppgifter.

2. Dramatiskt bättre resonemang

Siffrorna talar för sig själva:

Benchmark	Gemini 3 Pro	Gemini 3.1 Pro	Förbättring
ARC-AGI-2	31,1 %	77,1 %	+148 %
GPQA Diamond	~88 %	94,3 %	+7 %
APEX-Agents	18,4 %	33,5 %	+82 %

3. Bättre agentisk prestanda

Resultaten för APEX-Agents (33,5 %) och MCP Atlas (69,2 %) visar att Gemini 3.1 Pro är betydligt mer kapabel som en autonom agent — verktygsanvändning, planering i flera steg och självkorrigering har alla förbättrats.

4. Bibehållen multimodal styrka

Gemini 3.1 Pro behåller Geminis kärnfördel: inbyggd multimodal bearbetning av text, bilder, ljud och video inom en och samma kontext. Ingen annan frontier-modell matchar denna bredd vid denna prispunkt.

Prissättning

Samma pris som Gemini 3 Pro — en gratis uppgradering:

Kontextstorlek	Input (per M tokens)	Output (per M tokens)
≤200K tokens	$2,00	$12,00
>200K tokens	$4,00	$18,00

Jämförelse med konkurrenter

Modell	Input	Output	Relativ kostnad
Gemini 3.1 Pro	$2,00	$12,00	1x
Claude Sonnet 4.6	$3,00	$15,00	1,5x
GPT-5.2	$5,00	$15,00	2,0x (input)
Claude Opus 4.6	$15,00	$75,00	7,5x

Gemini 3.1 Pro är den billigaste frontier-modellen — 33 % billigare än Sonnet 4.6 på input och 20 % billigare på output.

Kostnad per session (100K in + 20K ut)

Modell	Kostnad
Gemini 3.1 Pro	$0,44
Claude Sonnet 4.6	$0,60
GPT-5.2	$0,80
Claude Opus 4.6	$3,00

Ytterligare kostnadsoptimering:

Batch mode: 50 % rabatt ($0,22/session)

Context caching: Cachade input-läsningar kostar 10 % av baspriset

Tillgänglighet

Var den kan användas

Plattform	Status	Modell-ID
Gemini-appen (konsument)	Rullas ut	Väljs automatiskt
Google AI Studio	Tillgänglig nu	`gemini-3.1-pro-preview`
Vertex AI	Tillgänglig nu	`gemini-3.1-pro-preview`
Gemini API	Tillgänglig nu	`gemini-3.1-pro-preview`
Gemini CLI	Tillgänglig nu	`gemini-3.1-pro-preview`
Antigravity	Tillgänglig nu	Väljs automatiskt
Android Studio	Tillgänglig nu	Väljs automatiskt
GitHub Copilot	Public preview	Valbar
NotebookLM	Pro/Ultra-prenumeranter	Väljs automatiskt

Snabbstart för API

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Endpoint för anpassade verktyg

Google lanserade också en specialiserad endpoint för bättre verktygsprestanda:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Använd denna endpoint när du bygger agenter som förlitar sig tungt på funktionsanrop och verktygsanvändning.

Vad detta innebär

Resonemangsracet trappas upp

Tre frontier-modeller släppta på 13 dagar:

6 feb: Claude Opus 4.6 (Anthropic)

17 feb: Claude Sonnet 4.6 (Anthropic)

19 feb: Gemini 3.1 Pro (Google)

Varje modell hävdar ledarskap inom olika områden. Modell-landskapet fragmenteras — ingen enskild modell dominerar längre allt.

Bäst-i-klassen-resonemang till budgetpris

Gemini 3.1 Pros 77,1 % på ARC-AGI-2 är den högsta resonemangspoängen som finns tillgänglig, till det lägsta priset ($2/$12). För uppgifter som kräver nyskapande problemlösning, abstrakt resonemang eller vetenskaplig analys är den det självklara valet.

Kodningsparitet

Med 80,6 % på SWE-bench (mot Opus 4.6:s 80,8 % och Sonnet 4.6:s 79,6 %) är Gemini 3.1 Pro nu för första gången konkurrenskraftig inom kodning. Tidigare Gemini-modeller låg betydligt efter Claude i denna benchmark.

Den saknade biten: Datoranvändning

Gemini 3.1 Pro har inte testats på OSWorld (datoranvändning). Claude Sonnet 4.6 leder med 72,5 % inom denna förmåga. Om ditt arbetsflöde involverar webbläsarautomation, ifyllnad av formulär eller styrning av skrivbordet, förblir Claude det enda livskraftiga alternativet.

För utvecklare som bygger produkter

De praktiska konsekvenserna:

Billigaste resonemanget: $0,44/session mot $0,60 (Sonnet) mot $0,80 (GPT-5.2)

Bäst för vetenskapliga/analytiska uppgifter: 94,3 % på GPQA Diamond är den högsta poängen som finns tillgänglig

Konkurrenskraftig på kodning: 80,6 % på SWE-bench minskar gapet till Claude

Multimodal fördel: Inbyggd video- och ljudbearbetning som Claude och GPT inte matchar

Preview-status: Inte GA ännu — förvänta dig förbättringar innan fullständig lansering

Bygger du med AI? Y Build integrerar med dina föredragna AI-verktyg för utveckling, och hanterar sedan driftsättning, Demo Cut-produktvideor, AI SEO och analys — hela stacken från kod till tillväxt. Börja gratis.

Källor:

TL;DR

Google släppte Gemini 3.1 Pro (preview) den 19 februari 2026. De viktigaste siffrorna:

ARC-AGI-2: 77,1 % — mer än dubbelt så mycket som Gemini 3 Pro (31,1 %), slår Opus 4.6 (68,8 %) och GPT-5.2 (52,9 %)
GPQA Diamond: 94,3 % — leder över alla modeller inom vetenskap på avancerad nivå
SWE-bench: 80,6 % — matchar Opus 4.6 (80,8 %) inom kodning
Pris: $2/$12 per M tokens — billigaste frontier-modellen
1M token context — oförändrat från Gemini 3 Pro
Leder på 13 av 16 benchmarks som utvärderats av Google
Tillgänglig nu i preview: AI Studio, Vertex AI, Gemini CLI, Gemini-appen

Vad Google tillkännagav

Googles blogg beskriver den som utformad för "uppgifter där ett enkelt svar inte räcker" — komplexa resonemang i flera steg, datasyntes och agentiska arbetsflöden.

Fullständig genomgång av benchmarks

Där Gemini 3.1 Pro leder (13 av 16 benchmarks)

Benchmark	Vad den testar	Gemini 3.1 Pro	Bästa konkurrent
ARC-AGI-2	Nytt resonemang	77,1 %	Opus 4.6: 68,8 %
GPQA Diamond	Vetenskap (avanc.)	94,3 %	GPT-5.2: 92,4 %
BrowseComp	Agentisk webbsökning	85,9 %	Opus 4.6: 84,0 %
Terminal-Bench 2.0	Terminalkodning	68,5 %	Opus 4.6: 65,4 %
APEX-Agents	Agentförmågor	33,5 %	Opus 4.6: 29,8 %
MCP Atlas	Verktygsanvändning	69,2 %	—
t2-bench Telecom	Domänspecifikt	99,3 %	—
SWE-bench Verified	Kodning	80,6 %	Opus 4.6: 80,8 %
MRCR v2	Lång kontext	84,9 %	Sonnet 4.6: 84,9 % (delad)

Där konkurrenterna fortfarande vinner

Benchmark	Vad den testar	Vinnare	Gemini 3.1 Pro
GDPval-AA (Elo)	Kontorsuppgifter	Sonnet 4.6: 1633	Ej offentliggjort
Terminal-Bench 2.0	Tung terminalkodning	GPT-5.3-Codex: 77,3 %	68,5 %
SWE-Bench Pro	Avancerad kodning	GPT-5.3-Codex: 56,8 %	Ej offentliggjort
OSWorld	Datoranvändning	Sonnet 4.6: 72,5 %	Ej testad

Resonemangsklivet i sitt sammanhang

ARC-AGI-2 mäter en modells förmåga att lösa problem den aldrig sett tidigare — rent abstrakt resonemang, inte mönsterigenkänning från träningsdata. Så här snabbt förbättrades Gemini:

Modell	ARC-AGI-2	Datum
Gemini 3 Pro	31,1 %	Nov 2025
GPT-5.2	52,9 %	Dec 2025
Claude Opus 4.6	68,8 %	Feb 2026
Gemini 3.1 Pro	77,1 %	Feb 2026

Gemini 3.1 Pro hoppade från 31,1 % till 77,1 % i en enda version — en förbättring på 148 %. Detta beror på integreringen av Deep Thinks utökade resonemangstekniker i basmodellen.

Vad har ändrats jämfört med Gemini 3 Pro

1. Deep Think-integrering

2. Dramatiskt bättre resonemang

Siffrorna talar för sig själva:

Benchmark	Gemini 3 Pro	Gemini 3.1 Pro	Förbättring
ARC-AGI-2	31,1 %	77,1 %	+148 %
GPQA Diamond	~88 %	94,3 %	+7 %
APEX-Agents	18,4 %	33,5 %	+82 %

3. Bättre agentisk prestanda

4. Bibehållen multimodal styrka

Prissättning

Samma pris som Gemini 3 Pro — en gratis uppgradering:

Kontextstorlek	Input (per M tokens)	Output (per M tokens)
≤200K tokens	$2,00	$12,00
>200K tokens	$4,00	$18,00

Jämförelse med konkurrenter

Modell	Input	Output	Relativ kostnad
Gemini 3.1 Pro	$2,00	$12,00	1x
Claude Sonnet 4.6	$3,00	$15,00	1,5x
GPT-5.2	$5,00	$15,00	2,0x (input)
Claude Opus 4.6	$15,00	$75,00	7,5x

Gemini 3.1 Pro är den billigaste frontier-modellen — 33 % billigare än Sonnet 4.6 på input och 20 % billigare på output.

Kostnad per session (100K in + 20K ut)

Modell	Kostnad
Gemini 3.1 Pro	$0,44
Claude Sonnet 4.6	$0,60
GPT-5.2	$0,80
Claude Opus 4.6	$3,00

Ytterligare kostnadsoptimering:

Batch mode: 50 % rabatt ($0,22/session)

Context caching: Cachade input-läsningar kostar 10 % av baspriset

Tillgänglighet

Var den kan användas

Plattform	Status	Modell-ID
Gemini-appen (konsument)	Rullas ut	Väljs automatiskt
Google AI Studio	Tillgänglig nu	`gemini-3.1-pro-preview`
Vertex AI	Tillgänglig nu	`gemini-3.1-pro-preview`
Gemini API	Tillgänglig nu	`gemini-3.1-pro-preview`
Gemini CLI	Tillgänglig nu	`gemini-3.1-pro-preview`
Antigravity	Tillgänglig nu	Väljs automatiskt
Android Studio	Tillgänglig nu	Väljs automatiskt
GitHub Copilot	Public preview	Valbar
NotebookLM	Pro/Ultra-prenumeranter	Väljs automatiskt

Snabbstart för API

python

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")

response = model.generate_content("Your prompt here")
print(response.text)

Endpoint för anpassade verktyg

Google lanserade också en specialiserad endpoint för bättre verktygsprestanda:

python

model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")

Använd denna endpoint när du bygger agenter som förlitar sig tungt på funktionsanrop och verktygsanvändning.

Vad detta innebär

Resonemangsracet trappas upp

Tre frontier-modeller släppta på 13 dagar:

6 feb: Claude Opus 4.6 (Anthropic)

17 feb: Claude Sonnet 4.6 (Anthropic)

19 feb: Gemini 3.1 Pro (Google)

Varje modell hävdar ledarskap inom olika områden. Modell-landskapet fragmenteras — ingen enskild modell dominerar längre allt.

Bäst-i-klassen-resonemang till budgetpris

Kodningsparitet

Den saknade biten: Datoranvändning

För utvecklare som bygger produkter

De praktiska konsekvenserna:

Billigaste resonemanget: $0,44/session mot $0,60 (Sonnet) mot $0,80 (GPT-5.2)

Bäst för vetenskapliga/analytiska uppgifter: 94,3 % på GPQA Diamond är den högsta poängen som finns tillgänglig

Konkurrenskraftig på kodning: 80,6 % på SWE-bench minskar gapet till Claude

Multimodal fördel: Inbyggd video- och ljudbearbetning som Claude och GPT inte matchar

Preview-status: Inte GA ännu — förvänta dig förbättringar innan fullständig lansering

Källor: