Gemini 3.1 Pro: Googles resonemangskliv förklarat
Google släppte Gemini 3.1 Pro den 19 februari 2026 — med 77,1 % på ARC-AGI-2, mer än en fördubbling jämfört med Gemini 3 Pro. Fullständig genomgång av benchmarks, prissättning ($2/$12 per M tokens), tillgänglighet och vad det innebär för utvecklare.
TL;DR
Google släppte Gemini 3.1 Pro (preview) den 19 februari 2026. De viktigaste siffrorna:
- ARC-AGI-2: 77,1 % — mer än dubbelt så mycket som Gemini 3 Pro (31,1 %), slår Opus 4.6 (68,8 %) och GPT-5.2 (52,9 %)
- GPQA Diamond: 94,3 % — leder över alla modeller inom vetenskap på avancerad nivå
- SWE-bench: 80,6 % — matchar Opus 4.6 (80,8 %) inom kodning
- Pris: $2/$12 per M tokens — billigaste frontier-modellen
- 1M token context — oförändrat från Gemini 3 Pro
- Leder på 13 av 16 benchmarks som utvärderats av Google
- Tillgänglig nu i preview: AI Studio, Vertex AI, Gemini CLI, Gemini-appen
Vad Google tillkännagav
Den 19 februari 2026 släppte Google Gemini 3.1 Pro — den första ".1"-uppdateringen i deras modellversionering. Den bygger på Gemini 3 Pro (november 2025) genom att integrera tekniker från Gemini 3 Deep Think-serien i en mer tillgänglig och snabbare modell.
Googles blogg beskriver den som utformad för "uppgifter där ett enkelt svar inte räcker" — komplexa resonemang i flera steg, datasyntes och agentiska arbetsflöden.
Den viktigaste statistiken: 77,1 % på ARC-AGI-2, benchmarken för ny abstrakt slutledningsförmåga. Det är mer än dubbelt så mycket som Gemini 3 Pros 31,1 % och betydligt före både Opus 4.6 (68,8 %) och GPT-5.2 (52,9 %). VentureBeat kallar den "en Deep Think Mini med anpassningsbart resonemang vid behov".
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Fullständig genomgång av benchmarks
Där Gemini 3.1 Pro leder (13 av 16 benchmarks)
| Benchmark | Vad den testar | Gemini 3.1 Pro | Bästa konkurrent |
|---|---|---|---|
| ARC-AGI-2 | Nytt resonemang | 77,1 % | Opus 4.6: 68,8 % |
| GPQA Diamond | Vetenskap (avanc.) | 94,3 % | GPT-5.2: 92,4 % |
| BrowseComp | Agentisk webbsökning | 85,9 % | Opus 4.6: 84,0 % |
| Terminal-Bench 2.0 | Terminalkodning | 68,5 % | Opus 4.6: 65,4 % |
| APEX-Agents | Agentförmågor | 33,5 % | Opus 4.6: 29,8 % |
| MCP Atlas | Verktygsanvändning | 69,2 % | — |
| t2-bench Telecom | Domänspecifikt | 99,3 % | — |
| SWE-bench Verified | Kodning | 80,6 % | Opus 4.6: 80,8 % |
| MRCR v2 | Lång kontext | 84,9 % | Sonnet 4.6: 84,9 % (delad) |
Där konkurrenterna fortfarande vinner
| Benchmark | Vad den testar | Vinnare | Gemini 3.1 Pro |
|---|---|---|---|
| GDPval-AA (Elo) | Kontorsuppgifter | Sonnet 4.6: 1633 | Ej offentliggjort |
| Terminal-Bench 2.0 | Tung terminalkodning | GPT-5.3-Codex: 77,3 % | 68,5 % |
| SWE-Bench Pro | Avancerad kodning | GPT-5.3-Codex: 56,8 % | Ej offentliggjort |
| OSWorld | Datoranvändning | Sonnet 4.6: 72,5 % | Ej testad |
Resonemangsklivet i sitt sammanhang
ARC-AGI-2 mäter en modells förmåga att lösa problem den aldrig sett tidigare — rent abstrakt resonemang, inte mönsterigenkänning från träningsdata. Så här snabbt förbättrades Gemini:
| Modell | ARC-AGI-2 | Datum |
|---|---|---|
| Gemini 3 Pro | 31,1 % | Nov 2025 |
| GPT-5.2 | 52,9 % | Dec 2025 |
| Claude Opus 4.6 | 68,8 % | Feb 2026 |
| Gemini 3.1 Pro | 77,1 % | Feb 2026 |
Gemini 3.1 Pro hoppade från 31,1 % till 77,1 % i en enda version — en förbättring på 148 %. Detta beror på integreringen av Deep Thinks utökade resonemangstekniker i basmodellen.
Vad har ändrats jämfört med Gemini 3 Pro
1. Deep Think-integrering
Gemini 3 Deep Think var en separat, långsammare modell optimerad för omfattande resonemang. Gemini 3.1 Pro bakar in dessa tekniker i standardmodellen, med justerbart resonemangsdjup. Du får resonemang på Deep Think-nivå utan Deep Think-latensen för de flesta uppgifter.
2. Dramatiskt bättre resonemang
Siffrorna talar för sig själva:
| Benchmark | Gemini 3 Pro | Gemini 3.1 Pro | Förbättring |
|---|---|---|---|
| ARC-AGI-2 | 31,1 % | 77,1 % | +148 % |
| GPQA Diamond | ~88 % | 94,3 % | +7 % |
| APEX-Agents | 18,4 % | 33,5 % | +82 % |
3. Bättre agentisk prestanda
Resultaten för APEX-Agents (33,5 %) och MCP Atlas (69,2 %) visar att Gemini 3.1 Pro är betydligt mer kapabel som en autonom agent — verktygsanvändning, planering i flera steg och självkorrigering har alla förbättrats.
4. Bibehållen multimodal styrka
Gemini 3.1 Pro behåller Geminis kärnfördel: inbyggd multimodal bearbetning av text, bilder, ljud och video inom en och samma kontext. Ingen annan frontier-modell matchar denna bredd vid denna prispunkt.
Prissättning
Samma pris som Gemini 3 Pro — en gratis uppgradering:
| Kontextstorlek | Input (per M tokens) | Output (per M tokens) |
|---|---|---|
| ≤200K tokens | $2,00 | $12,00 |
| >200K tokens | $4,00 | $18,00 |
Jämförelse med konkurrenter
| Modell | Input | Output | Relativ kostnad |
|---|---|---|---|
| Gemini 3.1 Pro | $2,00 | $12,00 | 1x |
| Claude Sonnet 4.6 | $3,00 | $15,00 | 1,5x |
| GPT-5.2 | $5,00 | $15,00 | 2,0x (input) |
| Claude Opus 4.6 | $15,00 | $75,00 | 7,5x |
Gemini 3.1 Pro är den billigaste frontier-modellen — 33 % billigare än Sonnet 4.6 på input och 20 % billigare på output.
Kostnad per session (100K in + 20K ut)
| Modell | Kostnad |
|---|---|
| Gemini 3.1 Pro | $0,44 |
| Claude Sonnet 4.6 | $0,60 |
| GPT-5.2 | $0,80 |
| Claude Opus 4.6 | $3,00 |
Ytterligare kostnadsoptimering:
- Batch mode: 50 % rabatt ($0,22/session)
- Context caching: Cachade input-läsningar kostar 10 % av baspriset
Tillgänglighet
Var den kan användas
| Plattform | Status | Modell-ID |
|---|---|---|
| Gemini-appen (konsument) | Rullas ut | Väljs automatiskt |
| Google AI Studio | Tillgänglig nu | gemini-3.1-pro-preview |
| Vertex AI | Tillgänglig nu | gemini-3.1-pro-preview |
| Gemini API | Tillgänglig nu | gemini-3.1-pro-preview |
| Gemini CLI | Tillgänglig nu | gemini-3.1-pro-preview |
| Antigravity | Tillgänglig nu | Väljs automatiskt |
| Android Studio | Tillgänglig nu | Väljs automatiskt |
| GitHub Copilot | Public preview | Valbar |
| NotebookLM | Pro/Ultra-prenumeranter | Väljs automatiskt |
Snabbstart för API
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")
response = model.generate_content("Your prompt here")
print(response.text)
Endpoint för anpassade verktyg
Google lanserade också en specialiserad endpoint för bättre verktygsprestanda:
model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")
Använd denna endpoint när du bygger agenter som förlitar sig tungt på funktionsanrop och verktygsanvändning.
Vad detta innebär
Resonemangsracet trappas upp
Tre frontier-modeller släppta på 13 dagar:
- 6 feb: Claude Opus 4.6 (Anthropic)
- 17 feb: Claude Sonnet 4.6 (Anthropic)
- 19 feb: Gemini 3.1 Pro (Google)
Varje modell hävdar ledarskap inom olika områden. Modell-landskapet fragmenteras — ingen enskild modell dominerar längre allt.
Bäst-i-klassen-resonemang till budgetpris
Gemini 3.1 Pros 77,1 % på ARC-AGI-2 är den högsta resonemangspoängen som finns tillgänglig, till det lägsta priset ($2/$12). För uppgifter som kräver nyskapande problemlösning, abstrakt resonemang eller vetenskaplig analys är den det självklara valet.
Kodningsparitet
Med 80,6 % på SWE-bench (mot Opus 4.6:s 80,8 % och Sonnet 4.6:s 79,6 %) är Gemini 3.1 Pro nu för första gången konkurrenskraftig inom kodning. Tidigare Gemini-modeller låg betydligt efter Claude i denna benchmark.
Den saknade biten: Datoranvändning
Gemini 3.1 Pro har inte testats på OSWorld (datoranvändning). Claude Sonnet 4.6 leder med 72,5 % inom denna förmåga. Om ditt arbetsflöde involverar webbläsarautomation, ifyllnad av formulär eller styrning av skrivbordet, förblir Claude det enda livskraftiga alternativet.
För utvecklare som bygger produkter
De praktiska konsekvenserna:
- Billigaste resonemanget: $0,44/session mot $0,60 (Sonnet) mot $0,80 (GPT-5.2)
- Bäst för vetenskapliga/analytiska uppgifter: 94,3 % på GPQA Diamond är den högsta poängen som finns tillgänglig
- Konkurrenskraftig på kodning: 80,6 % på SWE-bench minskar gapet till Claude
- Multimodal fördel: Inbyggd video- och ljudbearbetning som Claude och GPT inte matchar
- Preview-status: Inte GA ännu — förvänta dig förbättringar innan fullständig lansering
Bygger du med AI? Y Build integrerar med dina föredragna AI-verktyg för utveckling, och hanterar sedan driftsättning, Demo Cut-produktvideor, AI SEO och analys — hela stacken från kod till tillväxt. Börja gratis.
Källor:
- Google Blog: Gemini 3.1 Pro announcement
- Google DeepMind: Gemini 3.1 Pro Model Card
- 9to5Google: Gemini 3.1 Pro for complex problem-solving
- VentureBeat: Gemini 3.1 Pro first impressions
- MarkTechPost: Gemini 3.1 Pro 77.1% ARC-AGI-2
- OfficeChai: Gemini 3.1 Pro Benchmarks
- GitHub Blog: Gemini 3.1 Pro in GitHub Copilot
- The Decoder: Gemini 3.1 Pro reasoning
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.