Gemini 3.1 Pro: Googles resonneringssprang forklart
Google lanserte Gemini 3.1 Pro 19. februar 2026 — med en poengsum på 77,1 % på ARC-AGI-2, mer enn en dobling av Gemini 3 Pro. Full oversikt over benchmarks, prising ($2/$12 per M tokens), tilgjengelighet og hva det betyr for utviklere.
TL;DR
Google lanserte Gemini 3.1 Pro (preview) den 19. februar 2026. Nøkkeltallene:
- ARC-AGI-2: 77,1 % — mer enn det dobbelte av Gemini 3 Pro (31,1 %), slår Opus 4.6 (68,8 %) og GPT-5.2 (52,9 %)
- GPQA Diamond: 94,3 % — leder over alle modeller på vitenskap på masternivå
- SWE-bench: 80,6 % — matcher Opus 4.6 (80,8 %) på koding
- Pris: $2/$12 per M tokens — billigste "frontier"-modell
- 1M token kontekst — uendret fra Gemini 3 Pro
- Leder på 13 av 16 benchmarks evaluert av Google
- Tilgjengelig nå i preview: AI Studio, Vertex AI, Gemini CLI, Gemini-appen
Hva Google annonserte
Den 19. februar 2026 lanserte Google Gemini 3.1 Pro — den første ".1"-oppdateringen i deres modellversjonering. Den bygger på Gemini 3 Pro (november 2025) ved å integrere teknikker fra Gemini 3 Deep Think-serien i en mer tilgjengelig og raskere modell.
Googles blogg beskriver den som designet for "oppgaver der et enkelt svar ikke er nok" — kompleks flertrinns resonnering, datasyntese og agent-baserte arbeidsflyter.
Hovedstatistikken: 77,1 % på ARC-AGI-2, benchmarken for ny abstrakt resonnering. Det er mer enn det dobbelte av Gemini 3 Pros 31,1 %, og betydelig foran både Opus 4.6 (68,8 %) og GPT-5.2 (52,9 %). VentureBeat kaller det "en Deep Think Mini med justerbar resonnering på forespørsel."
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Full oversikt over benchmarks
Der Gemini 3.1 Pro leder (13 av 16 benchmarks)
| Benchmark | Hva den tester | Gemini 3.1 Pro | Beste konkurrent |
|---|---|---|---|
| ARC-AGI-2 | Ny resonnering | 77,1 % | Opus 4.6: 68,8 % |
| GPQA Diamond | Vitenskap på masternivå | 94,3 % | GPT-5.2: 92,4 % |
| BrowseComp | Agent-basert nettsøk | 85,9 % | Opus 4.6: 84,0 % |
| Terminal-Bench 2.0 | Terminal-koding | 68,5 % | Opus 4.6: 65,4 % |
| APEX-Agents | Agent-kapasiteter | 33,5 % | Opus 4.6: 29,8 % |
| MCP Atlas | Verktøybruk | 69,2 % | — |
| t2-bench Telecom | Domenespesifikk | 99,3 % | — |
| SWE-bench Verified | Koding | 80,6 % | Opus 4.6: 80,8 % |
| MRCR v2 | Lang kontekst | 84,9 % | Sonnet 4.6: 84,9 % (uavgjort) |
Der konkurrentene fortsatt vinner
| Benchmark | Hva den tester | Vinner | Gemini 3.1 Pro |
|---|---|---|---|
| GDPval-AA (Elo) | Kontoroppgaver | Sonnet 4.6: 1633 | Ikke oppgitt |
| Terminal-Bench 2.0 | Tung terminal-koding | GPT-5.3-Codex: 77,3 % | 68,5 % |
| SWE-Bench Pro | Avansert koding | GPT-5.3-Codex: 56,8 % | Ikke oppgitt |
| OSWorld | Datamaskinbruk | Sonnet 4.6: 72,5 % | Ikke benchmark-testet |
Resonneringsspranget i kontekst
ARC-AGI-2 måler en modells evne til å løse problemer den aldri har sett før — ren abstrakt resonnering, ikke mønstergjenkjenning fra treningsdata. Her er hvor raskt Gemini forbedret seg:
| Modell | ARC-AGI-2 | Dato |
|---|---|---|
| Gemini 3 Pro | 31,1 % | Nov 2025 |
| GPT-5.2 | 52,9 % | Des 2025 |
| Claude Opus 4.6 | 68,8 % | Feb 2026 |
| Gemini 3.1 Pro | 77,1 % | Feb 2026 |
Gemini 3.1 Pro hoppet fra 31,1 % til 77,1 % i én versjon — en forbedring på 148 %. Dette kommer av integrering av Deep Thinks utvidede resonneringsteknikker i basemodellen.
Hva er endret sammenlignet med Gemini 3 Pro
1. Deep Think-integrering
Gemini 3 Deep Think var en separat, tregere modell optimalisert for utvidet resonnering. Gemini 3.1 Pro baker disse teknikkene inn i standardmodellen, med justerbar resonneringsdybde. Du får resonnering på Deep Think-nivå uten Deep Think-latens for de fleste oppgaver.
2. Dramatisk bedre resonnering
Tallene taler for seg selv:
| Benchmark | Gemini 3 Pro | Gemini 3.1 Pro | Forbedring |
|---|---|---|---|
| ARC-AGI-2 | 31,1 % | 77,1 % | +148 % |
| GPQA Diamond | ~88 % | 94,3 % | +7 % |
| APEX-Agents | 18,4 % | 33,5 % | +82 % |
3. Bedre agent-ytelse
APEX-Agents (33,5 %) og MCP Atlas (69,2 %) poengsummer viser at Gemini 3.1 Pro er betydelig mer kapabel som en autonom agent — verktøybruk, flertrinns planlegging og selvkorrigering er alle forbedret.
4. Bevart multimodal styrke
Gemini 3.1 Pro beholder Geminis kjernefordel: medfødt multimodal prosessering av tekst, bilder, lyd og video innenfor en enkelt kontekst. Ingen annen frontier-modell matcher denne bredden til dette prispunktet.
Prising
Samme pris som Gemini 3 Pro — en gratis oppgradering:
| Kontekststørrelse | Input (per M tokens) | Output (per M tokens) |
|---|---|---|
| ≤200K tokens | $2.00 | $12.00 |
| >200K tokens | $4.00 | $18.00 |
Sammenligning med konkurrenter
| Modell | Input | Output | Relativ kostnad |
|---|---|---|---|
| Gemini 3.1 Pro | $2.00 | $12.00 | 1x |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 1,5x |
| GPT-5.2 | $5.00 | $15.00 | 2,0x (input) |
| Claude Opus 4.6 | $15.00 | $75.00 | 7,5x |
Gemini 3.1 Pro er den billigste frontier-modellen — 33 % billigere enn Sonnet 4.6 på input, og 20 % billigere på output.
Kostnad per sesjon (100K inn + 20K ut)
| Modell | Kostnad |
|---|---|
| Gemini 3.1 Pro | $0,44 |
| Claude Sonnet 4.6 | $0,60 |
| GPT-5.2 | $0,80 |
| Claude Opus 4.6 | $3,00 |
Ytterligere kostnadsoptimalisering:
- Batch-modus: 50 % rabatt ($0,22/sesjon)
- Kontekst-caching: Bufrede input-lesinger koster 10 % av baseprisen
Tilgjengelighet
Hvor du kan bruke den
| Plattform | Status | Modell-ID |
|---|---|---|
| Gemini-appen (forbruker) | Rulles ut | Valgt automatisk |
| Google AI Studio | Tilgjengelig nå | gemini-3.1-pro-preview |
| Vertex AI | Tilgjengelig nå | gemini-3.1-pro-preview |
| Gemini API | Tilgjengelig nå | gemini-3.1-pro-preview |
| Gemini CLI | Tilgjengelig nå | gemini-3.1-pro-preview |
| Antigravity | Tilgjengelig nå | Valgt automatisk |
| Android Studio | Tilgjengelig nå | Valgt automatisk |
| GitHub Copilot | Offentlig forhåndsvisning | Valgbar |
| NotebookLM | Pro/Ultra-abonnenter | Valgt automatisk |
API-hurtigstart
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-3.1-pro-preview")
response = model.generate_content("Your prompt here")
print(response.text)
Endepunkt for egendefinerte verktøy
Google lanserte også et spesialisert endepunkt for bedre verktøyytelse:
model = genai.GenerativeModel("gemini-3.1-pro-preview-customtools")
Bruk dette endepunktet når du bygger agenter som er sterkt avhengige av funksjonskalling og verktøybruk.
Hva dette betyr
Kappløpet om resonnering tilspisser seg
Tre frontier-modeller lansert på 13 dager:
- 6. feb: Claude Opus 4.6 (Anthropic)
- 17. feb: Claude Sonnet 4.6 (Anthropic)
- 19. feb: Gemini 3.1 Pro (Google)
Hver av dem hevder lederskap på ulike områder. Modellandskapet fragmenteres — ingen enkeltmodell dominerer alt lenger.
Best-i-klassen resonnering til budsjettpris
Gemini 3.1 Pros 77,1 % på ARC-AGI-2 er den høyeste resonneringssummen som er tilgjelig, til den laveste prisen ($2/$12). For oppgaver som krever ny problemløsning, abstrakt resonnering eller vitenskapelig analyse, er den det klare valget.
Paritet på koding
Med 80,6 % på SWE-bench (mot Opus 4.6 sine 80,8 % og Sonnet 4.6 sine 79,6 %), er Gemini 3.1 Pro nå konkurransedyktig på koding for første gang. Tidligere Gemini-modeller lå betydelig bak Claude på denne benchmarken.
Den manglende brikken: Datamaskinbruk
Gemini 3.1 Pro har ikke benchmark-resultater på OSWorld (datamaskinbruk). Claude Sonnet 4.6 leder med 72,5 % på denne kapabiliteten. Hvis arbeidsflyten din involverer nettleserautomatisering, skjemautfylling eller skrivebordskontroll, forblir Claude det eneste levedyktige alternativet.
For utviklere som bygger produkter
De praktiske implikasjonene:
- Billigste resonnering: $0,44/sesjon mot $0,60 (Sonnet) mot $0,80 (GPT-5.2)
- Best for vitenskapelige/analytiske oppgaver: 94,3 % på GPQA Diamond er den høyeste poengsummen som er tilgjengelig
- Konkurransedyktig på koding: 80,6 % på SWE-bench tetter gapet til Claude
- Multimodal fordel: Medfødt video/lyd-prosessering som Claude og GPT ikke matcher
- Preview-status: Ikke GA (generelt tilgjengelig) ennå — forvent forbedringer før full lansering
Bygger du med AI? Y Build integreres med dine foretrukne AI-verktøy for utvikling, og håndterer deretter distribusjon, Demo Cut-produktvideoer, AI SEO og analyse — hele "stacket" fra kode til vekst. Start gratis.
Kilder:
- Google Blog: Gemini 3.1 Pro announcement
- Google DeepMind: Gemini 3.1 Pro Model Card
- 9to5Google: Gemini 3.1 Pro for complex problem-solving
- VentureBeat: Gemini 3.1 Pro first impressions
- MarkTechPost: Gemini 3.1 Pro 77.1% ARC-AGI-2
- OfficeChai: Gemini 3.1 Pro Benchmarks
- GitHub Blog: Gemini 3.1 Pro in GitHub Copilot
- The Decoder: Gemini 3.1 Pro reasoning
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.