Sonnet 4.6 vs GPT-5.2 vs Gemini 3: 2026-guide

TL;DR

Sonnet 4.6	GPT-5.2	Gemini 3 Pro
Koding (SWE-bench)	79.6%	80.0%	76.8%
Computer use (OSWorld)	72.5%	38.2%	N/A
Matematikk (AIME 2025)	~90%	100%	~88%
Kontoroppgaver (Elo)	1633	1462	N/A
Kontekst	1M (beta)	400K	1M (nativ)
Inngangspris	$3/M	$5/M	$7/M
Utgangspris	$15/M	$15/M	$21/M

Hurtigvalg:

Koding + computer use + kostnadseffektivitet → Claude Sonnet 4.6
Ren matematisk resonnering + hastighet → GPT-5.2
Multimodal (video, bilder, lyd) + lang kontekst → Gemini 3 Pro

AI-modellandskapet i februar 2026

Tre ledende AI-modeller kjemper om utviklernes oppmerksomhet akkurat nå:

Claude Sonnet 4.6 (Anthropic, 17. februar 2026) — den nyeste, priset til $3/$15
GPT-5.2 (OpenAI, desember 2025) — kongen av resonnering, priset til $5/$15
Gemini 3 Pro (Google DeepMind, januar 2026) — den multimodale lederen, priset til $7/$21

Hver av dem har en tydelig styrke. Denne guiden forklarer nøyaktig hvor hver modell vinner, hvor de taper, og hvilken du bør bruke til hva.

Ytelse innen koding

SWE-bench Verified (Programvareutvikling i den virkelige verden)

SWE-bench tester modeller på å løse faktiske GitHub-problemer — lese kodebaser, forstå feil, skrive patcher. Det er den benchmarken som ligger tettest opp mot ekte utviklerarbeid.

Modell	Score
GPT-5.2	80.0%
Sonnet 4.6	79.6%
Opus 4.6	80.8%
Gemini 3 Pro	76.8%

De tre øverste ligger innenfor 1,2 prosentpoeng. I praksis er forskjellen i kodekvalitet mellom Sonnet 4.6 og GPT-5.2 ubetydelig for de fleste oppgaver.

Terminal-Bench 2.0 (Agentbasert koding i terminal)

Dette tester kodingsoppgaver over flere trinn i et terminalmiljø — nærmere hvordan AI-kodeagenter faktisk fungerer.

Modell	Score
Opus 4.6	65.4%
Sonnet 4.6	59.1%
GPT-5.2	46.7%

Claude-modellene dominerer her. Selv Sonnet 4.6 utkonkurrerer GPT-5.2 med 12,4 poeng på agentbasert koding — et enormt gap. Dette forklarer hvorfor Claude Code er foretrukket verktøy for AI-assistert utvikling.

Utvikleropplevelse i den virkelige verden

Medgründeren av Cursor beskrev Sonnet 4.6 som "en merkbar forbedring over Sonnet 4.5 over hele linja, inkludert langtidsoppgaver og mer vanskelige problemer."

GitHub rapporterte om "sterke løsningsrater og den typen konsistens utviklere trenger" ved testing av Sonnet 4.6 på rettelser på tvers av kodebaser.

I direkte Claude Code-testing foretrakk utviklere Sonnet 4.6 fremfor Sonnet 4.5 70 % av tiden, med begrunnelser som:

Leser eksisterende kodekontekst før endringer gjøres

Konsoliderer logikk i stedet for duplisering

Færre falske påstander om suksess

Mindre over-engineering

Vinner: Uavgjort (GPT-5.2 leder marginalt på SWE-bench, Claude leder betydelig på agentbasert terminalkoding)

Computer Use

Dette er det største gapet mellom de tre modellene.

Modell	OSWorld Score
Sonnet 4.6	72.5%
GPT-5.2	38.2%
Gemini 3 Pro	Ikke benchmarket

Sonnet 4.6 scorer nesten dobbelt så høyt som GPT-5.2 på computer use. Den ligger i praksis likt med Opus 4.6 (72,7 %).

Hva dette betyr i praksis: Sonnet 4.6 kan pålitelig navigere i webapplikasjoner, fylle ut skjemaer, samhandle med regneark og automatisere arbeidsflyter på skrivebordet med mange trinn. GPT-5.2 sliter med disse oppgavene.

Jamie Cuffe (CEO, Pace) rapporterte 94 % nøyaktighet på deres benchmark for computer use i forsikringsbransjen med Sonnet 4.6: "Den resonnerer seg gjennom feil og selvkorrigerer på måter vi ikke har sett før."

Vinner: Claude Sonnet 4.6 (med god margin)

Resonnering og matematikk

AIME 2025 (Konkurransematematikk)

Modell	Score
GPT-5.2	100%
Opus 4.6	~92.8%
Sonnet 4.6	~90%
Gemini 3 Pro	~88%

GPT-5.2 oppnår perfekt nøyaktighet på AIME 2025. Dette er dens klareste fordel.

GPQA Diamond (Vitenskap på masternivå)

Modell	Score
Opus 4.6	91.3%
Sonnet 4.6	89.9%
GPT-5.2	~88%

Claude leder her, med Sonnet 4.6 som utkonkurrerer GPT-5.2 til 1/3 av inngangskostnaden.

ARC-AGI-2 (Løsning av nye typer problemer)

Modell	Score
Opus 4.6	68.8%
Sonnet 4.6	58.3%

ARC-AGI-2 tester evnen til å løse helt nye typer problemer. Det er her Opus' dypere resonnering betyr mest.

Vinner: GPT-5.2 (matematikk), Claude (vitenskap, ny resonnering)

Kontoroppgaver og kunnskapsarbeid

GDPval-AA Elo (Produktivitet på kontoret i den virkelige verden)

Modell	Score
Sonnet 4.6	1633
Opus 4.6	1606
GPT-5.2	1462

Sonnet 4.6 leder over alle modeller — inkludert Opus — på regneark, skjemabehandling, dokumentanalyse og datasummering.

Finance Agent v1.1 (Agentbasert finansanalyse)

Modell	Score
Sonnet 4.6	63.3%
Opus 4.6	60.1%
GPT-5.2	59.0%

Igjen leder Sonnet 4.6. I en test analyserte et detaljhandelselskap salgsdata over flere år. Sonnet 4.5 hadde gjort kaskaderende beregningsfeil i den finansielle tolkningen. Sonnet 4.6 beregnet korrekt forholdet mellom investering og kostnad, og rangerte de viktigste artiklene etter prisstigning.

Vinner: Claude Sonnet 4.6

Multimodale kapabiliteter

Gemini 3 Pros unike styrke

Dette er feltet hvor Gemini 3 Pro skiller seg ut. Den prosesserer nativt:

Tekst, bilder, lyd og video i én enkelt kontekst

Opptil 1 time video eller 11 timer lyd

PDF-dokumenter med forståelse for visuelt oppsett

Hverken Sonnet 4.6 eller GPT-5.2 kan prosessere video nativt. For oppgaver som involverer videoanalyse, lydtranskripsjon eller prosessering av dokumenter i flere formater, er Gemini 3 Pro det eneste valget blant disse tre.

Bildeforståelse

Alle de tre modellene håndterer bilder godt. Gemini 3 Pro har et lite forsprang på komplekse visuelle resonnementer, men gapet er smalere enn i 2025.

Vinner: Gemini 3 Pro (betydelig for video/lyd)

Kontekstvindu

Modell	Kontekstvindu	Nativ/Beta
Gemini 3 Pro	1M tokens	Nativ
Sonnet 4.6	1M tokens	Beta
GPT-5.2	400K tokens	Nativ

Både Gemini og Sonnet tilbyr nå kontekstvinduer på 1 million tokens, men Geminis er fullt ut nativ mens Sonnets er i beta. GPT-5.2 er begrenset til 400K.

Sonnet 4.6 legger til kontekst-kompaktering — automatisk oppsummering av eldre deler av samtalen for å utvide den effektive konteksten ytterligere. Dette er spesielt nyttig i Claude Code-økter hvor samtalene kan bli svært lange.

Opus 4.6 scorer 76 % på MRCR v2 (8-needle, 1M kontekst) for langkontekst-resonnering — betydelig bedre enn Sonnet 4.5s 18,5 %. Resultatene for Sonnet 4.6 er ennå ikke publisert for denne spesifikke testen.

Vinner: Gemini 3 Pro (nativ 1M), med Sonnet 4.6 rett bak

Priser

Sammenligning av API-kostnader

Modell	Inndata (/M tokens)	Utdata (/M tokens)	Totalt for 100K inn + 20K ut
Sonnet 4.6	$3	$15	$0.60
GPT-5.2	$5	$15	$0.80
Gemini 3 Pro	$7	$21	$1.12
Opus 4.6	$15	$75	$3.00

Sonnet 4.6 er den billigste ledende modellen med god margin — 25 % rimeligere enn GPT-5.2 per økt, og 46 % rimeligere enn Gemini 3 Pro.

Ved stor skala (100 økter/dag)

Modell	Daglig kostnad	Månedlig kostnad
Sonnet 4.6	$60	$1,800
GPT-5.2	$80	$2,400
Gemini 3 Pro	$112	$3,360
Opus 4.6	$300	$9,000

Kostnadsfordelen akkumuleres raskt. En oppstartsbedrift som kjører 100 AI-agent-økter per dag sparer $600/måned ved å velge Sonnet 4.6 fremfor GPT-5.2, og $1,560/måned over Gemini 3 Pro.

Vinner: Claude Sonnet 4.6

Sikkerhet og pålitelighet

Motstand mot prompt injection

Sonnet 4.6 matcher Opus 4.6 på motstand mot prompt injection — en betydelig forbedring over Sonnet 4.5. Dette er viktig for alle agenter som surfer på nettet, leser e-poster eller behandler brukergenerert innhold.

Frekvens av hallusineringer

Utviklere rapporterer konsekvent om færre hallusineringer fra Sonnet 4.6 sammenlignet med både Sonnet 4.5 og GPT-5.2. GPT-5.2 hevder 65 % færre hallusineringer sammenlignet med GPT-5.0, men direkte sammenligninger mellom modeller er vanskelige.

Pålitelighet i produksjon

Claude Code-brukere rapporterer at Sonnet 4.6 er "mindre lat" — den fullfører oppgaver over flere trinn i stedet for å ta snarveier eller hevde at den er ferdig for tidlig. Dette er en praktisk forbedring i livskvalitet som benchmarks ikke fanger opp.

Vinner: Claude Sonnet 4.6 (spesielt for agentsikkerhet)

Hvilken modell bør du bruke?

Velg Sonnet 4.6 når:

Du bygger AI-kodeagenter eller bruker Claude Code
Du ruller ut agenter for computer use / nettleserautomatisering
Du kjører kontoroppgaver (dataanalyse, skjemaer, dokumenter)
Budsjettering er viktig — Sonnet 4.6 gir mest ytelse per dollar
Du bygger agenter som behandler upålitelige inndata (motstand mot prompt injection)
Du ønsker den beste gratisversjonen (claude.ai Free)

Velg GPT-5.2 når:

Du har matte-tunge oppgaver (konkurransematematikk, finansiell modellering med komplekse ligninger)
Du allerede er i OpenAI-økosystemet (ChatGPT Plus, Assistants API)
Hastighet er høyeste prioritet (GPT-5.2 pleier å være raskere på enkle forespørsler)
Du trenger OpenAI-spesifikke verktøy (function calling, strukturerte utdata)

Velg Gemini 3 Pro når:

Du arbeider med video- eller lydinnhold
Du behandler store dokumenter i flere formater
Du bygger på Google Cloud-infrastruktur
Du trenger nativ 1M kontekst med dokumentert pålitelighet
Multimodal forståelse er kjernebehovet

Multimodell-tilnærmingen

Mange produksjonsteam bruker flere modeller:

Sonnet 4.6 som hovedarbeidshest (koding, agenter, kontoroppgaver)

GPT-5.2 for matematisk tunge resonnementer

Gemini 3 Pro for multimodal prosessering

Opus 4.6 for de vanskeligste problemene (refaktorering av kodebaser, ny forskning)

Modell-ruting — automatisk valg av riktig modell basert på oppgaven — er i ferd med å bli standard praksis i 2026.

Konklusjon

Sonnet 4.6 er den modellen som gir best verdi blant de ledende modellene i februar 2026. Den matcher eller slår GPT-5.2 på koding, computer use, kontoroppgaver og sikkerhet — til 25–46 % lavere kostnad. GPT-5.2 vinner på ren matematikk. Gemini 3 Pro vinner på det multimodale.

For de fleste utviklere som bygger produkter, er Sonnet 4.6 standardvalget. Spørsmålet er ikke om den er god nok — det er den helt tydelig — men om de marginale gevinstene ved dyrere modeller rettferdiggjør kostnaden for ditt spesifikke bruksområde.

Bygger du med AI-modeller? Y Build håndterer hele stacken: AI-assistert koding med Claude Code, ett-klikks distribusjon, Demo Cut for produktvideoer, AI SEO og analyse. Fokuser på produktet ditt, ikke infrastrukturen. Start gratis.

Kilder:

TL;DR

Sonnet 4.6	GPT-5.2	Gemini 3 Pro
Koding (SWE-bench)	79.6%	80.0%	76.8%
Computer use (OSWorld)	72.5%	38.2%	N/A
Matematikk (AIME 2025)	~90%	100%	~88%
Kontoroppgaver (Elo)	1633	1462	N/A
Kontekst	1M (beta)	400K	1M (nativ)
Inngangspris	$3/M	$5/M	$7/M
Utgangspris	$15/M	$15/M	$21/M

Hurtigvalg:

Koding + computer use + kostnadseffektivitet → Claude Sonnet 4.6
Ren matematisk resonnering + hastighet → GPT-5.2
Multimodal (video, bilder, lyd) + lang kontekst → Gemini 3 Pro

AI-modellandskapet i februar 2026

Tre ledende AI-modeller kjemper om utviklernes oppmerksomhet akkurat nå:

Claude Sonnet 4.6 (Anthropic, 17. februar 2026) — den nyeste, priset til $3/$15
GPT-5.2 (OpenAI, desember 2025) — kongen av resonnering, priset til $5/$15
Gemini 3 Pro (Google DeepMind, januar 2026) — den multimodale lederen, priset til $7/$21

Hver av dem har en tydelig styrke. Denne guiden forklarer nøyaktig hvor hver modell vinner, hvor de taper, og hvilken du bør bruke til hva.

Ytelse innen koding

SWE-bench Verified (Programvareutvikling i den virkelige verden)

SWE-bench tester modeller på å løse faktiske GitHub-problemer — lese kodebaser, forstå feil, skrive patcher. Det er den benchmarken som ligger tettest opp mot ekte utviklerarbeid.

Modell	Score
GPT-5.2	80.0%
Sonnet 4.6	79.6%
Opus 4.6	80.8%
Gemini 3 Pro	76.8%

De tre øverste ligger innenfor 1,2 prosentpoeng. I praksis er forskjellen i kodekvalitet mellom Sonnet 4.6 og GPT-5.2 ubetydelig for de fleste oppgaver.

Terminal-Bench 2.0 (Agentbasert koding i terminal)

Dette tester kodingsoppgaver over flere trinn i et terminalmiljø — nærmere hvordan AI-kodeagenter faktisk fungerer.

Modell	Score
Opus 4.6	65.4%
Sonnet 4.6	59.1%
GPT-5.2	46.7%

Utvikleropplevelse i den virkelige verden

Medgründeren av Cursor beskrev Sonnet 4.6 som "en merkbar forbedring over Sonnet 4.5 over hele linja, inkludert langtidsoppgaver og mer vanskelige problemer."

GitHub rapporterte om "sterke løsningsrater og den typen konsistens utviklere trenger" ved testing av Sonnet 4.6 på rettelser på tvers av kodebaser.

I direkte Claude Code-testing foretrakk utviklere Sonnet 4.6 fremfor Sonnet 4.5 70 % av tiden, med begrunnelser som:

Leser eksisterende kodekontekst før endringer gjøres

Konsoliderer logikk i stedet for duplisering

Færre falske påstander om suksess

Mindre over-engineering

Vinner: Uavgjort (GPT-5.2 leder marginalt på SWE-bench, Claude leder betydelig på agentbasert terminalkoding)

Computer Use

Dette er det største gapet mellom de tre modellene.

Modell	OSWorld Score
Sonnet 4.6	72.5%
GPT-5.2	38.2%
Gemini 3 Pro	Ikke benchmarket

Sonnet 4.6 scorer nesten dobbelt så høyt som GPT-5.2 på computer use. Den ligger i praksis likt med Opus 4.6 (72,7 %).

Vinner: Claude Sonnet 4.6 (med god margin)

Resonnering og matematikk

AIME 2025 (Konkurransematematikk)

Modell	Score
GPT-5.2	100%
Opus 4.6	~92.8%
Sonnet 4.6	~90%
Gemini 3 Pro	~88%

GPT-5.2 oppnår perfekt nøyaktighet på AIME 2025. Dette er dens klareste fordel.

GPQA Diamond (Vitenskap på masternivå)

Modell	Score
Opus 4.6	91.3%
Sonnet 4.6	89.9%
GPT-5.2	~88%

Claude leder her, med Sonnet 4.6 som utkonkurrerer GPT-5.2 til 1/3 av inngangskostnaden.

ARC-AGI-2 (Løsning av nye typer problemer)

Modell	Score
Opus 4.6	68.8%
Sonnet 4.6	58.3%

ARC-AGI-2 tester evnen til å løse helt nye typer problemer. Det er her Opus' dypere resonnering betyr mest.

Vinner: GPT-5.2 (matematikk), Claude (vitenskap, ny resonnering)

Kontoroppgaver og kunnskapsarbeid

GDPval-AA Elo (Produktivitet på kontoret i den virkelige verden)

Modell	Score
Sonnet 4.6	1633
Opus 4.6	1606
GPT-5.2	1462

Sonnet 4.6 leder over alle modeller — inkludert Opus — på regneark, skjemabehandling, dokumentanalyse og datasummering.

Finance Agent v1.1 (Agentbasert finansanalyse)

Modell	Score
Sonnet 4.6	63.3%
Opus 4.6	60.1%
GPT-5.2	59.0%

Vinner: Claude Sonnet 4.6

Multimodale kapabiliteter

Gemini 3 Pros unike styrke

Dette er feltet hvor Gemini 3 Pro skiller seg ut. Den prosesserer nativt:

Tekst, bilder, lyd og video i én enkelt kontekst

Opptil 1 time video eller 11 timer lyd

PDF-dokumenter med forståelse for visuelt oppsett

Bildeforståelse

Alle de tre modellene håndterer bilder godt. Gemini 3 Pro har et lite forsprang på komplekse visuelle resonnementer, men gapet er smalere enn i 2025.

Vinner: Gemini 3 Pro (betydelig for video/lyd)

Kontekstvindu

Modell	Kontekstvindu	Nativ/Beta
Gemini 3 Pro	1M tokens	Nativ
Sonnet 4.6	1M tokens	Beta
GPT-5.2	400K tokens	Nativ

Både Gemini og Sonnet tilbyr nå kontekstvinduer på 1 million tokens, men Geminis er fullt ut nativ mens Sonnets er i beta. GPT-5.2 er begrenset til 400K.

Vinner: Gemini 3 Pro (nativ 1M), med Sonnet 4.6 rett bak

Priser

Sammenligning av API-kostnader

Modell	Inndata (/M tokens)	Utdata (/M tokens)	Totalt for 100K inn + 20K ut
Sonnet 4.6	$3	$15	$0.60
GPT-5.2	$5	$15	$0.80
Gemini 3 Pro	$7	$21	$1.12
Opus 4.6	$15	$75	$3.00

Sonnet 4.6 er den billigste ledende modellen med god margin — 25 % rimeligere enn GPT-5.2 per økt, og 46 % rimeligere enn Gemini 3 Pro.

Ved stor skala (100 økter/dag)

Modell	Daglig kostnad	Månedlig kostnad
Sonnet 4.6	$60	$1,800
GPT-5.2	$80	$2,400
Gemini 3 Pro	$112	$3,360
Opus 4.6	$300	$9,000

Kostnadsfordelen akkumuleres raskt. En oppstartsbedrift som kjører 100 AI-agent-økter per dag sparer $600/måned ved å velge Sonnet 4.6 fremfor GPT-5.2, og $1,560/måned over Gemini 3 Pro.

Vinner: Claude Sonnet 4.6

Sikkerhet og pålitelighet

Motstand mot prompt injection

Frekvens av hallusineringer

Pålitelighet i produksjon

Vinner: Claude Sonnet 4.6 (spesielt for agentsikkerhet)

Hvilken modell bør du bruke?

Velg Sonnet 4.6 når:

Du bygger AI-kodeagenter eller bruker Claude Code
Du ruller ut agenter for computer use / nettleserautomatisering
Du kjører kontoroppgaver (dataanalyse, skjemaer, dokumenter)
Budsjettering er viktig — Sonnet 4.6 gir mest ytelse per dollar
Du bygger agenter som behandler upålitelige inndata (motstand mot prompt injection)
Du ønsker den beste gratisversjonen (claude.ai Free)

Velg GPT-5.2 når:

Du har matte-tunge oppgaver (konkurransematematikk, finansiell modellering med komplekse ligninger)
Du allerede er i OpenAI-økosystemet (ChatGPT Plus, Assistants API)
Hastighet er høyeste prioritet (GPT-5.2 pleier å være raskere på enkle forespørsler)
Du trenger OpenAI-spesifikke verktøy (function calling, strukturerte utdata)

Velg Gemini 3 Pro når:

Du arbeider med video- eller lydinnhold
Du behandler store dokumenter i flere formater
Du bygger på Google Cloud-infrastruktur
Du trenger nativ 1M kontekst med dokumentert pålitelighet
Multimodal forståelse er kjernebehovet

Multimodell-tilnærmingen

Mange produksjonsteam bruker flere modeller:

Sonnet 4.6 som hovedarbeidshest (koding, agenter, kontoroppgaver)

GPT-5.2 for matematisk tunge resonnementer

Gemini 3 Pro for multimodal prosessering

Opus 4.6 for de vanskeligste problemene (refaktorering av kodebaser, ny forskning)

Modell-ruting — automatisk valg av riktig modell basert på oppgaven — er i ferd med å bli standard praksis i 2026.

Konklusjon

Kilder: