Sonnet 4.6 vs GPT-5.2 vs Gemini 3: 2026-guide

TL;DR

Sonnet 4.6	GPT-5.2	Gemini 3 Pro
Kodning (SWE-bench)	79,6%	80,0%	76,8%
Computerbrug (OSWorld)	72,5%	38,2%	N/A
Matematik (AIME 2025)	~90%	100%	~88%
Kontoropgaver (Elo)	1633	1462	N/A
Kontekst	1M (beta)	400K	1M (nativ)
Input-pris	$3/M	$5/M	$7/M
Output-pris	$15/M	$15/M	$21/M

Hurtig beslutning:

Kodning + computerbrug + omkostningseffektivitet → Claude Sonnet 4.6
Ren matematisk ræsonnering + hastighed → GPT-5.2
Multimodal (video, billeder, lyd) + lang kontekst → Gemini 3 Pro

AI-modellandskabet i februar 2026

Tre frontier AI-modeller konkurrerer lige nu om udviklernes opmærksomhed:

Claude Sonnet 4.6 (Anthropic, 17. februar 2026) — den nyeste, prissat til $3/$15
GPT-5.2 (OpenAI, december 2025) — ræsonneringskongen, prissat til $5/$15
Gemini 3 Pro (Google DeepMind, januar 2026) — den multimodale leder, prissat til $7/$21

Hver model har en klar styrke. Denne guide gennemgår præcis, hvor hver model vinder, hvor den taber, og hvilken du bør bruge til hvad.

Kodningsydelse

SWE-bench Verified (Virkelig softwareudvikling)

SWE-bench tester modeller i løsning af faktiske GitHub-issues — at læse kodebaser, forstå fejl og skrive patches. Det er det benchmark, der ligger tættest på en udviklers virkelige arbejde.

Model	Score
GPT-5.2	80,0%
Sonnet 4.6	79,6%
Opus 4.6	80,8%
Gemini 3 Pro	76,8%

De tre øverste ligger inden for 1,2 procentpoint. I praksis er forskellen i kodningskvalitet mellem Sonnet 4.6 og GPT-5.2 ubetydelig for de fleste opgaver.

Terminal-Bench 2.0 (Agentisk terminal-kodning)

Dette tester kodningsopgaver i flere trin i et terminalmiljø — tættere på, hvordan AI-kodningsagenter faktisk arbejder.

Model	Score
Opus 4.6	65,4%
Sonnet 4.6	59,1%
GPT-5.2	46,7%

Claude-modeller dominerer her. Selv Sonnet 4.6 overgår GPT-5.2 med 12,4 point i agentisk kodning — et enormt spring. Dette forklarer, hvorfor Claude Code er det foretrukne værktøj til AI-assisteret udvikling.

Udvikleroplevelse fra den virkelige verden

Cursors medstifter beskrev Sonnet 4.6 som \"en mærkbar forbedring i forhold til Sonnet 4.5 over hele linjen, inklusive langsigtede opgaver og sværere problemer.\"

GitHub rapporterede \"stærke løsningsrater og den form for konsistens, som udviklere har brug for,\" da de testede Sonnet 4.6 på rettelser på tværs af kodebaser.

I direkte Claude Code-test foretrak udviklere Sonnet 4.6 frem for Sonnet 4.5 70% af tiden og anførte:

Læser eksisterende kode-kontekst før ændring

Konsoliderer logik i stedet for at duplikere

Færre falske succes-påstande

Mindre over-engineering

Vinder: Uafgjort (GPT-5.2 fører marginalt på SWE-bench, Claude fører betydeligt på agentisk terminal-kodning)

Computerbrug

Dette er den største forskel mellem de tre modeller.

Model	OSWorld Score
Sonnet 4.6	72,5%
GPT-5.2	38,2%
Gemini 3 Pro	Ikke benchmarked

Sonnet 4.6 scorer næsten det dobbelte af GPT-5.2 i computerbrug. Den ligger essentielt side om side med Opus 4.6 (72,7%).

Hvad det betyder i praksis: Sonnet 4.6 kan pålideligt navigere i webapplikationer, udfylde formularer, interagere med regneark og automatisere desktop-workflows i flere trin. GPT-5.2 kæmper med disse opgaver.

Jamie Cuffe (CEO, Pace) rapporterede 94% nøjagtighed på deres benchmark for computerbrug til forsikring med Sonnet 4.6: \"Den ræsonnerer sig gennem fejl og retter sig selv på måder, vi ikke har set før.\"

Vinder: Claude Sonnet 4.6 (med stor margin)

Ræsonnering og matematik

AIME 2025 (Konkurrence-matematik)

Model	Score
GPT-5.2	100%
Opus 4.6	~92,8%
Sonnet 4.6	~90%
Gemini 3 Pro	~88%

GPT-5.2 opnår perfekt nøjagtighed på AIME 2025. Dette er dens klareste fordel.

GPQA Diamond (Videnskab på kandidatniveau)

Model	Score
Opus 4.6	91,3%
Sonnet 4.6	89,9%
GPT-5.2	~88%

Claude fører her, hvor Sonnet 4.6 overgår GPT-5.2 til en tredjedel af input-omkostningerne.

ARC-AGI-2 (Problemløsning af nye typer opgaver)

Model	Score
Opus 4.6	68,8%
Sonnet 4.6	58,3%

ARC-AGI-2 tester evnen til at løse helt nye typer problemer. Det er her, Opus' dybere ræsonnering betyder mest.

Vinder: GPT-5.2 (matematik), Claude (videnskab, nytænkende ræsonnering)

Kontoropgaver og vidensarbejde

GDPval-AA Elo (Kontorproduktivitet i den virkelige verden)

Model	Score
Sonnet 4.6	1633
Opus 4.6	1606
GPT-5.2	1462

Sonnet 4.6 fører over alle modeller — inklusive Opus — inden for regneark, formularbehandling, dokumentanalyse og dataopsummering.

Finance Agent v1.1 (Agentisk finansiel analyse)

Model	Score
Sonnet 4.6	63,3%
Opus 4.6	60,1%
GPT-5.2	59,0%

Igen fører Sonnet 4.6. I en test analyserede en detailvirksomhed salgsdata over flere år. Sonnet 4.5 havde lavet kaskaderende beregningsfejl i den finansielle fortolkning. Sonnet 4.6 beregnede korrekt investerings-til-omkostnings-forhold og rangerede de vigtigste artikler efter prisstigning.

Vinder: Claude Sonnet 4.6

Multimodale evner

Gemini 3 Pros unikke styrke

Det er her, Gemini 3 Pro skiller sig ud. Den behandler nativt:

Tekst, billeder, lyd og video i en enkelt kontekst

Op til 1 times video eller 11 timers lyd

PDF-dokumenter med forståelse for visuelt layout

Hverken Sonnet 4.6 eller GPT-5.2 kan behandle video nativt. Til opgaver, der involverer videoanalyse, lydtransskription eller dokumentbehandling i flere formater, er Gemini 3 Pro det eneste valg blandt de tre.

Billedforståelse

Alle tre modeller håndterer billeder godt. Gemini 3 Pro har et lille forspring i kompleks visuel ræsonnering, men gabet er mindre end i 2025.

Vinder: Gemini 3 Pro (betydeligt, for video/lyd)

Kontekstvindue

Model	Kontekstvindue	Nativ/Beta
Gemini 3 Pro	1M tokens	Nativ
Sonnet 4.6	1M tokens	Beta
GPT-5.2	400K tokens	Nativ

Både Gemini og Sonnet tilbyder nu kontekster på 1M tokens, men Geminis er fuldt nativ, mens Sonnets er i beta. GPT-5.2 er begrænset til 400K.

Sonnet 4.6 tilføjer kontekst-komprimering — automatisk opsummering af ældre dele af samtalen for at udvide den effektive kontekst endnu mere. Dette er især nyttigt i Claude Code-sessioner, hvor samtaler kan blive meget lange.

Opus 4.6 scorer 76% på MRCR v2 (8-needle, 1M kontekst) for ræsonnering med lang kontekst — betydeligt bedre end Sonnet 4.5's 18,5%. Sonnet 4.6-scorer er endnu ikke offentliggjort for denne specifikke test.

Vinder: Gemini 3 Pro (nativ 1M), med Sonnet 4.6 tæt bagefter

Prissætning

Sammenligning af API-omkostninger

Model	Input (/M tokens)	Output (/M tokens)	Total for 100K in + 20K out
Sonnet 4.6	$3	$15	$0,60
GPT-5.2	$5	$15	$0,80
Gemini 3 Pro	$7	$21	$1,12
Opus 4.6	$15	$75	$3,00

Sonnet 4.6 er den billigste frontier-model med en betydelig margin — 25% mindre end GPT-5.2 pr. session, 46% mindre end Gemini 3 Pro.

I stor skala (100 sessioner/dag)

Model	Daglig omkostning	Månedlig omkostning
Sonnet 4.6	$60	$1.800
GPT-5.2	$80	$2.400
Gemini 3 Pro	$112	$3.360
Opus 4.6	$300	$9.000

Omkostningsfordelen akkumuleres. En startup, der kører 100 AI-agentsessioner om dagen, sparer $600/måned ved at vælge Sonnet 4.6 frem for GPT-5.2, og $1.560/måned frem for Gemini 3 Pro.

Vinder: Claude Sonnet 4.6

Sikkerhed og pålidelighed

Modstandskraft over for prompt-injection

Sonnet 4.6 matcher Opus 4.6 i modstandskraft over for prompt-injection — en betydelig forbedring i forhold til Sonnet 4.5. Dette er vigtigt for enhver agent, der browser på nettet, læser e-mails eller behandler brugerindsendt indhold.

Hallucinationsrate

Udviklere rapporterer konsekvent færre hallucinationer fra Sonnet 4.6 sammenlignet med både Sonnet 4.5 og GPT-5.2. GPT-5.2 hævder 65% færre hallucinationer mod GPT-5.0, men direkte sammenligninger på tværs af modeller er vanskelige.

Pålidelighed i produktion

Claude Code-brugere rapporterer, at Sonnet 4.6 er \"mindre doven\" — den følger opgaver i flere trin til dørs i stedet for at springe over, hvor gærdet er lavest, eller påstå for tidlig færdiggørelse. Dette er en praktisk forbedring af livskvaliteten, som benchmarks ikke fanger.

Vinder: Claude Sonnet 4.6 (især for agentisk sikkerhed)

Hvilken model skal du bruge?

Vælg Sonnet 4.6, når:

Du bygger AI-kodningsagenter eller bruger Claude Code
Du implementerer agenter til computerbrug / browser-automatisering
Du kører kontorproduktivitetsopgaver (dataanalyse, formularer, dokumenter)
Budgettet betyder noget — Sonnet 4.6 giver mest ydeevne pr. dollar
Du bygger agenter, der behandler upålideligt input (modstandskraft mod prompt-injection)
Du ønsker det bedste gratis niveau (claude.ai Free)

Vælg GPT-5.2, når:

Du har matematik-tunge opgaver (konkurrence-matematik, finansiel modellering med komplekse ligninger)
Du allerede er i OpenAI-økosystemet (ChatGPT Plus, Assistants API)
Hastighed er højeste prioritet (GPT-5.2 har tendens til at være hurtigere ved simple forespørgsler)
Du har brug for OpenAI-specifikke værktøjer (function calling, strukturerede outputs)

Vælg Gemini 3 Pro, når:

Du arbejder med video- eller lydindhold
Du behandler store dokumenter i flere formater
Du bygger på Google Cloud-infrastruktur
Du har brug for nativ 1M kontekst med dokumenteret pålidelighed
Multimodal forståelse er kernekravet

Multi-model-tilgangen

Mange produktionsteams bruger flere modeller:

Sonnet 4.6 som den primære arbejdshest (kodning, agenter, kontoropgaver)

GPT-5.2 til matematik-intensiv ræsonnering

Gemini 3 Pro til multimodal behandling

Opus 4.6 til de sværeste problemer (refaktorering af kodebaser, ny forskning)

Model-routing — automatisk valg af den rigtige model baseret på opgaven — er ved at blive standardpraksis i 2026.

Konklusion

Sonnet 4.6 er frontier-modellen med den bedste værdi i februar 2026. Den matcher eller slår GPT-5.2 på kodning, computerbrug, kontoropgaver og sikkerhed — til 25-46% lavere omkostninger. GPT-5.2 vinder på ren matematik. Gemini 3 Pro vinder på multimodalitet.

For de fleste udviklere, der bygger produkter, er Sonnet 4.6 standardvalget. Spørgsmålet er ikke, om den er god nok — det er den tydeligvis — men om de marginale gevinster ved dyrere modeller retfærdiggør prisen for dit specifikke brugsscenarie.

Bygger du med AI-modeller? Y Build håndterer hele stakken: AI-assisteret kodning med Claude Code, udrulning med ét klik, Demo Cut til produktvideoer, AI SEO og analyse. Fokusér på dit produkt, ikke din infrastruktur. Start gratis.

Kilder:

TL;DR

Sonnet 4.6	GPT-5.2	Gemini 3 Pro
Kodning (SWE-bench)	79,6%	80,0%	76,8%
Computerbrug (OSWorld)	72,5%	38,2%	N/A
Matematik (AIME 2025)	~90%	100%	~88%
Kontoropgaver (Elo)	1633	1462	N/A
Kontekst	1M (beta)	400K	1M (nativ)
Input-pris	$3/M	$5/M	$7/M
Output-pris	$15/M	$15/M	$21/M

Hurtig beslutning:

Kodning + computerbrug + omkostningseffektivitet → Claude Sonnet 4.6
Ren matematisk ræsonnering + hastighed → GPT-5.2
Multimodal (video, billeder, lyd) + lang kontekst → Gemini 3 Pro

AI-modellandskabet i februar 2026

Tre frontier AI-modeller konkurrerer lige nu om udviklernes opmærksomhed:

Claude Sonnet 4.6 (Anthropic, 17. februar 2026) — den nyeste, prissat til $3/$15
GPT-5.2 (OpenAI, december 2025) — ræsonneringskongen, prissat til $5/$15
Gemini 3 Pro (Google DeepMind, januar 2026) — den multimodale leder, prissat til $7/$21

Hver model har en klar styrke. Denne guide gennemgår præcis, hvor hver model vinder, hvor den taber, og hvilken du bør bruge til hvad.

Kodningsydelse

SWE-bench Verified (Virkelig softwareudvikling)

SWE-bench tester modeller i løsning af faktiske GitHub-issues — at læse kodebaser, forstå fejl og skrive patches. Det er det benchmark, der ligger tættest på en udviklers virkelige arbejde.

Model	Score
GPT-5.2	80,0%
Sonnet 4.6	79,6%
Opus 4.6	80,8%
Gemini 3 Pro	76,8%

De tre øverste ligger inden for 1,2 procentpoint. I praksis er forskellen i kodningskvalitet mellem Sonnet 4.6 og GPT-5.2 ubetydelig for de fleste opgaver.

Terminal-Bench 2.0 (Agentisk terminal-kodning)

Dette tester kodningsopgaver i flere trin i et terminalmiljø — tættere på, hvordan AI-kodningsagenter faktisk arbejder.

Model	Score
Opus 4.6	65,4%
Sonnet 4.6	59,1%
GPT-5.2	46,7%

Udvikleroplevelse fra den virkelige verden

Cursors medstifter beskrev Sonnet 4.6 som \"en mærkbar forbedring i forhold til Sonnet 4.5 over hele linjen, inklusive langsigtede opgaver og sværere problemer.\"

GitHub rapporterede \"stærke løsningsrater og den form for konsistens, som udviklere har brug for,\" da de testede Sonnet 4.6 på rettelser på tværs af kodebaser.

I direkte Claude Code-test foretrak udviklere Sonnet 4.6 frem for Sonnet 4.5 70% af tiden og anførte:

Læser eksisterende kode-kontekst før ændring

Konsoliderer logik i stedet for at duplikere

Færre falske succes-påstande

Mindre over-engineering

Vinder: Uafgjort (GPT-5.2 fører marginalt på SWE-bench, Claude fører betydeligt på agentisk terminal-kodning)

Computerbrug

Dette er den største forskel mellem de tre modeller.

Model	OSWorld Score
Sonnet 4.6	72,5%
GPT-5.2	38,2%
Gemini 3 Pro	Ikke benchmarked

Sonnet 4.6 scorer næsten det dobbelte af GPT-5.2 i computerbrug. Den ligger essentielt side om side med Opus 4.6 (72,7%).

Vinder: Claude Sonnet 4.6 (med stor margin)

Ræsonnering og matematik

AIME 2025 (Konkurrence-matematik)

Model	Score
GPT-5.2	100%
Opus 4.6	~92,8%
Sonnet 4.6	~90%
Gemini 3 Pro	~88%

GPT-5.2 opnår perfekt nøjagtighed på AIME 2025. Dette er dens klareste fordel.

GPQA Diamond (Videnskab på kandidatniveau)

Model	Score
Opus 4.6	91,3%
Sonnet 4.6	89,9%
GPT-5.2	~88%

Claude fører her, hvor Sonnet 4.6 overgår GPT-5.2 til en tredjedel af input-omkostningerne.

ARC-AGI-2 (Problemløsning af nye typer opgaver)

Model	Score
Opus 4.6	68,8%
Sonnet 4.6	58,3%

ARC-AGI-2 tester evnen til at løse helt nye typer problemer. Det er her, Opus' dybere ræsonnering betyder mest.

Vinder: GPT-5.2 (matematik), Claude (videnskab, nytænkende ræsonnering)

Kontoropgaver og vidensarbejde

GDPval-AA Elo (Kontorproduktivitet i den virkelige verden)

Model	Score
Sonnet 4.6	1633
Opus 4.6	1606
GPT-5.2	1462

Sonnet 4.6 fører over alle modeller — inklusive Opus — inden for regneark, formularbehandling, dokumentanalyse og dataopsummering.

Finance Agent v1.1 (Agentisk finansiel analyse)

Model	Score
Sonnet 4.6	63,3%
Opus 4.6	60,1%
GPT-5.2	59,0%

Vinder: Claude Sonnet 4.6

Multimodale evner

Gemini 3 Pros unikke styrke

Det er her, Gemini 3 Pro skiller sig ud. Den behandler nativt:

Tekst, billeder, lyd og video i en enkelt kontekst

Op til 1 times video eller 11 timers lyd

PDF-dokumenter med forståelse for visuelt layout

Billedforståelse

Alle tre modeller håndterer billeder godt. Gemini 3 Pro har et lille forspring i kompleks visuel ræsonnering, men gabet er mindre end i 2025.

Vinder: Gemini 3 Pro (betydeligt, for video/lyd)

Kontekstvindue

Model	Kontekstvindue	Nativ/Beta
Gemini 3 Pro	1M tokens	Nativ
Sonnet 4.6	1M tokens	Beta
GPT-5.2	400K tokens	Nativ

Både Gemini og Sonnet tilbyder nu kontekster på 1M tokens, men Geminis er fuldt nativ, mens Sonnets er i beta. GPT-5.2 er begrænset til 400K.

Vinder: Gemini 3 Pro (nativ 1M), med Sonnet 4.6 tæt bagefter

Prissætning

Sammenligning af API-omkostninger

Model	Input (/M tokens)	Output (/M tokens)	Total for 100K in + 20K out
Sonnet 4.6	$3	$15	$0,60
GPT-5.2	$5	$15	$0,80
Gemini 3 Pro	$7	$21	$1,12
Opus 4.6	$15	$75	$3,00

Sonnet 4.6 er den billigste frontier-model med en betydelig margin — 25% mindre end GPT-5.2 pr. session, 46% mindre end Gemini 3 Pro.

I stor skala (100 sessioner/dag)

Model	Daglig omkostning	Månedlig omkostning
Sonnet 4.6	$60	$1.800
GPT-5.2	$80	$2.400
Gemini 3 Pro	$112	$3.360
Opus 4.6	$300	$9.000

Omkostningsfordelen akkumuleres. En startup, der kører 100 AI-agentsessioner om dagen, sparer $600/måned ved at vælge Sonnet 4.6 frem for GPT-5.2, og $1.560/måned frem for Gemini 3 Pro.

Vinder: Claude Sonnet 4.6

Sikkerhed og pålidelighed

Modstandskraft over for prompt-injection

Hallucinationsrate

Pålidelighed i produktion

Vinder: Claude Sonnet 4.6 (især for agentisk sikkerhed)

Hvilken model skal du bruge?

Vælg Sonnet 4.6, når:

Du bygger AI-kodningsagenter eller bruger Claude Code
Du implementerer agenter til computerbrug / browser-automatisering
Du kører kontorproduktivitetsopgaver (dataanalyse, formularer, dokumenter)
Budgettet betyder noget — Sonnet 4.6 giver mest ydeevne pr. dollar
Du bygger agenter, der behandler upålideligt input (modstandskraft mod prompt-injection)
Du ønsker det bedste gratis niveau (claude.ai Free)

Vælg GPT-5.2, når:

Du har matematik-tunge opgaver (konkurrence-matematik, finansiel modellering med komplekse ligninger)
Du allerede er i OpenAI-økosystemet (ChatGPT Plus, Assistants API)
Hastighed er højeste prioritet (GPT-5.2 har tendens til at være hurtigere ved simple forespørgsler)
Du har brug for OpenAI-specifikke værktøjer (function calling, strukturerede outputs)

Vælg Gemini 3 Pro, når:

Du arbejder med video- eller lydindhold
Du behandler store dokumenter i flere formater
Du bygger på Google Cloud-infrastruktur
Du har brug for nativ 1M kontekst med dokumenteret pålidelighed
Multimodal forståelse er kernekravet

Multi-model-tilgangen

Mange produktionsteams bruger flere modeller:

Sonnet 4.6 som den primære arbejdshest (kodning, agenter, kontoropgaver)

GPT-5.2 til matematik-intensiv ræsonnering

Gemini 3 Pro til multimodal behandling

Opus 4.6 til de sværeste problemer (refaktorering af kodebaser, ny forskning)

Model-routing — automatisk valg af den rigtige model baseret på opgaven — er ved at blive standardpraksis i 2026.

Konklusion

Kilder: