Sonnet 4.6 vs GPT-5.2 vs Gemini 3: Gids voor 2026

TL;DR

Sonnet 4.6	GPT-5.2	Gemini 3 Pro
Programmeren (SWE-bench)	79.6%	80.0%	76.8%
Computergebruik (OSWorld)	72.5%	38.2%	N/A
Wiskunde (AIME 2025)	~90%	100%	~88%
Kantoortaken (Elo)	1633	1462	N/A
Context	1M (bèta)	400K	1M (native)
Inputprijs	$3/M	$5/M	$7/M
Outputprijs	$15/M	$15/M	$21/M

Snelle beslissing:

Programmeren + computergebruik + kostenefficiëntie → Claude Sonnet 4.6
Puur wiskundig redeneren + snelheid → GPT-5.2
Multimodaal (video, afbeeldingen, audio) + lange context → Gemini 3 Pro

Het AI-modellandschap van februari 2026

Drie toonaangevende AI-modellen strijden momenteel om de aandacht van ontwikkelaars:

Claude Sonnet 4.6 (Anthropic, 17 februari 2026) — de nieuwste, geprijsd op $3/$15
GPT-5.2 (OpenAI, december 2025) — de koning van het redeneren, geprijsd op $5/$15
Gemini 3 Pro (Google DeepMind, januari 2026) — de multimodale leider, geprijsd op $7/$21

Elk model heeft een duidelijke kracht. Deze gids analyseert precies waar elk model wint, waar het verliest en welke je voor welk doel moet gebruiken.

Programmeerprestaties

SWE-bench Verified (Software Engineering in de praktijk)

SWE-bench test modellen op het oplossen van werkelijke GitHub-issues — het lezen van codebases, het begrijpen van bugs en het schrijven van patches. Het is de benchmark die het dichtst bij het echte werk van een ontwikkelaar staat.

Model	Score
GPT-5.2	80.0%
Sonnet 4.6	79.6%
Opus 4.6	80.8%
Gemini 3 Pro	76.8%

De top drie bevindt zich binnen een marge van 1,2 procentpunt. In de praktijk is het verschil in programmeerkwaliteit tussen Sonnet 4.6 en GPT-5.2 voor de meeste taken verwaarloosbaar.

Terminal-Bench 2.0 (Agentisch programmeren in de terminal)

Dit test programmeertaken met meerdere stappen in een terminalomgeving — wat dichter ligt bij hoe AI-programmeeragents daadwerkelijk werken.

Model	Score
Opus 4.6	65.4%
Sonnet 4.6	59.1%
GPT-5.2	46.7%

Claude-modellen domineren hier. Zelfs Sonnet 4.6 presteert 12,4 punten beter dan GPT-5.2 op het gebied van agentisch programmeren — een enorm gat. Dit verklaart waarom Claude Code het favoriete gereedschap is voor AI-ondersteunde ontwikkeling.

Ervaring van ontwikkelaars in de praktijk

De medeoprichter van Cursor beschreef Sonnet 4.6 als "een aanzienlijke verbetering ten opzichte van Sonnet 4.5 over de hele linie, inclusief langetermijntaken en complexere problemen."

GitHub rapporteerde "sterke oplossingspercentages en het soort consistentie dat ontwikkelaars nodig hebben" bij het testen van Sonnet 4.6 op fixes die de hele codebase beslaan.

In directe Claude Code-testen gaven ontwikkelaars in 70% van de gevallen de voorkeur aan Sonnet 4.6 boven Sonnet 4.5, met als redenen:

Leest de bestaande codecontext voordat er wijzigingen worden aangebracht

Consolideert logica in plaats van deze te dupliceren

Minder valse claims over succes

Minder over-engineering

Winnaar: Gelijkspel (GPT-5.2 leidt marginaal op SWE-bench, Claude leidt aanzienlijk op agentisch programmeren in de terminal)

Computergebruik

Dit is het grootste verschil tussen de drie modellen.

Model	OSWorld Score
Sonnet 4.6	72.5%
GPT-5.2	38.2%
Gemini 3 Pro	Niet gebenchmarkt

Sonnet 4.6 scoort bijna het dubbele van GPT-5.2 op computergebruik. Het staat nagenoeg gelijk aan Opus 4.6 (72,7%).

Wat dit in de praktijk betekent: Sonnet 4.6 kan betrouwbaar door webapplicaties navigeren, formulieren invullen, interactie hebben met spreadsheets en desktop-workflows met meerdere stappen automatiseren. GPT-5.2 heeft moeite met deze taken.

Jamie Cuffe (CEO, Pace) rapporteerde een nauwkeurigheid van 94% op hun benchmark voor computergebruik in de verzekeringssector met Sonnet 4.6: "Het redeneert door fouten heen en corrigeert zichzelf op manieren die we nog niet eerder hebben gezien."

Winnaar: Claude Sonnet 4.6 (met een ruime marge)

Redeneren en wiskunde

AIME 2025 (Wiskundecompetitie)

Model	Score
GPT-5.2	100%
Opus 4.6	~92.8%
Sonnet 4.6	~90%
Gemini 3 Pro	~88%

GPT-5.2 behaalt een perfecte nauwkeurigheid op AIME 2025. Dit is het duidelijkste voordeel van dit model.

GPQA Diamond (Wetenschap op postdoctoraal niveau)

Model	Score
Opus 4.6	91.3%
Sonnet 4.6	89.9%
GPT-5.2	~88%

Claude loopt hier voorop, waarbij Sonnet 4.6 beter presteert dan GPT-5.2 tegen 1/3 van de inputkosten.

ARC-AGI-2 (Oplossen van nieuwe problemen)

Model	Score
Opus 4.6	68.8%
Sonnet 4.6	58.3%

ARC-AGI-2 test het vermogen om volledig nieuwe soorten problemen op te lossen. Dit is waar het diepere redeneervermogen van Opus het belangrijkst is.

Winnaar: GPT-5.2 (wiskunde), Claude (wetenschap, nieuw redeneren)

Kantoortaken en kenniswerk

GDPval-AA Elo (Productiviteit in de kantoorpraktijk)

Model	Score
Sonnet 4.6	1633
Opus 4.6	1606
GPT-5.2	1462

Sonnet 4.6 loopt voor op alle modellen — inclusief Opus — bij spreadsheets, formulierverwerking, documentanalyse en datasamenvatting.

Finance Agent v1.1 (Agentische financiële analyse)

Model	Score
Sonnet 4.6	63.3%
Opus 4.6	60.1%
GPT-5.2	59.0%

Ook hier leidt Sonnet 4.6. In één test analyseerde een retailbedrijf verkoopgegevens over meerdere jaren. Sonnet 4.5 had opeenvolgende berekeningsfouten gemaakt in de financiële interpretatie. Sonnet 4.6 berekende de investering-kostenverhoudingen correct en rangschikte de belangrijkste artikelen op prijsstijging.

Winnaar: Claude Sonnet 4.6

Multimodale mogelijkheden

De unieke kracht van Gemini 3 Pro

Dit is waar Gemini 3 Pro zich onderscheidt. Het verwerkt native:

Tekst, afbeeldingen, audio en video in een enkele context

Tot 1 uur video of 11 uur audio

PDF-documenten met begrip van visuele lay-out

Noch Sonnet 4.6 noch GPT-5.2 kan video native verwerken. Voor taken die video-analyse, audiotranscriptie of documentverwerking in meerdere formaten omvatten, is Gemini 3 Pro de enige keuze van de drie.

Begrip van afbeeldingen

Alle drie de modellen gaan goed om met afbeeldingen. Gemini 3 Pro heeft een lichte voorsprong op complex visueel redeneren, maar het gat is kleiner dan in 2025.

Winnaar: Gemini 3 Pro (aanzienlijk, voor video/audio)

Context Window

Model	Context Window	Native/Bèta
Gemini 3 Pro	1M tokens	Native
Sonnet 4.6	1M tokens	Bèta
GPT-5.2	400K tokens	Native

Zowel Gemini als Sonnet bieden nu contexten van 1M tokens, maar die van Gemini is volledig native, terwijl die van Sonnet zich in de bètafase bevindt. GPT-5.2 is beperkt tot 400K.

Sonnet 4.6 voegt context compaction toe — het automatisch samenvatten van oudere delen van het gesprek om de effectieve context nog verder uit te breiden. Dit is vooral handig in Claude Code-sessies waar gesprekken erg lang kunnen worden.

Opus 4.6 scoort 76% op MRCR v2 (8-needle, 1M context) voor redeneren over lange context — aanzienlijk beter dan de 18,5% van Sonnet 4.5. De scores van Sonnet 4.6 voor deze specifieke test zijn nog niet gepubliceerd.

Winnaar: Gemini 3 Pro (native 1M), met Sonnet 4.6 vlak daarachter

Prijzen

Vergelijking van API-kosten

Model	Input (/M tokens)	Output (/M tokens)	Totaal voor 100K in + 20K out
Sonnet 4.6	$3	$15	$0.60
GPT-5.2	$5	$15	$0.80
Gemini 3 Pro	$7	$21	$1.12
Opus 4.6	$15	$75	$3.00

Sonnet 4.6 is het goedkoopste toonaangevende model met een aanzienlijke marge — 25% minder dan GPT-5.2 per sessie, 46% minder dan Gemini 3 Pro.

Op schaal (100 sessies/dag)

Model	Dagelijkse kosten	Maandelijkse kosten
Sonnet 4.6	$60	$1.800
GPT-5.2	$80	$2.400
Gemini 3 Pro	$112	$3.360
Opus 4.6	$300	$9.000

Het kostenvoordeel telt op. Een startup die 100 AI-agent sessies per dag draait, bespaart $600 per maand door Sonnet 4.6 te kiezen boven GPT-5.2, en $1.560 per maand ten opzichte van Gemini 3 Pro.

Winnaar: Claude Sonnet 4.6

Veiligheid en betrouwbaarheid

Weerstand tegen Prompt Injection

Sonnet 4.6 evenaart Opus 4.6 in weerstand tegen prompt injection — een aanzienlijke verbetering ten opzichte van Sonnet 4.5. Dit is belangrijk voor elke agent die over het web surft, e-mails leest of door gebruikers ingediende inhoud verwerkt.

Hallucinatiepercentage

Ontwikkelaars rapporteren consequent minder hallucinaties bij Sonnet 4.6 in vergelijking met zowel Sonnet 4.5 als GPT-5.2. GPT-5.2 claimt 65% minder hallucinaties vergeleken met GPT-5.0, maar directe vergelijkingen tussen modellen zijn lastig.

Betrouwbaarheid in productie

Claude Code-gebruikers melden dat Sonnet 4.6 "minder lui" is — het voert stappen in complexe taken volledig uit in plaats van de kantjes ervan af te lopen of voortijdig te claimen dat een taak voltooid is. Dit is een praktische verbetering van de gebruikservaring die benchmarks niet vastleggen.

Winnaar: Claude Sonnet 4.6 (vooral voor agentische veiligheid)

Welk model moet je gebruiken?

Kies Sonnet 4.6 wanneer:

Je AI-programmeeragents bouwt of Claude Code gebruikt
Je agents implementeert voor computergebruik of browserautomatisering
Je kantoortaken uitvoert (data-analyse, formulieren, documenten)
Budget belangrijk is — Sonnet 4.6 biedt de meeste prestaties per dollar
Je agents bouwt die niet-vertrouwde input verwerken (weerstand tegen prompt injection)
Je de beste gratis versie wilt (claude.ai Free)

Kies GPT-5.2 wanneer:

Je wiskundig zware taken hebt (wiskundecompetities, financiële modellering met complexe vergelijkingen)
Je al in het OpenAI-ecosysteem zit (ChatGPT Plus, Assistants API)
Snelheid de hoogste prioriteit heeft (GPT-5.2 is vaak sneller bij eenvoudige vragen)
Je OpenAI-specifieke tools nodig hebt (function calling, structured outputs)

Kies Gemini 3 Pro wanneer:

Je werkt met video- of audio-inhoud
Je grote documenten in meerdere formaten verwerkt
Je bouwt op de Google Cloud-infrastructuur
Je native 1M context nodig hebt met bewezen betrouwbaarheid
Multimodaal begrip de kernvereiste is

De multi-model aanpak

Veel productieteams gebruiken meerdere modellen:

Sonnet 4.6 als het primaire werkpaard (programmeren, agents, kantoortaken)

GPT-5.2 voor wiskundig intensief redeneren

Gemini 3 Pro voor multimodale verwerking

Opus 4.6 voor de allermoeilijkste problemen (herstructurering van codebases, nieuw onderzoek)

Model routing — het automatisch selecteren van het juiste model op basis van de taak — wordt in 2026 de standaardpraktijk.

De conclusie

Sonnet 4.6 is het model met de beste prijs-kwaliteitverhouding in februari 2026. Het evenaart of verslaat GPT-5.2 op het gebied van programmeren, computergebruik, kantoortaken en veiligheid — tegen 25-46% lagere kosten. GPT-5.2 wint op het gebied van pure wiskunde. Gemini 3 Pro wint op het gebied van multimodaliteit.

Voor de meeste ontwikkelaars die producten bouwen, is Sonnet 4.6 de standaardkeuze. De vraag is niet of het goed genoeg is — dat is het overduidelijk — maar of de marginale winst van duurdere modellen de kosten rechtvaardigt voor jouw specifieke use-case.

Bouw je met AI-modellen? Y Build beheert de volledige stack: AI-ondersteund programmeren met Claude Code, implementatie met één klik, Demo Cut voor productvideo's, AI SEO en analytics. Focus op je product, niet op je infrastructuur. Start gratis.

Bronnen:

TL;DR

Sonnet 4.6	GPT-5.2	Gemini 3 Pro
Programmeren (SWE-bench)	79.6%	80.0%	76.8%
Computergebruik (OSWorld)	72.5%	38.2%	N/A
Wiskunde (AIME 2025)	~90%	100%	~88%
Kantoortaken (Elo)	1633	1462	N/A
Context	1M (bèta)	400K	1M (native)
Inputprijs	$3/M	$5/M	$7/M
Outputprijs	$15/M	$15/M	$21/M

Snelle beslissing:

Programmeren + computergebruik + kostenefficiëntie → Claude Sonnet 4.6
Puur wiskundig redeneren + snelheid → GPT-5.2
Multimodaal (video, afbeeldingen, audio) + lange context → Gemini 3 Pro

Het AI-modellandschap van februari 2026

Drie toonaangevende AI-modellen strijden momenteel om de aandacht van ontwikkelaars:

Claude Sonnet 4.6 (Anthropic, 17 februari 2026) — de nieuwste, geprijsd op $3/$15
GPT-5.2 (OpenAI, december 2025) — de koning van het redeneren, geprijsd op $5/$15
Gemini 3 Pro (Google DeepMind, januari 2026) — de multimodale leider, geprijsd op $7/$21

Elk model heeft een duidelijke kracht. Deze gids analyseert precies waar elk model wint, waar het verliest en welke je voor welk doel moet gebruiken.

Programmeerprestaties

SWE-bench Verified (Software Engineering in de praktijk)

Model	Score
GPT-5.2	80.0%
Sonnet 4.6	79.6%
Opus 4.6	80.8%
Gemini 3 Pro	76.8%

De top drie bevindt zich binnen een marge van 1,2 procentpunt. In de praktijk is het verschil in programmeerkwaliteit tussen Sonnet 4.6 en GPT-5.2 voor de meeste taken verwaarloosbaar.

Terminal-Bench 2.0 (Agentisch programmeren in de terminal)

Dit test programmeertaken met meerdere stappen in een terminalomgeving — wat dichter ligt bij hoe AI-programmeeragents daadwerkelijk werken.

Model	Score
Opus 4.6	65.4%
Sonnet 4.6	59.1%
GPT-5.2	46.7%

Ervaring van ontwikkelaars in de praktijk

De medeoprichter van Cursor beschreef Sonnet 4.6 als "een aanzienlijke verbetering ten opzichte van Sonnet 4.5 over de hele linie, inclusief langetermijntaken en complexere problemen."

GitHub rapporteerde "sterke oplossingspercentages en het soort consistentie dat ontwikkelaars nodig hebben" bij het testen van Sonnet 4.6 op fixes die de hele codebase beslaan.

In directe Claude Code-testen gaven ontwikkelaars in 70% van de gevallen de voorkeur aan Sonnet 4.6 boven Sonnet 4.5, met als redenen:

Leest de bestaande codecontext voordat er wijzigingen worden aangebracht

Consolideert logica in plaats van deze te dupliceren

Minder valse claims over succes

Minder over-engineering

Winnaar: Gelijkspel (GPT-5.2 leidt marginaal op SWE-bench, Claude leidt aanzienlijk op agentisch programmeren in de terminal)

Computergebruik

Dit is het grootste verschil tussen de drie modellen.

Model	OSWorld Score
Sonnet 4.6	72.5%
GPT-5.2	38.2%
Gemini 3 Pro	Niet gebenchmarkt

Sonnet 4.6 scoort bijna het dubbele van GPT-5.2 op computergebruik. Het staat nagenoeg gelijk aan Opus 4.6 (72,7%).

Winnaar: Claude Sonnet 4.6 (met een ruime marge)

Redeneren en wiskunde

AIME 2025 (Wiskundecompetitie)

Model	Score
GPT-5.2	100%
Opus 4.6	~92.8%
Sonnet 4.6	~90%
Gemini 3 Pro	~88%

GPT-5.2 behaalt een perfecte nauwkeurigheid op AIME 2025. Dit is het duidelijkste voordeel van dit model.

GPQA Diamond (Wetenschap op postdoctoraal niveau)

Model	Score
Opus 4.6	91.3%
Sonnet 4.6	89.9%
GPT-5.2	~88%

Claude loopt hier voorop, waarbij Sonnet 4.6 beter presteert dan GPT-5.2 tegen 1/3 van de inputkosten.

ARC-AGI-2 (Oplossen van nieuwe problemen)

Model	Score
Opus 4.6	68.8%
Sonnet 4.6	58.3%

ARC-AGI-2 test het vermogen om volledig nieuwe soorten problemen op te lossen. Dit is waar het diepere redeneervermogen van Opus het belangrijkst is.

Winnaar: GPT-5.2 (wiskunde), Claude (wetenschap, nieuw redeneren)

Kantoortaken en kenniswerk

GDPval-AA Elo (Productiviteit in de kantoorpraktijk)

Model	Score
Sonnet 4.6	1633
Opus 4.6	1606
GPT-5.2	1462

Sonnet 4.6 loopt voor op alle modellen — inclusief Opus — bij spreadsheets, formulierverwerking, documentanalyse en datasamenvatting.

Finance Agent v1.1 (Agentische financiële analyse)

Model	Score
Sonnet 4.6	63.3%
Opus 4.6	60.1%
GPT-5.2	59.0%

Winnaar: Claude Sonnet 4.6

Multimodale mogelijkheden

De unieke kracht van Gemini 3 Pro

Dit is waar Gemini 3 Pro zich onderscheidt. Het verwerkt native:

Tekst, afbeeldingen, audio en video in een enkele context

Tot 1 uur video of 11 uur audio

PDF-documenten met begrip van visuele lay-out

Begrip van afbeeldingen

Alle drie de modellen gaan goed om met afbeeldingen. Gemini 3 Pro heeft een lichte voorsprong op complex visueel redeneren, maar het gat is kleiner dan in 2025.

Winnaar: Gemini 3 Pro (aanzienlijk, voor video/audio)

Context Window

Model	Context Window	Native/Bèta
Gemini 3 Pro	1M tokens	Native
Sonnet 4.6	1M tokens	Bèta
GPT-5.2	400K tokens	Native

Zowel Gemini als Sonnet bieden nu contexten van 1M tokens, maar die van Gemini is volledig native, terwijl die van Sonnet zich in de bètafase bevindt. GPT-5.2 is beperkt tot 400K.

Winnaar: Gemini 3 Pro (native 1M), met Sonnet 4.6 vlak daarachter

Prijzen

Vergelijking van API-kosten

Model	Input (/M tokens)	Output (/M tokens)	Totaal voor 100K in + 20K out
Sonnet 4.6	$3	$15	$0.60
GPT-5.2	$5	$15	$0.80
Gemini 3 Pro	$7	$21	$1.12
Opus 4.6	$15	$75	$3.00

Sonnet 4.6 is het goedkoopste toonaangevende model met een aanzienlijke marge — 25% minder dan GPT-5.2 per sessie, 46% minder dan Gemini 3 Pro.

Op schaal (100 sessies/dag)

Model	Dagelijkse kosten	Maandelijkse kosten
Sonnet 4.6	$60	$1.800
GPT-5.2	$80	$2.400
Gemini 3 Pro	$112	$3.360
Opus 4.6	$300	$9.000

Het kostenvoordeel telt op. Een startup die 100 AI-agent sessies per dag draait, bespaart $600 per maand door Sonnet 4.6 te kiezen boven GPT-5.2, en $1.560 per maand ten opzichte van Gemini 3 Pro.

Winnaar: Claude Sonnet 4.6

Veiligheid en betrouwbaarheid

Weerstand tegen Prompt Injection

Hallucinatiepercentage

Betrouwbaarheid in productie

Winnaar: Claude Sonnet 4.6 (vooral voor agentische veiligheid)

Welk model moet je gebruiken?

Kies Sonnet 4.6 wanneer:

Je AI-programmeeragents bouwt of Claude Code gebruikt
Je agents implementeert voor computergebruik of browserautomatisering
Je kantoortaken uitvoert (data-analyse, formulieren, documenten)
Budget belangrijk is — Sonnet 4.6 biedt de meeste prestaties per dollar
Je agents bouwt die niet-vertrouwde input verwerken (weerstand tegen prompt injection)
Je de beste gratis versie wilt (claude.ai Free)

Kies GPT-5.2 wanneer:

Je wiskundig zware taken hebt (wiskundecompetities, financiële modellering met complexe vergelijkingen)
Je al in het OpenAI-ecosysteem zit (ChatGPT Plus, Assistants API)
Snelheid de hoogste prioriteit heeft (GPT-5.2 is vaak sneller bij eenvoudige vragen)
Je OpenAI-specifieke tools nodig hebt (function calling, structured outputs)

Kies Gemini 3 Pro wanneer:

Je werkt met video- of audio-inhoud
Je grote documenten in meerdere formaten verwerkt
Je bouwt op de Google Cloud-infrastructuur
Je native 1M context nodig hebt met bewezen betrouwbaarheid
Multimodaal begrip de kernvereiste is

De multi-model aanpak

Veel productieteams gebruiken meerdere modellen:

Sonnet 4.6 als het primaire werkpaard (programmeren, agents, kantoortaken)

GPT-5.2 voor wiskundig intensief redeneren

Gemini 3 Pro voor multimodale verwerking

Opus 4.6 voor de allermoeilijkste problemen (herstructurering van codebases, nieuw onderzoek)

Model routing — het automatisch selecteren van het juiste model op basis van de taak — wordt in 2026 de standaardpraktijk.

De conclusie

Bronnen: