Sonnet 4.6 vs GPT-5.2 vs Gemini 3: Průvodce pro rok 2026

TL;DR

Sonnet 4.6	GPT-5.2	Gemini 3 Pro
Kódování (SWE-bench)	79.6%	80.0%	76.8%
Používání počítače (OSWorld)	72.5%	38.2%	N/A
Matematika (AIME 2025)	~90%	100%	~88%
Kancelářské úkoly (Elo)	1633	1462	N/A
Kontext	1M (beta)	400K	1M (nativně)
Cena za vstup	$3/M	$5/M	$7/M
Cena za výstup	$15/M	$15/M	$21/M

Rychlé rozhodnutí:

Kódování + používání počítače + nákladová efektivita → Claude Sonnet 4.6
Čisté matematické uvažování + rychlost → GPT-5.2
Multimodalita (video, obrázky, audio) + dlouhý kontext → Gemini 3 Pro

Prostředí AI modelů v únoru 2026

O pozornost vývojářů právě teď soupeří tři špičkové (frontier) AI modely:

Claude Sonnet 4.6 (Anthropic, 17. února 2026) — nejnovější, s cenou $3/$15
GPT-5.2 (OpenAI, prosinec 2025) — král uvažování (reasoning), s cenou $5/$15
Gemini 3 Pro (Google DeepMind, leden 2026) — lídr v multimodalitě, s cenou $7/$21

Každý z nich má jasnou silnou stránku. Tento průvodce přesně rozebírá, kde který model vyhrává, kde prohrává a který byste měli použít pro své účely.

Výkon při kódování

SWE-bench Verified (Softwarové inženýrství v reálném světě)

SWE-bench testuje modely při řešení skutečných problémů (issues) na GitHubu — čtení kódových bází, porozumění chybám, psaní oprav (patches). Je to benchmark nejbližší skutečné práci vývojáře.

Model	Skóre
GPT-5.2	80.0%
Sonnet 4.6	79.6%
Opus 4.6	80.8%
Gemini 3 Pro	76.8%

První tři modely se pohybují v rozmezí 1,2 procentního bodu. V praxi je rozdíl v kvalitě kódování mezi modely Sonnet 4.6 a GPT-5.2 u většiny úkolů zanedbatelný.

Terminal-Bench 2.0 (Agentické kódování v terminálu)

Tento test prověřuje vícekrokové úkoly v kódování v prostředí terminálu — což je blíže tomu, jak AI agenti pro kódování skutečně fungují.

Model	Skóre
Opus 4.6	65.4%
Sonnet 4.6	59.1%
GPT-5.2	46.7%

Zde dominují modely Claude. Dokonce i Sonnet 4.6 překonává GPT-5.2 o 12,4 bodu v agentickém kódování — což je obrovský rozdíl. To vysvětluje, proč je Claude Code preferovaným nástrojem pro vývoj s asistencí AI.

Zkušenosti vývojářů z praxe

Spoluzakladatel Cursoru popsal Sonnet 4.6 jako „výrazné zlepšení oproti Sonnet 4.5 ve všech směrech, včetně dlouhodobých úkolů a obtížnějších problémů.“

GitHub oznámil „vysokou míru úspěšnosti řešení a konzistenci, kterou vývojáři potřebují“ při testování Sonnet 4.6 na opravách napříč celou kódovou bází.

V přímém testování Claude Code vývojáři preferovali Sonnet 4.6 před Sonnet 4.5 v 70 % případů, přičemž uváděli:

Před úpravou si přečte kontext stávajícího kódu

Konsoliduje logiku namísto duplikování

Méně falešných tvrzení o úspěchu

Méně zbytečného over-engineeringu

Vítěz: Nerozhodně (GPT-5.2 vede mírně v SWE-bench, Claude vede výrazně v agentickém kódování v terminálu)

Používání počítače (Computer Use)

Zde je mezi těmito třemi modely největší rozdíl.

Model	OSWorld Skóre
Sonnet 4.6	72.5%
GPT-5.2	38.2%
Gemini 3 Pro	Netestováno

Sonnet 4.6 dosahuje v používání počítače téměř dvojnásobného skóre oproti GPT-5.2. Je v podstatě na stejné úrovni jako Opus 4.6 (72,7 %).

Co to znamená v praxi: Sonnet 4.6 dokáže spolehlivě procházet webové aplikace, vyplňovat formuláře, pracovat s tabulkami a automatizovat vícekrokové pracovní postupy na ploše. GPT-5.2 s těmito úkoly zápasí.

Jamie Cuffe (CEO, Pace) nahlásil 94% přesnost v jejich benchmarku používání počítače v pojišťovnictví se Sonnet 4.6: „Dokáže analyzovat selhání a samoopravit se způsobem, který jsme dříve neviděli.“

Vítěz: Claude Sonnet 4.6 (s velkým náskokem)

Uvažování a matematika

AIME 2025 (Soutěžní matematika)

Model	Skóre
GPT-5.2	100%
Opus 4.6	~92.8%
Sonnet 4.6	~90%
Gemini 3 Pro	~88%

GPT-5.2 dosahuje stoprocentní přesnosti v AIME 2025. To je jeho nejjasnější výhoda.

GPQA Diamond (Věda na postgraduální úrovni)

Model	Skóre
Opus 4.6	91.3%
Sonnet 4.6	89.9%
GPT-5.2	~88%

Zde vede Claude, přičemž Sonnet 4.6 překonává GPT-5.2 při třetinových nákladech na vstup.

ARC-AGI-2 (Řešení nových problémů)

Model	Skóre
Opus 4.6	68.8%
Sonnet 4.6	58.3%

ARC-AGI-2 testuje schopnost řešit zcela nové typy problémů. Zde se nejvíce projevuje hlubší uvažování modelu Opus.

Vítěz: GPT-5.2 (matematika), Claude (věda, nové uvažování)

Kancelářské úkoly a duševní práce

GDPval-AA Elo (Produktivita v reálném světě)

Model	Skóre
Sonnet 4.6	1633
Opus 4.6	1606
GPT-5.2	1462

Sonnet 4.6 vede nad všemi modely — včetně Opus — v práci s tabulkami, zpracování formulářů, analýze dokumentů a sumarizaci dat.

Finance Agent v1.1 (Agentická finanční analýza)

Model	Skóre
Sonnet 4.6	63.3%
Opus 4.6	60.1%
GPT-5.2	59.0%

Opět vede Sonnet 4.6. V jednom testu analyzovala maloobchodní společnost víceletá data o prodejích. Sonnet 4.5 dělal kaskádové chyby ve výpočtech při finanční interpretaci. Sonnet 4.6 správně vypočítal poměry investic k nákladům a seřadil nejprodávanější položky podle nárůstu ceny.

Vítěz: Claude Sonnet 4.6

Multimodální schopnosti

Jedinečná síla Gemini 3 Pro

V tomto směru se Gemini 3 Pro odlišuje. Nativně zpracovává:

Text, obrázky, audio a video v jediném kontextu

Až 1 hodinu videa nebo 11 hodin audia

PDF dokumenty s porozuměním vizuálnímu rozvržení

Ani Sonnet 4.6, ani GPT-5.2 neumí zpracovávat video nativně. Pro úkoly zahrnující analýzu videa, přepis audia nebo zpracování dokumentů ve více formátech je Gemini 3 Pro jedinou volbou z této trojice.

Porozumění obrazu

Všechny tři modely zvládají obrázky dobře. Gemini 3 Pro má mírný náskok v komplexním vizuálním uvažování, ale rozdíl je menší než v roce 2025.

Vítěz: Gemini 3 Pro (výrazně v oblasti videa/audia)

Kontextové okno

Model	Kontextové okno	Nativní/Beta
Gemini 3 Pro	1M tokenů	Nativní
Sonnet 4.6	1M tokenů	Beta
GPT-5.2	400K tokenů	Nativní

Gemini i Sonnet nyní nabízejí kontext 1 milion tokenů, ale u Gemini je plně nativní, zatímco u Sonnetu je v beta verzi. GPT-5.2 je omezen na 400 tisíc.

Sonnet 4.6 přidává zhutňování kontextu (context compaction) — automatickou sumarizaci starších částí konverzace pro další rozšíření efektivního kontextu. To je užitečné zejména v relacích Claude Code, kde mohou být konverzace velmi dlouhé.

Opus 4.6 dosahuje 76 % v MRCR v2 (8-needle, 1M kontext) pro uvažování v dlouhém kontextu — což je výrazně lepší než 18,5 % u Sonnetu 4.5. Skóre pro Sonnet 4.6 v tomto konkrétním testu zatím nebyla zveřejněna.

Vítěz: Gemini 3 Pro (nativní 1M), se Sonnetem 4.6 v těsném závěsu

Ceny

Porovnání nákladů na API

Model	Vstup (/M tokenů)	Výstup (/M tokenů)	Celkem za 100K in + 20K out
Sonnet 4.6	$3	$15	$0.60
GPT-5.2	$5	$15	$0.80
Gemini 3 Pro	$7	$21	$1.12
Opus 4.6	$15	$75	$3.00

Sonnet 4.6 je nejlevnější špičkový model s významným rozdílem — o 25 % méně než GPT-5.2 na jednu relaci a o 46 % méně než Gemini 3 Pro.

Ve velkém měřítku (100 relací denně)

Model	Denní náklady	Měsíční náklady
Sonnet 4.6	$60	$1,800
GPT-5.2	$80	$2,400
Gemini 3 Pro	$112	$3,360
Opus 4.6	$300	$9,000

Cenová výhoda se sčítá. Startup provozující 100 relací AI agentů denně ušetří $600 měsíčně, pokud zvolí Sonnet 4.6 místo GPT-5.2, a $1,560 měsíčně oproti Gemini 3 Pro.

Vítěz: Claude Sonnet 4.6

Bezpečnost a spolehlivost

Odolnost proti Prompt Injection

Sonnet 4.6 se vyrovná modelu Opus 4.6 v odolnosti proti prompt injection — což je výrazné zlepšení oproti Sonnetu 4.5. To je důležité pro každého agenta, který prohlíží web, čte e-maily nebo zpracovává obsah zadaný uživatelem.

Míra halucinací

Vývojáři konzistentně hlásí méně halucinací u Sonnetu 4.6 ve srovnání se Sonnetem 4.5 i GPT-5.2. GPT-5.2 deklaruje o 65 % méně halucinací oproti GPT-5.0, ale přímé srovnání mezi modely je obtížné.

Spolehlivost v produkci

Uživatelé Claude Code uvádějí, že Sonnet 4.6 je „méně líný“ — dotahuje vícekrokové úkoly do konce, místo aby si práci zjednodušoval nebo předčasně tvrdil, že je hotov. To je praktické zlepšení kvality života, které benchmarky nezachytí.

Vítěz: Claude Sonnet 4.6 (zejména pro bezpečnost agentů)

Který model byste měli použít?

Zvolte Sonnet 4.6, když:

Stavíte AI agenty pro kódování nebo používáte Claude Code
Nasazujete agenty pro používání počítače / automatizaci prohlížeče
Provádíte kancelářské úkoly (analýza dat, formuláře, dokumenty)
Záleží na rozpočtu — Sonnet 4.6 nabízí nejlepší výkon za jeden dolar
Stavíte agenty, kteří zpracovávají nedůvěryhodný vstup (odolnost proti prompt injection)
Chcete nejlepší bezplatnou verzi (claude.ai Free)

Zvolte GPT-5.2, když:

Máte úkoly náročné na matematiku (soutěžní matematika, finanční modelování se složitými rovnicemi)
Jste již součástí ekosystému OpenAI (ChatGPT Plus, Assistants API)
Rychlost je nejvyšší prioritou (GPT-5.2 bývá u jednoduchých dotazů rychlejší)
Potřebujete specifické nástroje OpenAI (function calling, strukturované výstupy)

Zvolte Gemini 3 Pro, když:

Pracujete s video nebo audio obsahem
Zpracováváte rozsáhlé dokumenty v mnoha formátech
Stavíte na infrastruktuře Google Cloud
Potřebujete nativní 1M kontext s ověřenou spolehlivostí
Multimodální porozumění je základním požadavkem

Multimodelární přístup

Mnoho produkčních týmů používá více modelů najednou:

Sonnet 4.6 jako hlavní pracovní nástroj (kódování, agenti, kancelářské úkoly)

GPT-5.2 pro matematicky náročné uvažování

Gemini 3 Pro pro multimodální zpracování

Opus 4.6 pro nejtěžší problémy (refaktorování kódové báze, nový výzkum)

Směrování modelů (model routing) — automatický výběr správného modelu na základě úkolu — se v roce 2026 stává standardní praxí.

Sečteno a podtrženo

Sonnet 4.6 je v únoru 2026 modelem s nejlepším poměrem cena/výkon. Vyrovná se nebo poráží GPT-5.2 v kódování, používání počítače, kancelářských úkolech a bezpečnosti — a to při nákladech o 25–46 % nižších. GPT-5.2 vítězí v čisté matematice. Gemini 3 Pro vítězí v multimodalitě.

Pro většinu vývojářů budujících produkty je Sonnet 4.6 výchozí volbou. Otázkou není, zda je dost dobrý — evidentně je — ale zda marginální zisky dražších modelů ospravedlní náklady pro váš konkrétní případ použití.

Budujete s AI modely? Y Build se stará o celý stack: kódování s asistencí AI přes Claude Code, nasazení na jedno kliknutí, Demo Cut pro produktová videa, AI SEO a analytiku. Soustřeďte se na svůj produkt, ne na infrastrukturu. Začněte zdarma.

Zdroje:

TL;DR

Sonnet 4.6	GPT-5.2	Gemini 3 Pro
Kódování (SWE-bench)	79.6%	80.0%	76.8%
Používání počítače (OSWorld)	72.5%	38.2%	N/A
Matematika (AIME 2025)	~90%	100%	~88%
Kancelářské úkoly (Elo)	1633	1462	N/A
Kontext	1M (beta)	400K	1M (nativně)
Cena za vstup	$3/M	$5/M	$7/M
Cena za výstup	$15/M	$15/M	$21/M

Rychlé rozhodnutí:

Kódování + používání počítače + nákladová efektivita → Claude Sonnet 4.6
Čisté matematické uvažování + rychlost → GPT-5.2
Multimodalita (video, obrázky, audio) + dlouhý kontext → Gemini 3 Pro

Prostředí AI modelů v únoru 2026

O pozornost vývojářů právě teď soupeří tři špičkové (frontier) AI modely:

Claude Sonnet 4.6 (Anthropic, 17. února 2026) — nejnovější, s cenou $3/$15
GPT-5.2 (OpenAI, prosinec 2025) — král uvažování (reasoning), s cenou $5/$15
Gemini 3 Pro (Google DeepMind, leden 2026) — lídr v multimodalitě, s cenou $7/$21

Každý z nich má jasnou silnou stránku. Tento průvodce přesně rozebírá, kde který model vyhrává, kde prohrává a který byste měli použít pro své účely.

Výkon při kódování

SWE-bench Verified (Softwarové inženýrství v reálném světě)

Model	Skóre
GPT-5.2	80.0%
Sonnet 4.6	79.6%
Opus 4.6	80.8%
Gemini 3 Pro	76.8%

První tři modely se pohybují v rozmezí 1,2 procentního bodu. V praxi je rozdíl v kvalitě kódování mezi modely Sonnet 4.6 a GPT-5.2 u většiny úkolů zanedbatelný.

Terminal-Bench 2.0 (Agentické kódování v terminálu)

Tento test prověřuje vícekrokové úkoly v kódování v prostředí terminálu — což je blíže tomu, jak AI agenti pro kódování skutečně fungují.

Model	Skóre
Opus 4.6	65.4%
Sonnet 4.6	59.1%
GPT-5.2	46.7%

Zkušenosti vývojářů z praxe

Spoluzakladatel Cursoru popsal Sonnet 4.6 jako „výrazné zlepšení oproti Sonnet 4.5 ve všech směrech, včetně dlouhodobých úkolů a obtížnějších problémů.“

GitHub oznámil „vysokou míru úspěšnosti řešení a konzistenci, kterou vývojáři potřebují“ při testování Sonnet 4.6 na opravách napříč celou kódovou bází.

V přímém testování Claude Code vývojáři preferovali Sonnet 4.6 před Sonnet 4.5 v 70 % případů, přičemž uváděli:

Před úpravou si přečte kontext stávajícího kódu

Konsoliduje logiku namísto duplikování

Méně falešných tvrzení o úspěchu

Méně zbytečného over-engineeringu

Vítěz: Nerozhodně (GPT-5.2 vede mírně v SWE-bench, Claude vede výrazně v agentickém kódování v terminálu)

Používání počítače (Computer Use)

Zde je mezi těmito třemi modely největší rozdíl.

Model	OSWorld Skóre
Sonnet 4.6	72.5%
GPT-5.2	38.2%
Gemini 3 Pro	Netestováno

Sonnet 4.6 dosahuje v používání počítače téměř dvojnásobného skóre oproti GPT-5.2. Je v podstatě na stejné úrovni jako Opus 4.6 (72,7 %).

Vítěz: Claude Sonnet 4.6 (s velkým náskokem)

Uvažování a matematika

AIME 2025 (Soutěžní matematika)

Model	Skóre
GPT-5.2	100%
Opus 4.6	~92.8%
Sonnet 4.6	~90%
Gemini 3 Pro	~88%

GPT-5.2 dosahuje stoprocentní přesnosti v AIME 2025. To je jeho nejjasnější výhoda.

GPQA Diamond (Věda na postgraduální úrovni)

Model	Skóre
Opus 4.6	91.3%
Sonnet 4.6	89.9%
GPT-5.2	~88%

Zde vede Claude, přičemž Sonnet 4.6 překonává GPT-5.2 při třetinových nákladech na vstup.

ARC-AGI-2 (Řešení nových problémů)

Model	Skóre
Opus 4.6	68.8%
Sonnet 4.6	58.3%

ARC-AGI-2 testuje schopnost řešit zcela nové typy problémů. Zde se nejvíce projevuje hlubší uvažování modelu Opus.

Vítěz: GPT-5.2 (matematika), Claude (věda, nové uvažování)

Kancelářské úkoly a duševní práce

GDPval-AA Elo (Produktivita v reálném světě)

Model	Skóre
Sonnet 4.6	1633
Opus 4.6	1606
GPT-5.2	1462

Sonnet 4.6 vede nad všemi modely — včetně Opus — v práci s tabulkami, zpracování formulářů, analýze dokumentů a sumarizaci dat.

Finance Agent v1.1 (Agentická finanční analýza)

Model	Skóre
Sonnet 4.6	63.3%
Opus 4.6	60.1%
GPT-5.2	59.0%

Vítěz: Claude Sonnet 4.6

Multimodální schopnosti

Jedinečná síla Gemini 3 Pro

V tomto směru se Gemini 3 Pro odlišuje. Nativně zpracovává:

Text, obrázky, audio a video v jediném kontextu

Až 1 hodinu videa nebo 11 hodin audia

PDF dokumenty s porozuměním vizuálnímu rozvržení

Porozumění obrazu

Všechny tři modely zvládají obrázky dobře. Gemini 3 Pro má mírný náskok v komplexním vizuálním uvažování, ale rozdíl je menší než v roce 2025.

Vítěz: Gemini 3 Pro (výrazně v oblasti videa/audia)

Kontextové okno

Model	Kontextové okno	Nativní/Beta
Gemini 3 Pro	1M tokenů	Nativní
Sonnet 4.6	1M tokenů	Beta
GPT-5.2	400K tokenů	Nativní

Gemini i Sonnet nyní nabízejí kontext 1 milion tokenů, ale u Gemini je plně nativní, zatímco u Sonnetu je v beta verzi. GPT-5.2 je omezen na 400 tisíc.

Vítěz: Gemini 3 Pro (nativní 1M), se Sonnetem 4.6 v těsném závěsu

Ceny

Porovnání nákladů na API

Model	Vstup (/M tokenů)	Výstup (/M tokenů)	Celkem za 100K in + 20K out
Sonnet 4.6	$3	$15	$0.60
GPT-5.2	$5	$15	$0.80
Gemini 3 Pro	$7	$21	$1.12
Opus 4.6	$15	$75	$3.00

Sonnet 4.6 je nejlevnější špičkový model s významným rozdílem — o 25 % méně než GPT-5.2 na jednu relaci a o 46 % méně než Gemini 3 Pro.

Ve velkém měřítku (100 relací denně)

Model	Denní náklady	Měsíční náklady
Sonnet 4.6	$60	$1,800
GPT-5.2	$80	$2,400
Gemini 3 Pro	$112	$3,360
Opus 4.6	$300	$9,000

Cenová výhoda se sčítá. Startup provozující 100 relací AI agentů denně ušetří $600 měsíčně, pokud zvolí Sonnet 4.6 místo GPT-5.2, a $1,560 měsíčně oproti Gemini 3 Pro.

Vítěz: Claude Sonnet 4.6

Bezpečnost a spolehlivost

Odolnost proti Prompt Injection

Míra halucinací

Spolehlivost v produkci

Vítěz: Claude Sonnet 4.6 (zejména pro bezpečnost agentů)

Který model byste měli použít?

Zvolte Sonnet 4.6, když:

Stavíte AI agenty pro kódování nebo používáte Claude Code
Nasazujete agenty pro používání počítače / automatizaci prohlížeče
Provádíte kancelářské úkoly (analýza dat, formuláře, dokumenty)
Záleží na rozpočtu — Sonnet 4.6 nabízí nejlepší výkon za jeden dolar
Stavíte agenty, kteří zpracovávají nedůvěryhodný vstup (odolnost proti prompt injection)
Chcete nejlepší bezplatnou verzi (claude.ai Free)

Zvolte GPT-5.2, když:

Máte úkoly náročné na matematiku (soutěžní matematika, finanční modelování se složitými rovnicemi)
Jste již součástí ekosystému OpenAI (ChatGPT Plus, Assistants API)
Rychlost je nejvyšší prioritou (GPT-5.2 bývá u jednoduchých dotazů rychlejší)
Potřebujete specifické nástroje OpenAI (function calling, strukturované výstupy)

Zvolte Gemini 3 Pro, když:

Pracujete s video nebo audio obsahem
Zpracováváte rozsáhlé dokumenty v mnoha formátech
Stavíte na infrastruktuře Google Cloud
Potřebujete nativní 1M kontext s ověřenou spolehlivostí
Multimodální porozumění je základním požadavkem

Multimodelární přístup

Mnoho produkčních týmů používá více modelů najednou:

Sonnet 4.6 jako hlavní pracovní nástroj (kódování, agenti, kancelářské úkoly)

GPT-5.2 pro matematicky náročné uvažování

Gemini 3 Pro pro multimodální zpracování

Opus 4.6 pro nejtěžší problémy (refaktorování kódové báze, nový výzkum)

Směrování modelů (model routing) — automatický výběr správného modelu na základě úkolu — se v roce 2026 stává standardní praxí.

Sečteno a podtrženo

Zdroje: