Sonnet 4.6 vs GPT-5.2 vs Gemini 3: Průvodce pro rok 2026
Claude Sonnet 4.6 vs GPT-5.2 vs Gemini 3 Pro — definitivní srovnání pro rok 2026. Přímé porovnání benchmarků, cen, výkonu při kódování, používání počítače, kontextových oken a toho, který model použít pro konkrétní účely.
TL;DR
| Sonnet 4.6 | GPT-5.2 | Gemini 3 Pro | |
|---|---|---|---|
| Kódování (SWE-bench) | 79.6% | 80.0% | 76.8% |
| Používání počítače (OSWorld) | 72.5% | 38.2% | N/A |
| Matematika (AIME 2025) | ~90% | 100% | ~88% |
| Kancelářské úkoly (Elo) | 1633 | 1462 | N/A |
| Kontext | 1M (beta) | 400K | 1M (nativně) |
| Cena za vstup | $3/M | $5/M | $7/M |
| Cena za výstup | $15/M | $15/M | $21/M |
- Kódování + používání počítače + nákladová efektivita → Claude Sonnet 4.6
- Čisté matematické uvažování + rychlost → GPT-5.2
- Multimodalita (video, obrázky, audio) + dlouhý kontext → Gemini 3 Pro
Prostředí AI modelů v únoru 2026
O pozornost vývojářů právě teď soupeří tři špičkové (frontier) AI modely:
- Claude Sonnet 4.6 (Anthropic, 17. února 2026) — nejnovější, s cenou $3/$15
- GPT-5.2 (OpenAI, prosinec 2025) — král uvažování (reasoning), s cenou $5/$15
- Gemini 3 Pro (Google DeepMind, leden 2026) — lídr v multimodalitě, s cenou $7/$21
Výkon při kódování
SWE-bench Verified (Softwarové inženýrství v reálném světě)
SWE-bench testuje modely při řešení skutečných problémů (issues) na GitHubu — čtení kódových bází, porozumění chybám, psaní oprav (patches). Je to benchmark nejbližší skutečné práci vývojáře.
| Model | Skóre |
|---|---|
| GPT-5.2 | 80.0% |
| Sonnet 4.6 | 79.6% |
| Opus 4.6 | 80.8% |
| Gemini 3 Pro | 76.8% |
První tři modely se pohybují v rozmezí 1,2 procentního bodu. V praxi je rozdíl v kvalitě kódování mezi modely Sonnet 4.6 a GPT-5.2 u většiny úkolů zanedbatelný.
Terminal-Bench 2.0 (Agentické kódování v terminálu)
Tento test prověřuje vícekrokové úkoly v kódování v prostředí terminálu — což je blíže tomu, jak AI agenti pro kódování skutečně fungují.
| Model | Skóre |
|---|---|
| Opus 4.6 | 65.4% |
| Sonnet 4.6 | 59.1% |
| GPT-5.2 | 46.7% |
Zde dominují modely Claude. Dokonce i Sonnet 4.6 překonává GPT-5.2 o 12,4 bodu v agentickém kódování — což je obrovský rozdíl. To vysvětluje, proč je Claude Code preferovaným nástrojem pro vývoj s asistencí AI.
Zkušenosti vývojářů z praxe
Spoluzakladatel Cursoru popsal Sonnet 4.6 jako „výrazné zlepšení oproti Sonnet 4.5 ve všech směrech, včetně dlouhodobých úkolů a obtížnějších problémů.“
GitHub oznámil „vysokou míru úspěšnosti řešení a konzistenci, kterou vývojáři potřebují“ při testování Sonnet 4.6 na opravách napříč celou kódovou bází.
V přímém testování Claude Code vývojáři preferovali Sonnet 4.6 před Sonnet 4.5 v 70 % případů, přičemž uváděli:
- Před úpravou si přečte kontext stávajícího kódu
- Konsoliduje logiku namísto duplikování
- Méně falešných tvrzení o úspěchu
- Méně zbytečného over-engineeringu
Vítěz: Nerozhodně (GPT-5.2 vede mírně v SWE-bench, Claude vede výrazně v agentickém kódování v terminálu)
Používání počítače (Computer Use)
Zde je mezi těmito třemi modely největší rozdíl.
| Model | OSWorld Skóre |
|---|---|
| Sonnet 4.6 | 72.5% |
| GPT-5.2 | 38.2% |
| Gemini 3 Pro | Netestováno |
Sonnet 4.6 dosahuje v používání počítače téměř dvojnásobného skóre oproti GPT-5.2. Je v podstatě na stejné úrovni jako Opus 4.6 (72,7 %).
Co to znamená v praxi: Sonnet 4.6 dokáže spolehlivě procházet webové aplikace, vyplňovat formuláře, pracovat s tabulkami a automatizovat vícekrokové pracovní postupy na ploše. GPT-5.2 s těmito úkoly zápasí.
Jamie Cuffe (CEO, Pace) nahlásil 94% přesnost v jejich benchmarku používání počítače v pojišťovnictví se Sonnet 4.6: „Dokáže analyzovat selhání a samoopravit se způsobem, který jsme dříve neviděli.“
Vítěz: Claude Sonnet 4.6 (s velkým náskokem)Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Uvažování a matematika
AIME 2025 (Soutěžní matematika)
| Model | Skóre |
|---|---|
| GPT-5.2 | 100% |
| Opus 4.6 | ~92.8% |
| Sonnet 4.6 | ~90% |
| Gemini 3 Pro | ~88% |
GPT-5.2 dosahuje stoprocentní přesnosti v AIME 2025. To je jeho nejjasnější výhoda.
GPQA Diamond (Věda na postgraduální úrovni)
| Model | Skóre |
|---|---|
| Opus 4.6 | 91.3% |
| Sonnet 4.6 | 89.9% |
| GPT-5.2 | ~88% |
Zde vede Claude, přičemž Sonnet 4.6 překonává GPT-5.2 při třetinových nákladech na vstup.
ARC-AGI-2 (Řešení nových problémů)
| Model | Skóre |
|---|---|
| Opus 4.6 | 68.8% |
| Sonnet 4.6 | 58.3% |
ARC-AGI-2 testuje schopnost řešit zcela nové typy problémů. Zde se nejvíce projevuje hlubší uvažování modelu Opus.
Vítěz: GPT-5.2 (matematika), Claude (věda, nové uvažování)Kancelářské úkoly a duševní práce
GDPval-AA Elo (Produktivita v reálném světě)
| Model | Skóre |
|---|---|
| Sonnet 4.6 | 1633 |
| Opus 4.6 | 1606 |
| GPT-5.2 | 1462 |
Sonnet 4.6 vede nad všemi modely — včetně Opus — v práci s tabulkami, zpracování formulářů, analýze dokumentů a sumarizaci dat.
Finance Agent v1.1 (Agentická finanční analýza)
| Model | Skóre |
|---|---|
| Sonnet 4.6 | 63.3% |
| Opus 4.6 | 60.1% |
| GPT-5.2 | 59.0% |
Opět vede Sonnet 4.6. V jednom testu analyzovala maloobchodní společnost víceletá data o prodejích. Sonnet 4.5 dělal kaskádové chyby ve výpočtech při finanční interpretaci. Sonnet 4.6 správně vypočítal poměry investic k nákladům a seřadil nejprodávanější položky podle nárůstu ceny.
Vítěz: Claude Sonnet 4.6Multimodální schopnosti
Jedinečná síla Gemini 3 Pro
V tomto směru se Gemini 3 Pro odlišuje. Nativně zpracovává:
- Text, obrázky, audio a video v jediném kontextu
- Až 1 hodinu videa nebo 11 hodin audia
- PDF dokumenty s porozuměním vizuálnímu rozvržení
Ani Sonnet 4.6, ani GPT-5.2 neumí zpracovávat video nativně. Pro úkoly zahrnující analýzu videa, přepis audia nebo zpracování dokumentů ve více formátech je Gemini 3 Pro jedinou volbou z této trojice.
Porozumění obrazu
Všechny tři modely zvládají obrázky dobře. Gemini 3 Pro má mírný náskok v komplexním vizuálním uvažování, ale rozdíl je menší než v roce 2025.
Vítěz: Gemini 3 Pro (výrazně v oblasti videa/audia)Kontextové okno
| Model | Kontextové okno | Nativní/Beta |
|---|---|---|
| Gemini 3 Pro | 1M tokenů | Nativní |
| Sonnet 4.6 | 1M tokenů | Beta |
| GPT-5.2 | 400K tokenů | Nativní |
Gemini i Sonnet nyní nabízejí kontext 1 milion tokenů, ale u Gemini je plně nativní, zatímco u Sonnetu je v beta verzi. GPT-5.2 je omezen na 400 tisíc.
Sonnet 4.6 přidává zhutňování kontextu (context compaction) — automatickou sumarizaci starších částí konverzace pro další rozšíření efektivního kontextu. To je užitečné zejména v relacích Claude Code, kde mohou být konverzace velmi dlouhé.
Opus 4.6 dosahuje 76 % v MRCR v2 (8-needle, 1M kontext) pro uvažování v dlouhém kontextu — což je výrazně lepší než 18,5 % u Sonnetu 4.5. Skóre pro Sonnet 4.6 v tomto konkrétním testu zatím nebyla zveřejněna.
Vítěz: Gemini 3 Pro (nativní 1M), se Sonnetem 4.6 v těsném závěsuCeny
Porovnání nákladů na API
| Model | Vstup (/M tokenů) | Výstup (/M tokenů) | Celkem za 100K in + 20K out |
|---|---|---|---|
| Sonnet 4.6 | $3 | $15 | $0.60 |
| GPT-5.2 | $5 | $15 | $0.80 |
| Gemini 3 Pro | $7 | $21 | $1.12 |
| Opus 4.6 | $15 | $75 | $3.00 |
Sonnet 4.6 je nejlevnější špičkový model s významným rozdílem — o 25 % méně než GPT-5.2 na jednu relaci a o 46 % méně než Gemini 3 Pro.
Ve velkém měřítku (100 relací denně)
| Model | Denní náklady | Měsíční náklady |
|---|---|---|
| Sonnet 4.6 | $60 | $1,800 |
| GPT-5.2 | $80 | $2,400 |
| Gemini 3 Pro | $112 | $3,360 |
| Opus 4.6 | $300 | $9,000 |
Cenová výhoda se sčítá. Startup provozující 100 relací AI agentů denně ušetří $600 měsíčně, pokud zvolí Sonnet 4.6 místo GPT-5.2, a $1,560 měsíčně oproti Gemini 3 Pro.
Vítěz: Claude Sonnet 4.6Bezpečnost a spolehlivost
Odolnost proti Prompt Injection
Sonnet 4.6 se vyrovná modelu Opus 4.6 v odolnosti proti prompt injection — což je výrazné zlepšení oproti Sonnetu 4.5. To je důležité pro každého agenta, který prohlíží web, čte e-maily nebo zpracovává obsah zadaný uživatelem.
Míra halucinací
Vývojáři konzistentně hlásí méně halucinací u Sonnetu 4.6 ve srovnání se Sonnetem 4.5 i GPT-5.2. GPT-5.2 deklaruje o 65 % méně halucinací oproti GPT-5.0, ale přímé srovnání mezi modely je obtížné.
Spolehlivost v produkci
Uživatelé Claude Code uvádějí, že Sonnet 4.6 je „méně líný“ — dotahuje vícekrokové úkoly do konce, místo aby si práci zjednodušoval nebo předčasně tvrdil, že je hotov. To je praktické zlepšení kvality života, které benchmarky nezachytí.
Vítěz: Claude Sonnet 4.6 (zejména pro bezpečnost agentů)Který model byste měli použít?
Zvolte Sonnet 4.6, když:
- Stavíte AI agenty pro kódování nebo používáte Claude Code
- Nasazujete agenty pro používání počítače / automatizaci prohlížeče
- Provádíte kancelářské úkoly (analýza dat, formuláře, dokumenty)
- Záleží na rozpočtu — Sonnet 4.6 nabízí nejlepší výkon za jeden dolar
- Stavíte agenty, kteří zpracovávají nedůvěryhodný vstup (odolnost proti prompt injection)
- Chcete nejlepší bezplatnou verzi (
claude.aiFree)
Zvolte GPT-5.2, když:
- Máte úkoly náročné na matematiku (soutěžní matematika, finanční modelování se složitými rovnicemi)
- Jste již součástí ekosystému OpenAI (ChatGPT Plus, Assistants API)
- Rychlost je nejvyšší prioritou (GPT-5.2 bývá u jednoduchých dotazů rychlejší)
- Potřebujete specifické nástroje OpenAI (function calling, strukturované výstupy)
Zvolte Gemini 3 Pro, když:
- Pracujete s video nebo audio obsahem
- Zpracováváte rozsáhlé dokumenty v mnoha formátech
- Stavíte na infrastruktuře Google Cloud
- Potřebujete nativní 1M kontext s ověřenou spolehlivostí
- Multimodální porozumění je základním požadavkem
Multimodelární přístup
Mnoho produkčních týmů používá více modelů najednou:
- Sonnet 4.6 jako hlavní pracovní nástroj (kódování, agenti, kancelářské úkoly)
- GPT-5.2 pro matematicky náročné uvažování
- Gemini 3 Pro pro multimodální zpracování
- Opus 4.6 pro nejtěžší problémy (refaktorování kódové báze, nový výzkum)
Směrování modelů (model routing) — automatický výběr správného modelu na základě úkolu — se v roce 2026 stává standardní praxí.
Sečteno a podtrženo
Sonnet 4.6 je v únoru 2026 modelem s nejlepším poměrem cena/výkon. Vyrovná se nebo poráží GPT-5.2 v kódování, používání počítače, kancelářských úkolech a bezpečnosti — a to při nákladech o 25–46 % nižších. GPT-5.2 vítězí v čisté matematice. Gemini 3 Pro vítězí v multimodalitě.
Pro většinu vývojářů budujících produkty je Sonnet 4.6 výchozí volbou. Otázkou není, zda je dost dobrý — evidentně je — ale zda marginální zisky dražších modelů ospravedlní náklady pro váš konkrétní případ použití.
Budujete s AI modely? Y Build se stará o celý stack: kódování s asistencí AI přes Claude Code, nasazení na jedno kliknutí, Demo Cut pro produktová videa, AI SEO a analytiku. Soustřeďte se na svůj produkt, ne na infrastrukturu. Začněte zdarma.
Zdroje:
- Anthropic: Introducing Claude Sonnet 4.6
- OfficeChai: Claude Sonnet 4.6 Benchmarks
- VentureBeat: Sonnet 4.6 matches flagship at one-fifth the cost
- LM Council: AI Model Benchmarks Feb 2026
- Cosmic: Claude Sonnet 4.6 vs Sonnet 4.5 Real-World Comparison
- SiliconANGLE: Anthropic debuts Sonnet 4.6
- Digital Applied: Claude Sonnet 4.6 Benchmarks Guide
- CNBC: Anthropic releases Claude Sonnet 4.6
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.