Gemini 3.1 Pro vs Sonnet 4.6 vs GPT-5.2: 2026
Gemini 3.1 Pro vs Claude Sonnet 4.6 vs GPT-5.2 — definitivní srovnání z února 2026. Přímé porovnání benchmarků v uvažování, kódování, používání počítače, cenách a výběr nejvhodnějšího AI modelu pro konkrétní účely.
TL;DR
| Gemini 3.1 Pro | Sonnet 4.6 | GPT-5.2 | |
|---|---|---|---|
| Uvažování (ARC-AGI-2) | 77.1% | 58.3% | 52.9% |
| Věda (GPQA) | 94.3% | 89.9% | 92.4% |
| Kódování (SWE-bench) | 80.6% | 79.6% | 80.0% |
| Používání počítače (OSWorld) | N/A | 72.5% | 38.2% |
| Kancelářské úkoly (Elo) | N/A | 1633 | 1462 |
| Kontext | 1M (nativně) | 1M (beta) | 400K |
| Cena za vstup | $2/M | $3/M | $5/M |
| Cena za výstup | $12/M | $15/M | $15/M |
- Abstraktní uvažování + věda + nejnižší cena → Gemini 3.1 Pro
- Používání počítače + kancelářské úkoly + bezpečnost agentů → Claude Sonnet 4.6
- Čistá matematika + rychlost → GPT-5.2
Únor 2026: Tři špičkové modely během 13 dnů
Prostředí AI modelů se právě otřáslo. Během méně než dvou týdnů:
- 6. února: Claude Opus 4.6 (Anthropic)
- 17. února: Claude Sonnet 4.6 (Anthropic)
- 19. února: Gemini 3.1 Pro (Google)
Uvažování: Gemini 3.1 Pro dominuje
ARC-AGI-2 (Řešení nových problémů)
Toto je benchmark, který testuje čisté uvažování – řešení problémů, které model nikdy předtím neviděl a u kterých neexistuje vzorec k zapamatování.
| Model | Skóre |
|---|---|
| Gemini 3.1 Pro | 77.1% |
| Claude Opus 4.6 | 68.8% |
| Claude Sonnet 4.6 | 58.3% |
| GPT-5.2 | 52.9% |
| Gemini 3 Pro | 31.1% |
Gemini 3.1 Pro vede o masivních 8,3 bodu nad Opus 4.6 a o 24,2 bodu nad GPT-5.2. Jedná se o největší rozdíl v jakémkoliv aktuálním špičkovém benchmarku.
Zlepšení z Gemini 3 Pro (31,1 %) na 3.1 Pro (77,1 %) — skok o 148 % — pochází z integrace technik uvažování Deep Think do základního modelu.
GPQA Diamond (Věda na úrovni postgraduálního studia)
| Model | Skóre |
|---|---|
| Gemini 3.1 Pro | 94.3% |
| GPT-5.2 | 92.4% |
| Claude Opus 4.6 | 91.3% |
| Claude Sonnet 4.6 | 89.9% |
Gemini vede ve vědeckém uvažování na expertní úrovni – otázky z fyziky, chemie a biologie na úrovni postgraduálního studia.
Vítěz: Gemini 3.1 Pro (výrazný náskok v uvažování)Kódování: Trojitá remíza
SWE-bench Verified (Softwarové inženýrství v reálném světě)
| Model | Skóre |
|---|---|
| Claude Opus 4.6 | 80.8% |
| Gemini 3.1 Pro | 80.6% |
| GPT-5.2 | 80.0% |
| Claude Sonnet 4.6 | 79.6% |
Všechny čtyři modely se pohybují v rozmezí 1,2 procentního bodu. Fakticky jde o remízu — je to poprvé, co je Gemini v kódování konkurenceschopné s modelem Claude.
Terminal-Bench 2.0 (Agentní programování v terminálu)
| Model | Skóre |
|---|---|
| GPT-5.3-Codex | 77.3% |
| Gemini 3.1 Pro | 68.5% |
| Claude Opus 4.6 | 65.4% |
| Claude Sonnet 4.6 | 59.1% |
Gemini 3.1 Pro ve skutečnosti poráží oba modely Claude v agentním kódování založeném na terminálu. Překonává ho pouze specializovaný model GPT-5.3-Codex (nikoliv standardní GPT-5.2).
Integrace vývojářských nástrojů
| Model | Dostupné nástroje |
|---|---|
| Gemini 3.1 Pro | Gemini CLI, GitHub Copilot, Android Studio, AI Studio |
| Claude Sonnet 4.6 | Claude Code, Cursor, GitHub Copilot |
| GPT-5.2 | GitHub Copilot, ChatGPT, Codex CLI |
Všechny tři modely jsou k dispozici v GitHub Copilot. Gemini má unikátní výhodu v integraci do Android Studio pro mobilní vývojáře.
Vítěz: Remíza (Gemini dohnalo náskok, všechny modely jsou konkurenceschopné)Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Používání počítače: Exkluzivní doména Claude
OSWorld (AI ovládající počítače)
| Model | Skóre |
|---|---|
| Claude Sonnet 4.6 | 72.5% |
| Claude Opus 4.6 | 72.7% |
| GPT-5.2 | 38.2% |
| Gemini 3.1 Pro | Netestováno |
Gemini 3.1 Pro nenabízí schopnosti pro všeobecné používání počítače. Claude Sonnet 4.6 je jediným modelem, který dokáže spolehlivě ovládat počítač — klikat, psát, navigovat v aplikacích, vyplňovat formuláře — s přesností připravenou pro produkční nasazení.
Pokud váš workflow zahrnuje automatizaci prohlížeče, extrakci dat ze starších systémů nebo automatizované vyplňování formulářů, Claude je jedinou reálnou volbou.
Vítěz: Claude Sonnet 4.6 (bez konkurence)Agentní schopnosti
Výkon agentů s více nástroji
| Benchmark | Gemini 3.1 Pro | Opus 4.6 | GPT-5.2 |
|---|---|---|---|
| APEX-Agents | 33.5% | 29.8% | 23.0% |
| MCP Atlas (použití nástrojů) | 69.2% | — | — |
| BrowseComp (vyhledávání na webu) | 85.9% | 84.0% | — |
Gemini 3.1 Pro vede v agentních benchmarkách – vícekrokové plánování, používání nástrojů a agentní vyhledávání na webu. Skóre APEX-Agents (33,5 % vs. 29,8 % u Opus) naznačuje lepší autonomní řešení problémů v komplexních prostředích.
Bezpečnost pro agenty
Claude Sonnet 4.6 specificky vylepšil odolnost proti prompt injection na úroveň modelu Opus, což je důležité, když agenti zpracovávají nedůvěryhodný webový obsah. Google pro Gemini 3.1 Pro v agentním kontextu srovnatelné bezpečnostní metriky nezveřejnil.
Vítěz: Gemini 3.1 Pro (v benchmarkách), Claude Sonnet 4.6 (v bezpečnosti)Multimodalita: Hlavní výhoda Gemini
Co každý model dokáže zpracovat
| Typ vstupu | Gemini 3.1 Pro | Sonnet 4.6 | GPT-5.2 |
|---|---|---|---|
| Text | Ano | Ano | Ano |
| Obrázky | Ano | Ano | Ano |
| Audio | Ano (nativně) | Ne | Ano |
| Video | Ano (nativně) | Ne | Ne |
| Ano | Ano | Ano |
Gemini 3.1 Pro nativně zpracovává až 1 hodinu videa a 11 hodin audia v rámci svého kontextového okna. Ani Claude, ani GPT nedokážou zpracovávat video nativně.
Pro úkoly zahrnující analýzu videa, přepis audia nebo zpracování dokumentů v několika formátech je Gemini jedinou volbou.
Vítěz: Gemini 3.1 Pro (výrazně)Kontextové okno
| Model | Kontextové okno | Skóre dlouhého kontextu (MRCR v2) |
|---|---|---|
| Gemini 3.1 Pro | 1M (nativně) | 84.9% |
| Claude Sonnet 4.6 | 1M (beta) | 84.9% (remíza) |
| Claude Opus 4.6 | 1M (nativně) | 76.0% |
| GPT-5.2 | 400K | — |
Gemini a Claude Sonnet dosahují stejného výkonu s dlouhým kontextem (84,9 % v MRCR v2). Oba výrazně překonávají limit 400K u GPT-5.2.
Kontext 1M u Gemini je nativní (GA), zatímco u Claude je v beta verzi. Pro produkční zátěže vyžadující zaručenou spolehlivost dlouhého kontextu má Gemini navrch.
Vítěz: Remíza (Gemini nativně vs. Claude beta)Cena: Gemini je nejlevnější
Porovnání nákladů na API
| Model | Vstup (/M tokenů) | Výstup (/M tokenů) | Cena za relaci* |
|---|---|---|---|
| Gemini 3.1 Pro | $2.00 | $12.00 | $0.44 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.60 |
| GPT-5.2 | $5.00 | $15.00 | $0.80 |
| Claude Opus 4.6 | $15.00 | $75.00 | $3.00 |
*Relace = 100K vstupních + 20K výstupních tokenů
Gemini 3.1 Pro je o 27 % levnější než Sonnet 4.6 a o 45 % levnější než GPT-5.2 na jednu relaci.
Při velkém rozsahu (100 relací/den, 30 dní)
| Model | Měsíční náklady |
|---|---|
| Gemini 3.1 Pro | $1,320 |
| Gemini 3.1 Pro (batch) | $660 |
| Claude Sonnet 4.6 | $1,800 |
| GPT-5.2 | $2,400 |
| Claude Opus 4.6 | $9,000 |
V režimu batch stojí Gemini 3.1 Pro $660 měsíčně za 100 denních relací — méně než polovinu oproti $1,800 u modelu Sonnet 4.6.
Vítěz: Gemini 3.1 Pro (nejlevnější špičkový model)Kancelářské úkoly a znalostní práce
GDPval-AA Elo (Produktivita v reálném kancelářském prostředí)
| Model | Skóre |
|---|---|
| Claude Sonnet 4.6 | 1633 |
| Claude Opus 4.6 | 1606 |
| GPT-5.2 | 1462 |
| Gemini 3.1 Pro | Nezveřejněno |
Claude vede v kancelářské automatizaci — tabulky, formuláře, analýza dokumentů. Google pro Gemini 3.1 Pro skóre v tomto benchmarku nezveřejnil, což naznačuje, že zde nemusí být tak silný.
Finance Agent v1.1
| Model | Skóre |
|---|---|
| Claude Sonnet 4.6 | 63.3% |
| Claude Opus 4.6 | 60.1% |
| GPT-5.2 | 59.0% |
| Gemini 3.1 Pro | Nezveřejněno |
Který model byste měli použít?
Zvolte Gemini 3.1 Pro, když:
- Abstraktní uvažování — 77,1 % v ARC-AGI-2 je to nejlepší, co je k dispozici.
- Vědecká analýza — 94,3 % v GPQA Diamond vede nad všemi modely.
- Rozpočet je klíčový — $2/$12 je nejlevnější cena za špičkový model.
- Multimodální zpracování — analýza videa a audia.
- Vývoj pro Android — nativní integrace v Android Studio.
- Velký kontext — nativní 1M s prokázanou spolehlivostí.
Zvolte Claude Sonnet 4.6 když:
- Používání počítače — 72,5 % v OSWorld, žádný konkurent se ani neblíží.
- Kancelářská automatizace — tabulky, formuláře, analýza dat (1633 Elo).
- Bezpečnost agentů — nejlepší odolnost proti prompt injection.
- Pracovní postupy v Claude Code — 70 % uživatelů mu dává přednost před Sonnet 4.5.
- Finanční analýza — 63,3 % ve Finance Agent vede nad všemi modely.
- Následování instrukcí — méně halucinací, méně zbytečného překombinování (over-engineering).
Zvolte GPT-5.2 když:
- Čistá matematika — 100% v AIME 2025 je nepřekonatelné.
- Ekosystém OpenAI — ChatGPT Plus, Assistants API, Codex.
- Rychlé odpovědi — nejnižší latence u jednoduchých dotazů.
- Existující integrace — pokud již stavíte na OpenAI API.
Strategie více modelů
Rozdíly mezi modely se ve většině benchmarků zmenšují, ale u specializovaných funkcí se naopak zvětšují. Nově vznikající osvědčený postup:
| Úkol | Nejlepší model |
|---|---|
| Abstraktní uvažování / výzkum | Gemini 3.1 Pro |
| Používání počítače / automatizace prohlížeče | Claude Sonnet 4.6 |
| Komplexní matematika | GPT-5.2 |
| Kancelářské / finanční úkoly | Claude Sonnet 4.6 |
| Analýza videa / audia | Gemini 3.1 Pro |
| Obecné kódování | Jakýkoliv (všechny ≥79,6%) |
| Nákladově senzitivní flotily agentů | Gemini 3.1 Pro |
| Hloubkový refaktoring kódové základny | Claude Opus 4.6 |
Závěr
Únor 2026 ukončil éru jednoho univerzálního modelu. Gemini 3.1 Pro vede v uvažování a ceně. Claude Sonnet 4.6 vede v používání počítače a kancelářských úkolech. GPT-5.2 vede v matematice. Každý má jasné a obhajitelné výhody.
Pro většinu vývojářů budujících produkty zní praktická odpověď: pro obecné úkoly si vyberte kterýkoli z těchto tří a na specialistu přepněte ve chvíli, kdy to daný úkol vyžaduje.
Skutečnou konkurenční výhodou není to, který model používáte — ale jak rychle dokážete produkt dodat na trh.
Dodávejte rychleji. Y Build se postará o celý stack poté, co napíšete kód: nasazení na jedno kliknutí, Demo Cut pro produktová videa, AI SEO pro organickou návštěvnost a analytika pro sledování růstu. Funguje s jakýmkoli AI modelem. Začněte zdarma.
Zdroje:
- Google Blog: Gemini 3.1 Pro announcement
- OfficeChai: Gemini 3.1 Pro beats Claude Opus 4.6, GPT 5.2 on most benchmarks
- VentureBeat: Gemini 3.1 Pro first impressions
- MarkTechPost: Gemini 3.1 Pro with 77.1% ARC-AGI-2
- 9to5Google: Gemini 3.1 Pro for complex problem-solving
- Anthropic: Claude Sonnet 4.6
- GitHub Blog: Gemini 3.1 Pro in GitHub Copilot
- Trending Topics: Gemini 3.1 Pro trails Opus 4.6 in some tasks
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.