Gemini 3.1 Pro vs Sonnet 4.6 vs GPT-5.2: 2026

TL;DR

Gemini 3.1 Pro	Sonnet 4.6	GPT-5.2
Uvažování (ARC-AGI-2)	77.1%	58.3%	52.9%
Věda (GPQA)	94.3%	89.9%	92.4%
Kódování (SWE-bench)	80.6%	79.6%	80.0%
Používání počítače (OSWorld)	N/A	72.5%	38.2%
Kancelářské úkoly (Elo)	N/A	1633	1462
Kontext	1M (nativně)	1M (beta)	400K
Cena za vstup	$2/M	$3/M	$5/M
Cena za výstup	$12/M	$15/M	$15/M

Rychlé rozhodnutí:

Abstraktní uvažování + věda + nejnižší cena → Gemini 3.1 Pro
Používání počítače + kancelářské úkoly + bezpečnost agentů → Claude Sonnet 4.6
Čistá matematika + rychlost → GPT-5.2

Únor 2026: Tři špičkové modely během 13 dnů

Prostředí AI modelů se právě otřáslo. Během méně než dvou týdnů:

6. února: Claude Opus 4.6 (Anthropic)
17. února: Claude Sonnet 4.6 (Anthropic)
19. února: Gemini 3.1 Pro (Google)

Každý z nich si nárokuje prvenství v jiných kategoriích. Žádný model už nedominuje všemu. Tato příručka přesně rozebírá, kde který model vítězí na základě reálných dat z benchmarků.

Uvažování: Gemini 3.1 Pro dominuje

ARC-AGI-2 (Řešení nových problémů)

Toto je benchmark, který testuje čisté uvažování – řešení problémů, které model nikdy předtím neviděl a u kterých neexistuje vzorec k zapamatování.

Model	Skóre
Gemini 3.1 Pro	77.1%
Claude Opus 4.6	68.8%
Claude Sonnet 4.6	58.3%
GPT-5.2	52.9%
Gemini 3 Pro	31.1%

Gemini 3.1 Pro vede o masivních 8,3 bodu nad Opus 4.6 a o 24,2 bodu nad GPT-5.2. Jedná se o největší rozdíl v jakémkoliv aktuálním špičkovém benchmarku.

Zlepšení z Gemini 3 Pro (31,1 %) na 3.1 Pro (77,1 %) — skok o 148 % — pochází z integrace technik uvažování Deep Think do základního modelu.

GPQA Diamond (Věda na úrovni postgraduálního studia)

Model	Skóre
Gemini 3.1 Pro	94.3%
GPT-5.2	92.4%
Claude Opus 4.6	91.3%
Claude Sonnet 4.6	89.9%

Gemini vede ve vědeckém uvažování na expertní úrovni – otázky z fyziky, chemie a biologie na úrovni postgraduálního studia.

Vítěz: Gemini 3.1 Pro (výrazný náskok v uvažování)

Kódování: Trojitá remíza

SWE-bench Verified (Softwarové inženýrství v reálném světě)

Model	Skóre
Claude Opus 4.6	80.8%
Gemini 3.1 Pro	80.6%
GPT-5.2	80.0%
Claude Sonnet 4.6	79.6%

Všechny čtyři modely se pohybují v rozmezí 1,2 procentního bodu. Fakticky jde o remízu — je to poprvé, co je Gemini v kódování konkurenceschopné s modelem Claude.

Terminal-Bench 2.0 (Agentní programování v terminálu)

Model	Skóre
GPT-5.3-Codex	77.3%
Gemini 3.1 Pro	68.5%
Claude Opus 4.6	65.4%
Claude Sonnet 4.6	59.1%

Gemini 3.1 Pro ve skutečnosti poráží oba modely Claude v agentním kódování založeném na terminálu. Překonává ho pouze specializovaný model GPT-5.3-Codex (nikoliv standardní GPT-5.2).

Integrace vývojářských nástrojů

Model	Dostupné nástroje
Gemini 3.1 Pro	Gemini CLI, GitHub Copilot, Android Studio, AI Studio
Claude Sonnet 4.6	Claude Code, Cursor, GitHub Copilot
GPT-5.2	GitHub Copilot, ChatGPT, Codex CLI

Všechny tři modely jsou k dispozici v GitHub Copilot. Gemini má unikátní výhodu v integraci do Android Studio pro mobilní vývojáře.

Vítěz: Remíza (Gemini dohnalo náskok, všechny modely jsou konkurenceschopné)

Používání počítače: Exkluzivní doména Claude

OSWorld (AI ovládající počítače)

Model	Skóre
Claude Sonnet 4.6	72.5%
Claude Opus 4.6	72.7%
GPT-5.2	38.2%
Gemini 3.1 Pro	Netestováno

Gemini 3.1 Pro nenabízí schopnosti pro všeobecné používání počítače. Claude Sonnet 4.6 je jediným modelem, který dokáže spolehlivě ovládat počítač — klikat, psát, navigovat v aplikacích, vyplňovat formuláře — s přesností připravenou pro produkční nasazení.

Pokud váš workflow zahrnuje automatizaci prohlížeče, extrakci dat ze starších systémů nebo automatizované vyplňování formulářů, Claude je jedinou reálnou volbou.

Vítěz: Claude Sonnet 4.6 (bez konkurence)

Agentní schopnosti

Výkon agentů s více nástroji

Benchmark	Gemini 3.1 Pro	Opus 4.6	GPT-5.2
APEX-Agents	33.5%	29.8%	23.0%
MCP Atlas (použití nástrojů)	69.2%	—	—
BrowseComp (vyhledávání na webu)	85.9%	84.0%	—

Gemini 3.1 Pro vede v agentních benchmarkách – vícekrokové plánování, používání nástrojů a agentní vyhledávání na webu. Skóre APEX-Agents (33,5 % vs. 29,8 % u Opus) naznačuje lepší autonomní řešení problémů v komplexních prostředích.

Bezpečnost pro agenty

Claude Sonnet 4.6 specificky vylepšil odolnost proti prompt injection na úroveň modelu Opus, což je důležité, když agenti zpracovávají nedůvěryhodný webový obsah. Google pro Gemini 3.1 Pro v agentním kontextu srovnatelné bezpečnostní metriky nezveřejnil.

Vítěz: Gemini 3.1 Pro (v benchmarkách), Claude Sonnet 4.6 (v bezpečnosti)

Multimodalita: Hlavní výhoda Gemini

Co každý model dokáže zpracovat

Typ vstupu	Gemini 3.1 Pro	Sonnet 4.6	GPT-5.2
Text	Ano	Ano	Ano
Obrázky	Ano	Ano	Ano
Audio	Ano (nativně)	Ne	Ano
Video	Ano (nativně)	Ne	Ne
PDF	Ano	Ano	Ano

Gemini 3.1 Pro nativně zpracovává až 1 hodinu videa a 11 hodin audia v rámci svého kontextového okna. Ani Claude, ani GPT nedokážou zpracovávat video nativně.

Pro úkoly zahrnující analýzu videa, přepis audia nebo zpracování dokumentů v několika formátech je Gemini jedinou volbou.

Vítěz: Gemini 3.1 Pro (výrazně)

Kontextové okno

Model	Kontextové okno	Skóre dlouhého kontextu (MRCR v2)
Gemini 3.1 Pro	1M (nativně)	84.9%
Claude Sonnet 4.6	1M (beta)	84.9% (remíza)
Claude Opus 4.6	1M (nativně)	76.0%
GPT-5.2	400K	—

Gemini a Claude Sonnet dosahují stejného výkonu s dlouhým kontextem (84,9 % v MRCR v2). Oba výrazně překonávají limit 400K u GPT-5.2.

Kontext 1M u Gemini je nativní (GA), zatímco u Claude je v beta verzi. Pro produkční zátěže vyžadující zaručenou spolehlivost dlouhého kontextu má Gemini navrch.

Vítěz: Remíza (Gemini nativně vs. Claude beta)

Cena: Gemini je nejlevnější

Porovnání nákladů na API

Model	Vstup (/M tokenů)	Výstup (/M tokenů)	Cena za relaci*
Gemini 3.1 Pro	$2.00	$12.00	$0.44
Claude Sonnet 4.6	$3.00	$15.00	$0.60
GPT-5.2	$5.00	$15.00	$0.80
Claude Opus 4.6	$15.00	$75.00	$3.00

*Relace = 100K vstupních + 20K výstupních tokenů

Gemini 3.1 Pro je o 27 % levnější než Sonnet 4.6 a o 45 % levnější než GPT-5.2 na jednu relaci.

Při velkém rozsahu (100 relací/den, 30 dní)

Model	Měsíční náklady
Gemini 3.1 Pro	$1,320
Gemini 3.1 Pro (batch)	$660
Claude Sonnet 4.6	$1,800
GPT-5.2	$2,400
Claude Opus 4.6	$9,000

V režimu batch stojí Gemini 3.1 Pro $660 měsíčně za 100 denních relací — méně než polovinu oproti $1,800 u modelu Sonnet 4.6.

Vítěz: Gemini 3.1 Pro (nejlevnější špičkový model)

Kancelářské úkoly a znalostní práce

GDPval-AA Elo (Produktivita v reálném kancelářském prostředí)

Model	Skóre
Claude Sonnet 4.6	1633
Claude Opus 4.6	1606
GPT-5.2	1462
Gemini 3.1 Pro	Nezveřejněno

Claude vede v kancelářské automatizaci — tabulky, formuláře, analýza dokumentů. Google pro Gemini 3.1 Pro skóre v tomto benchmarku nezveřejnil, což naznačuje, že zde nemusí být tak silný.

Finance Agent v1.1

Model	Skóre
Claude Sonnet 4.6	63.3%
Claude Opus 4.6	60.1%
GPT-5.2	59.0%
Gemini 3.1 Pro	Nezveřejněno

Vítěz: Claude Sonnet 4.6 (pro kancelářské/finanční úkoly)

Který model byste měli použít?

Zvolte Gemini 3.1 Pro, když:

Abstraktní uvažování — 77,1 % v ARC-AGI-2 je to nejlepší, co je k dispozici.
Vědecká analýza — 94,3 % v GPQA Diamond vede nad všemi modely.
Rozpočet je klíčový — $2/$12 je nejlevnější cena za špičkový model.
Multimodální zpracování — analýza videa a audia.
Vývoj pro Android — nativní integrace v Android Studio.
Velký kontext — nativní 1M s prokázanou spolehlivostí.

Zvolte Claude Sonnet 4.6 když:

Používání počítače — 72,5 % v OSWorld, žádný konkurent se ani neblíží.
Kancelářská automatizace — tabulky, formuláře, analýza dat (1633 Elo).
Bezpečnost agentů — nejlepší odolnost proti prompt injection.
Pracovní postupy v Claude Code — 70 % uživatelů mu dává přednost před Sonnet 4.5.
Finanční analýza — 63,3 % ve Finance Agent vede nad všemi modely.
Následování instrukcí — méně halucinací, méně zbytečného překombinování (over-engineering).

Zvolte GPT-5.2 když:

Čistá matematika — 100% v AIME 2025 je nepřekonatelné.
Ekosystém OpenAI — ChatGPT Plus, Assistants API, Codex.
Rychlé odpovědi — nejnižší latence u jednoduchých dotazů.
Existující integrace — pokud již stavíte na OpenAI API.

Strategie více modelů

Rozdíly mezi modely se ve většině benchmarků zmenšují, ale u specializovaných funkcí se naopak zvětšují. Nově vznikající osvědčený postup:

Úkol	Nejlepší model
Abstraktní uvažování / výzkum	Gemini 3.1 Pro
Používání počítače / automatizace prohlížeče	Claude Sonnet 4.6
Komplexní matematika	GPT-5.2
Kancelářské / finanční úkoly	Claude Sonnet 4.6
Analýza videa / audia	Gemini 3.1 Pro
Obecné kódování	Jakýkoliv (všechny ≥79,6%)
Nákladově senzitivní flotily agentů	Gemini 3.1 Pro
Hloubkový refaktoring kódové základny	Claude Opus 4.6

Závěr

Únor 2026 ukončil éru jednoho univerzálního modelu. Gemini 3.1 Pro vede v uvažování a ceně. Claude Sonnet 4.6 vede v používání počítače a kancelářských úkolech. GPT-5.2 vede v matematice. Každý má jasné a obhajitelné výhody.

Pro většinu vývojářů budujících produkty zní praktická odpověď: pro obecné úkoly si vyberte kterýkoli z těchto tří a na specialistu přepněte ve chvíli, kdy to daný úkol vyžaduje.

Skutečnou konkurenční výhodou není to, který model používáte — ale jak rychle dokážete produkt dodat na trh.

Dodávejte rychleji. Y Build se postará o celý stack poté, co napíšete kód: nasazení na jedno kliknutí, Demo Cut pro produktová videa, AI SEO pro organickou návštěvnost a analytika pro sledování růstu. Funguje s jakýmkoli AI modelem. Začněte zdarma.

Zdroje: