GPT-5.3 Codex: OpenAI's Autonomous Coding Agent

TL;DR

OpenAI vydala GPT-5.3 Codex 5. února 2026 – ve stejný den, kdy Anthropic uvedl Opus 4.6. Klíčové statistiky:

Terminal-Bench 2.0: 77,3 % — vede nad všemi modely v agentickém kódování v terminálu
SWE-Bench Pro: 56,8 % — nejlepší skóre napříč čtyřmi programovacími jazyky
OSWorld: 64,7 % — silné výsledky v ovládání počítače (ale zaostává za 72,5 % u Sonnet 4.6)
O 25 % rychlejší než GPT-5.2 Codex
Interaktivní během práce — možnost usměrňovat agenta uprostřed úkolu bez ztráty kontextu
První self-bootstrapping model — GPT-5.3 Codex pomáhal ladit svůj vlastní trénink
Dostupný v aplikaci Codex, CLI a rozšíření pro IDE v rámci placených tarifů ChatGPT
Ceny API zatím nebyly zveřejněny

Co OpenAI oznámila

GPT-5.3 Codex není jen lepším modelem pro kódování. Je to první model od OpenAI navržený jako agent pro kompletní životní cyklus softwaru – od ladění, nasazování a monitorování až po psaní PRD, úpravu textů a spouštění testů.

Hlavní funkcí jsou autonomní dlouhotrvající úkoly. Zadate GPT-5.3 Codex komplexní úkol a on na něm bude pracovat hodiny – bude provádět rešerši, používat nástroje, spouštět kód a průběžně přizpůsobovat svůj plán. Můžete jej usměrňovat uprostřed úkolu bez ztráty kontextu, podobně jako při práci s kolegou.

Nejkontroverznější tvrzení OpenAI: GPT-5.3 Codex je „prvním modelem, který byl nápomocen při vytváření sebe sama“. Tým Codexu používal rané verze k ladění vlastního tréninkového procesu (pipeline), správě nasazení a diagnostice výsledků evaluace.

Benchmarky

Kde GPT-5.3 Codex vede

Benchmark	Co testuje	GPT-5.3 Codex	Nejlepší konkurent
Terminal-Bench 2.0	Agentické kódování v terminálu	77,3 %	Gemini 3.1 Pro: 68,5 %
SWE-Bench Pro	Vícejazyčné kódování	56,8 %	Gemini 3.1 Pro: 54,2 %
HumanEval	Generování kódu	93 %	—
GPQA	Vědecké uvažování	81 %	Gemini 3.1 Pro: 94,3 %

Celkové srovnání

Benchmark	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	77,3 %	65,4 %	59,1 %	68,5 %
SWE-Bench Pro	56,8 %	—	—	54,2 %
OSWorld	64,7 %	72,7 %	72,5 %	N/A
SWE-bench Verified	~80 %	80,8 %	79,6 %	80,6 %
ARC-AGI-2	52,9 %	68,8 %	58,3 %	77,1 %

Co tato čísla znamenají

GPT-5.3 Codex dominuje v agentickém kódování v terminálu – tedy v typu práce, kde AI agent musí procházet codebase, spouštět příkazy, interpretovat výstupy, opravovat chyby a iterovat. Skóre 77,3 % v Terminal-Bench je téměř o 9 bodů před dalším v pořadí (Gemini 3.1 Pro s 68,5 %) a o 12 bodů před Opus 4.6 (65,4 %).

Avšak v ovládání počítače (OSWorld) výrazně zaostává za modelem Claude – 64,7 % oproti 72,5 % u Sonnet 4.6. A v uvažování (ARC-AGI-2) zůstává daleko za Gemini 3.1 Pro (77,1 %) a Opus 4.6 (68,8 %).

Klíčové funkce

1. Autonomní vícehodinové relace

Předchozí modely pro kódování pracovaly v krátkých dávkách – zadáte prompt, model odpoví, zadáte další prompt. GPT-5.3 Codex pracuje nepřetržitě na složitých úkolech a sám si řídí pracovní postup v mnoha krocích.

Příklad workflow: „Migruj náš autentizační systém z JWT na OAuth 2.0, aktualizuj všechny dotčené endpointy, napiš testy a ověř, že migrace funguje.“ GPT-5.3 Codex prozkoumá codebase, naplánuje migraci, provede ji soubor po souboru, spustí testy, opraví chyby a podá hlášení – to vše potenciálně v průběhu několika hodin.

2. Interaktivní usměrňování

Během práce můžete GPT-5.3 Codex přesměrovat, aniž by ztratil kontext. Pokud vidíte, že se vydal špatnou cestou, řekněte mu, aby změnil směr. Konverzace zůstává plynulá.

3. Kompletní životní cyklus softwaru

OpenAI výslovně staví GPT-5.3 Codex do role, která přesahuje pouhé psaní kódu:

Ladění (Debugging) — čte protokoly chyb, dohledává příčiny, aplikuje opravy
Nasazování (Deploying) — spravuje deployment pipelines a konfigurace
Monitorování — sleduje problémy v běžících systémech
PRD a dokumentace — píše produktové požadavky a dokumentaci
Uživatelský průzkum — syntetizuje zpětnou vazbu a výsledky testů
Testování — generuje a spouští testovací sady
Metriky — analyzuje data o výkonu

4. Self-Bootstrapping (Samočinný rozvoj)

GPT-5.3 Codex využíval rané verze sebe sama během vývoje k:

Ladění problémů v tréninkové pipeline

Správě nasazení modelu

Diagnostice výsledků evaluace

Autonomní iteraci na vývoji her napříč miliony tokenů

Je to poprvé, kdy byl AI model veřejně popsán jako entita přispívající k vlastnímu vzniku.

GPT-5.3 Codex vs. Claude Code

Schopnost	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
Kódování v terminálu	77,3 %	Opus: 65,4 %, Sonnet: 59,1 %
Ovládání počítače	64,7 %	Sonnet: 72,5 %, Opus: 72,7 %
SWE-bench	~80 %	Opus: 80,8 %, Sonnet: 79,6 %
Vícehodinová autonomie	Ano	Omezená
Interaktivní usměrňování	Ano	Ano
Integrace do IDE	Codex IDE extension	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
Kancelářské úkoly	Omezené	Sonnet: 1633 Elo
Odolnost vůči prompt injection	Standardní	Úroveň Opus
Ceny API	Bude určeno	$3/$15 (Sonnet), $15/$75 (Opus)

Zvolte GPT-5.3 Codex, pokud potřebujete:

Dlouhotrvající autonomní kódovací úkoly (vícehodinové relace)
Práci silně orientovanou na terminál s komplexními řetězci nástrojů
Jste již součástí ekosystému OpenAI/ChatGPT
Plnou automatizaci životního cyklu softwaru

Zvolte Claude Code, pokud potřebujete:

Ovládání počítače / automatizaci prohlížeče (72,5 % vs 64,7 %)
Kancelářské úkoly souběžně s kódováním
Kritickou bezpečnost agenta (lepší odolnost vůči prompt injection)
Předvídatelnost nákladů na API (známé ceny $3/$15)

Dostupnost

GPT-5.3 Codex je dostupný pro placené tarify ChatGPT (Plus, Pro, Team, Enterprise) prostřednictvím:

Aplikace Codex (web) — rozhraní pro plně autonomního agenta
Codex CLI — kódovací agent založený na terminálu
Rozšíření pro IDE — integrované přímo do vašeho editoru
API — bude dostupné v řádu týdnů (ceny budou určeny)

V současné době není k dispozici žádná bezplatná verze.

Co to znamená pro vývojáře

Závod AI agentů pro kódování je skutečný

únor 2026 přinesl vydání významných modelů od OpenAI i Anthropic ve stejný den – GPT-5.3 Codex a Claude Opus 4.6. Poselství je jasné: autonomní agenti pro kódování jsou primárním konkurenčním bojištěm.

Různé silné stránky, různé pracovní postupy

GPT-5.3 Codex exceluje v autonomním kódování založeném na terminálu během dlouhých relací. Claude vyniká v ovládání počítače, integraci do kancelářských úloh a bezpečnosti. Gemini 3.1 Pro vede v uvažování a multimodálních úlohách.

Pro většinu vývojářů závisí volba na jejich workflow:

Intenzivní práce v CLI/terminálu → GPT-5.3 Codex

Automatizace prohlížeče + smíšené úkoly → Claude Code

Práce náročná na vědecké výpočty a logické uvažování → Gemini 3.1 Pro

Model je jen začátek

Trend napříč všemi třemi laboratořemi je jasný: samotný model nestačí. Potřebujete kolem něj nástroje pro nasazení, monitorování, analytiku a růst. AI kódovací agent napíše kód, ale k dodání produktu je zapotřebí celý technologický stack.

Nasaďte to, co vytvoříte. Y Build se postará o vše po dopsání kódu: nasazení na jedno kliknutí, Demo Cut pro produktová videa, AI SEO a analytiku. Funguje s jakýmkoli AI nástrojem pro kódování. Začněte zdarma.

Zdroje: