GPT-5.3 Codex: OpenAI's Autonomous Coding Agent
OpenAI vydala GPT-5.3 Codex 5. února 2026 – první model AI, který pomohl vybudovat sám sebe. 77,3 % v Terminal-Bench, 56,8 % v SWE-Bench Pro, autonomní vícehodinové kódovací relace. Kompletní rozbor funkcí, benchmarků a srovnání s Claude Code.
TL;DR
OpenAI vydala GPT-5.3 Codex 5. února 2026 – ve stejný den, kdy Anthropic uvedl Opus 4.6. Klíčové statistiky:
- Terminal-Bench 2.0: 77,3 % — vede nad všemi modely v agentickém kódování v terminálu
- SWE-Bench Pro: 56,8 % — nejlepší skóre napříč čtyřmi programovacími jazyky
- OSWorld: 64,7 % — silné výsledky v ovládání počítače (ale zaostává za 72,5 % u Sonnet 4.6)
- O 25 % rychlejší než GPT-5.2 Codex
- Interaktivní během práce — možnost usměrňovat agenta uprostřed úkolu bez ztráty kontextu
- První self-bootstrapping model — GPT-5.3 Codex pomáhal ladit svůj vlastní trénink
- Dostupný v aplikaci Codex, CLI a rozšíření pro IDE v rámci placených tarifů ChatGPT
- Ceny API zatím nebyly zveřejněny
Co OpenAI oznámila
GPT-5.3 Codex není jen lepším modelem pro kódování. Je to první model od OpenAI navržený jako agent pro kompletní životní cyklus softwaru – od ladění, nasazování a monitorování až po psaní PRD, úpravu textů a spouštění testů.
Hlavní funkcí jsou autonomní dlouhotrvající úkoly. Zadate GPT-5.3 Codex komplexní úkol a on na něm bude pracovat hodiny – bude provádět rešerši, používat nástroje, spouštět kód a průběžně přizpůsobovat svůj plán. Můžete jej usměrňovat uprostřed úkolu bez ztráty kontextu, podobně jako při práci s kolegou.
Nejkontroverznější tvrzení OpenAI: GPT-5.3 Codex je „prvním modelem, který byl nápomocen při vytváření sebe sama“. Tým Codexu používal rané verze k ladění vlastního tréninkového procesu (pipeline), správě nasazení a diagnostice výsledků evaluace.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Benchmarky
Kde GPT-5.3 Codex vede
| Benchmark | Co testuje | GPT-5.3 Codex | Nejlepší konkurent |
|---|---|---|---|
| Terminal-Bench 2.0 | Agentické kódování v terminálu | 77,3 % | Gemini 3.1 Pro: 68,5 % |
| SWE-Bench Pro | Vícejazyčné kódování | 56,8 % | Gemini 3.1 Pro: 54,2 % |
| HumanEval | Generování kódu | 93 % | — |
| GPQA | Vědecké uvažování | 81 % | Gemini 3.1 Pro: 94,3 % |
Celkové srovnání
| Benchmark | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 77,3 % | 65,4 % | 59,1 % | 68,5 % |
| SWE-Bench Pro | 56,8 % | — | — | 54,2 % |
| OSWorld | 64,7 % | 72,7 % | 72,5 % | N/A |
| SWE-bench Verified | ~80 % | 80,8 % | 79,6 % | 80,6 % |
| ARC-AGI-2 | 52,9 % | 68,8 % | 58,3 % | 77,1 % |
Co tato čísla znamenají
GPT-5.3 Codex dominuje v agentickém kódování v terminálu – tedy v typu práce, kde AI agent musí procházet codebase, spouštět příkazy, interpretovat výstupy, opravovat chyby a iterovat. Skóre 77,3 % v Terminal-Bench je téměř o 9 bodů před dalším v pořadí (Gemini 3.1 Pro s 68,5 %) a o 12 bodů před Opus 4.6 (65,4 %).
Avšak v ovládání počítače (OSWorld) výrazně zaostává za modelem Claude – 64,7 % oproti 72,5 % u Sonnet 4.6. A v uvažování (ARC-AGI-2) zůstává daleko za Gemini 3.1 Pro (77,1 %) a Opus 4.6 (68,8 %).
Klíčové funkce
1. Autonomní vícehodinové relace
Předchozí modely pro kódování pracovaly v krátkých dávkách – zadáte prompt, model odpoví, zadáte další prompt. GPT-5.3 Codex pracuje nepřetržitě na složitých úkolech a sám si řídí pracovní postup v mnoha krocích.
Příklad workflow: „Migruj náš autentizační systém z JWT na OAuth 2.0, aktualizuj všechny dotčené endpointy, napiš testy a ověř, že migrace funguje.“ GPT-5.3 Codex prozkoumá codebase, naplánuje migraci, provede ji soubor po souboru, spustí testy, opraví chyby a podá hlášení – to vše potenciálně v průběhu několika hodin.
2. Interaktivní usměrňování
Během práce můžete GPT-5.3 Codex přesměrovat, aniž by ztratil kontext. Pokud vidíte, že se vydal špatnou cestou, řekněte mu, aby změnil směr. Konverzace zůstává plynulá.
3. Kompletní životní cyklus softwaru
OpenAI výslovně staví GPT-5.3 Codex do role, která přesahuje pouhé psaní kódu:
- Ladění (Debugging) — čte protokoly chyb, dohledává příčiny, aplikuje opravy
- Nasazování (Deploying) — spravuje deployment pipelines a konfigurace
- Monitorování — sleduje problémy v běžících systémech
- PRD a dokumentace — píše produktové požadavky a dokumentaci
- Uživatelský průzkum — syntetizuje zpětnou vazbu a výsledky testů
- Testování — generuje a spouští testovací sady
- Metriky — analyzuje data o výkonu
4. Self-Bootstrapping (Samočinný rozvoj)
GPT-5.3 Codex využíval rané verze sebe sama během vývoje k:
- Ladění problémů v tréninkové pipeline
- Správě nasazení modelu
- Diagnostice výsledků evaluace
- Autonomní iteraci na vývoji her napříč miliony tokenů
Je to poprvé, kdy byl AI model veřejně popsán jako entita přispívající k vlastnímu vzniku.
GPT-5.3 Codex vs. Claude Code
| Schopnost | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| Kódování v terminálu | 77,3 % | Opus: 65,4 %, Sonnet: 59,1 % |
| Ovládání počítače | 64,7 % | Sonnet: 72,5 %, Opus: 72,7 % |
| SWE-bench | ~80 % | Opus: 80,8 %, Sonnet: 79,6 % |
| Vícehodinová autonomie | Ano | Omezená |
| Interaktivní usměrňování | Ano | Ano |
| Integrace do IDE | Codex IDE extension | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| Kancelářské úkoly | Omezené | Sonnet: 1633 Elo |
| Odolnost vůči prompt injection | Standardní | Úroveň Opus |
| Ceny API | Bude určeno | $3/$15 (Sonnet), $15/$75 (Opus) |
- Dlouhotrvající autonomní kódovací úkoly (vícehodinové relace)
- Práci silně orientovanou na terminál s komplexními řetězci nástrojů
- Jste již součástí ekosystému OpenAI/ChatGPT
- Plnou automatizaci životního cyklu softwaru
- Ovládání počítače / automatizaci prohlížeče (72,5 % vs 64,7 %)
- Kancelářské úkoly souběžně s kódováním
- Kritickou bezpečnost agenta (lepší odolnost vůči prompt injection)
- Předvídatelnost nákladů na API (známé ceny $3/$15)
Dostupnost
GPT-5.3 Codex je dostupný pro placené tarify ChatGPT (Plus, Pro, Team, Enterprise) prostřednictvím:
- Aplikace Codex (web) — rozhraní pro plně autonomního agenta
- Codex CLI — kódovací agent založený na terminálu
- Rozšíření pro IDE — integrované přímo do vašeho editoru
- API — bude dostupné v řádu týdnů (ceny budou určeny)
Co to znamená pro vývojáře
Závod AI agentů pro kódování je skutečný
- únor 2026 přinesl vydání významných modelů od OpenAI i Anthropic ve stejný den – GPT-5.3 Codex a Claude Opus 4.6. Poselství je jasné: autonomní agenti pro kódování jsou primárním konkurenčním bojištěm.
Různé silné stránky, různé pracovní postupy
GPT-5.3 Codex exceluje v autonomním kódování založeném na terminálu během dlouhých relací. Claude vyniká v ovládání počítače, integraci do kancelářských úloh a bezpečnosti. Gemini 3.1 Pro vede v uvažování a multimodálních úlohách.
Pro většinu vývojářů závisí volba na jejich workflow:
- Intenzivní práce v CLI/terminálu → GPT-5.3 Codex
- Automatizace prohlížeče + smíšené úkoly → Claude Code
- Práce náročná na vědecké výpočty a logické uvažování → Gemini 3.1 Pro
Model je jen začátek
Trend napříč všemi třemi laboratořemi je jasný: samotný model nestačí. Potřebujete kolem něj nástroje pro nasazení, monitorování, analytiku a růst. AI kódovací agent napíše kód, ale k dodání produktu je zapotřebí celý technologický stack.
Nasaďte to, co vytvoříte. Y Build se postará o vše po dopsání kódu: nasazení na jedno kliknutí, Demo Cut pro produktová videa, AI SEO a analytiku. Funguje s jakýmkoli AI nástrojem pro kódování. Začněte zdarma.
Zdroje:
- OpenAI: Představujeme GPT-5.3-Codex
- OpenAI: GPT-5.3-Codex System Card
- Fortune: OpenAI GPT-5.3 Codex zvyšuje kybernetická rizika
- MarkTechPost: GPT-5.3-Codex agentický model pro kódování
- DataCamp: GPT-5.3 Codex od kódování k obecnému pracovnímu agentovi
- OfficeChai: Benchmarky Gemini 3.1 Pro (srovnání s GPT-5.3)
- LLM Stats: Ceny a benchmarky GPT-5.3 Codex
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.