GPT-5.3 Codex: OpenAIs autonoma kodningsagent

TL;DR

OpenAI släppte GPT-5.3 Codex den 5 februari 2026 — samma dag som Anthropic lanserade Opus 4.6. Nyckelstatistik:

Terminal-Bench 2.0: 77,3 % — leder över alla modeller inom agentbaserad terminalkodning
SWE-Bench Pro: 56,8 % — högsta poäng över fyra programmeringsspråk
OSWorld: 64,7 % — stark datoranvändning (men efter Sonnet 4.6:s 72,5 %)
25 % snabbare än GPT-5.2 Codex
Interaktiv under arbete — styr agenten mitt i en uppgift utan att förlora kontext
Första själv-bootstrappande modellen — GPT-5.3 Codex hjälpte till att felsöka sin egen träning
Tillgänglig i Codex-appen, CLI och som IDE-tillägg för betalda ChatGPT-planer
API-prissättning ännu ej publicerad

Vad OpenAI tillkännagav

GPT-5.3 Codex är inte bara en bättre kodningsmodell. Det är OpenAIs första modell designad som en agent för mjukvarans hela livscykel — felsökning, driftsättning, övervakning, skriva PRD:er, redigera texter, köra tester och mer.

Huvudfunktionen: autonoma långkörande uppgifter. Ge GPT-5.3 Codex en komplex uppgift och den kommer att arbeta med den i timmar — genom att göra efterforskningar, använda verktyg, köra kod och anpassa sin plan längs vägen. Du kan styra den mitt i en uppgift utan att förlora kontext, precis som att arbeta med en kollega.

OpenAIs mest provocerande påstående: GPT-5.3 Codex är "den första modellen som var avgörande för att skapa sig själv." Codex-teamet använde tidiga versioner för att felsöka sin egen träningspipeline, hantera driftsättning och diagnostisera utvärderingsresultat.

Benchmarks

Där GPT-5.3 Codex leder

Benchmark	Vad det testar	GPT-5.3 Codex	Bästa konkurrent
Terminal-Bench 2.0	Agentbaserad terminalkodning	77,3 %	Gemini 3.1 Pro: 68,5 %
SWE-Bench Pro	Kodning på flera språk	56,8 %	Gemini 3.1 Pro: 54,2 %
HumanEval	Kodgenerering	93 %	—
GPQA	Vetenskapliga resonemang	81 %	Gemini 3.1 Pro: 94,3 %

Fullständig jämförelse

Benchmark	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	77,3 %	65,4 %	59,1 %	68,5 %
SWE-Bench Pro	56,8 %	—	—	54,2 %
OSWorld	64,7 %	72,7 %	72,5 %	N/A
SWE-bench Verified	~80 %	80,8 %	79,6 %	80,6 %
ARC-AGI-2	52,9 %	68,8 %	58,3 %	77,1 %

Vad siffrorna betyder

GPT-5.3 Codex dominerar inom agentbaserad terminalkodning — den typ av arbete där en AI-agent behöver navigera i en kodbas, köra kommandon, tolka utdata, åtgärda fel och iterera. Resultatet på 77,3 % i Terminal-Bench är nästan 9 poäng före näst bästa (Gemini 3.1 Pro på 68,5 %) och 12 poäng före Opus 4.6 (65,4 %).

Men vid datoranvändning (OSWorld) ligger den betydligt efter Claude — 64,7 % mot Sonnet 4.6:s 72,5 %. Och när det gäller resonemang (ARC-AGI-2) är den långt efter Gemini 3.1 Pro (77,1 %) och Opus 4.6 (68,8 %).

Nyckelfunktioner

1. Autonoma sessioner över flera timmar

Tidigare kodningsmodeller arbetade i korta intervaller — du ger en prompt, den svarar, du ger en ny prompt. GPT-5.3 Codex arbetar kontinuerligt med komplexa uppgifter och hanterar sitt eget arbetsflöde över många steg.

Exempel på arbetsflöde: "Migrera vårt autentiseringssystem från JWT till OAuth 2.0, uppdatera alla berörda endpoints, skriv tester och verifiera att migreringen fungerar." GPT-5.3 Codex kommer att undersöka kodbasen, planera migreringen, utföra den fil för fil, köra tester, åtgärda fel och rapportera tillbaka — potentiellt under flera timmar.

2. Interaktiv styrning

Du kan omdirigera GPT-5.3 Codex medan den arbetar utan att förlora kontext. Om du ser att den är på väg åt fel håll, säg till den att byta riktning. Konversationen förblir sammanhängande.

3. Hela mjukvarans livscykel

OpenAI positionerar uttryckligen GPT-5.3 Codex till mer än att bara skriva kod:

Felsökning — läser felloggar, spårar grundorsaker, applicerar rättningar
Driftsättning — hanterar pipelines för driftsättning och konfigurationer
Övervakning — bevakar problem i system som är i drift
PRD:er och dokumentation — skriver produktkrav och dokumentation
Användarundersökningar — sammanställer feedback och testresultat
Testning — genererar och kör testsviter
Metrik — analyserar prestandadata

4. Själv-bootstrapping

GPT-5.3 Codex använde tidiga versioner av sig själv under utvecklingen för att:

Felsöka problem i träningspipelinen

Hantera driftsättning av modellen

Diagnostisera utvärderingsresultat

Iterera på spelutveckling autonomt över miljontals tokens

Detta är första gången en AI-modell offentligt beskrivs som att ha bidragit till sin egen skapelse.

GPT-5.3 Codex vs. Claude Code

Förmåga	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
Terminalkodning	77,3 %	Opus: 65,4 %, Sonnet: 59,1 %
Datoranvändning	64,7 %	Sonnet: 72,5 %, Opus: 72,7 %
SWE-bench	~80 %	Opus: 80,8 %, Sonnet: 79,6 %
Autonomi över flera timmar	Ja	Begränsad
Interaktiv styrning	Ja	Ja
IDE-integration	Codex IDE-tillägg	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
Kontorsuppgifter	Begränsad	Sonnet: 1633 Elo
Motståndskraft mot prompt-injektioner	Standard	Opus-nivå
API-prissättning	TBD	$3/$15 (Sonnet), $15/$75 (Opus)

Välj GPT-5.3 Codex när:

Långkörande autonoma kodningsuppgifter (sessioner över flera timmar)
Terminal-tunga arbetsflöden med komplexa verktygskedjor
Du redan befinner dig i OpenAIs/ChatGPTs ekosystem
Fullständig automatisering av mjukvarans livscykel krävs

Välj Claude Code när:

Datoranvändning / webbläsarautomatisering (72,5 % mot 64,7 %)
Kontorsuppgifter vid sidan av kodning
Agentsäkerhet är kritisk (bättre motståndskraft mot prompt-injektioner)
Förutsägbarhet gällande API-kostnader ($3/$15 känd prissättning)

Tillgänglighet

GPT-5.3 Codex är tillgänglig för betalda ChatGPT-planer (Plus, Pro, Team, Enterprise) via:

Codex-appen (webb) — fullständigt gränssnitt för den autonoma agenten
Codex CLI — terminalbaserad kodningsagent
IDE-tillägg — integrerat i din editor
API — kommer inom några veckor (prissättning TBD)

Ingen tillgång via gratisnivån för närvarande.

Vad det betyder för utvecklare

Racet för AI-kodagenter är på riktigt

Den 5 februari 2026 släppte både OpenAI och Anthropic stora modeller på samma dag — GPT-5.3 Codex och Claude Opus 4.6. Budskapet är tydligt: autonoma kodningsagenter är det primära slagfältet för konkurrens.

Olika styrkor, olika arbetsflöden

GPT-5.3 Codex briljerar vid autonom, terminalbaserad kodning under långa sessioner. Claude utmärker sig inom datoranvändning, kontorsintegration och säkerhet. Gemini 3.1 Pro leder inom resonemang och multimodalitet.

För de flesta utvecklare beror valet på ditt arbetsflöde:

Tungt CLI/terminal-arbete → GPT-5.3 Codex

Webbläsarautomatisering + blandade uppgifter → Claude Code

Vetenskapligt/resonemangstungt arbete → Gemini 3.1 Pro

Modellen är bara början

Trenden hos alla tre labben: modellen ensam räcker inte. Du behöver verktyg för driftsättning, övervakning, analys och tillväxt runt den. AI-kodagenten skriver koden, men att leverera en produkt kräver hela stacken.

Leverera det du bygger. Y Build hanterar allt efter koden: driftsättning med ett klick, Demo Cut för produktvideor, AI SEO och analys. Fungerar med alla AI-kodningsverktyg. Starta gratis.

Källor: