GPT-5.3 Codex: OpenAI's autonome kodningsagent

TL;DR

OpenAI udgav GPT-5.3 Codex den 5. februar 2026 — samme dag som Anthropic lancerede Opus 4.6. Vigtige statistikker:

Terminal-Bench 2.0: 77,3 % — fører over alle modeller inden for agent-baseret terminal-kodning
SWE-Bench Pro: 56,8 % — topscore på tværs af fire programmeringssprog
OSWorld: 64,7 % — stærk computerbrug (men bag Sonnet 4.6's 72,5 %)
25 % hurtigere end GPT-5.2 Codex
Interaktiv under arbejdet — styr agenten midt i en opgave uden at miste kontekst
Første selv-bootstrappende model — GPT-5.3 Codex hjalp med at debugge sin egen træning
Tilgængelig i Codex-app, CLI og IDE-extension for betalte ChatGPT-abonnementer
API-prissætning er endnu ikke offentliggjort

Hvad OpenAI annoncerede

GPT-5.3 Codex er ikke bare en bedre kodningsmodel. Det er OpenAI's første model designet som en fuld software-livscyklus-agent — debugging, udrulning, overvågning, skrivning af PRD'er, redigering af tekster, kørsel af tests og mere.

Hovedfunktionen: autonome, langvarige opgaver. Giv GPT-5.3 Codex en kompleks opgave, og den vil arbejde på den i timevis — researche, bruge værktøjer, eksekvere kode og tilpasse sin plan undervejs. Du kan styre den midt i opgaven uden at miste kontekst, præcis som at arbejde med en kollega.

OpenAI's mest provokerende påstand: GPT-5.3 Codex er "den første model, der var instrumentel i at skabe sig selv." Codex-teamet brugte tidlige versioner til at debugge dens egen trænings-pipeline, styre udrulning og diagnosticere evalueringsresultater.

Benchmarks

Hvor GPT-5.3 Codex fører

Benchmark	Hvad den tester	GPT-5.3 Codex	Bedste konkurrent
Terminal-Bench 2.0	Agent-baseret terminal-kodning	77,3 %	Gemini 3.1 Pro: 68,5 %
SWE-Bench Pro	Multi-sprog kodning	56,8 %	Gemini 3.1 Pro: 54,2 %
HumanEval	Kodegenerering	93 %	—
GPQA	Videnskabelig ræsonnering	81 %	Gemini 3.1 Pro: 94,3 %

Fuld sammenligning

Benchmark	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	77,3 %	65,4 %	59,1 %	68,5 %
SWE-Bench Pro	56,8 %	—	—	54,2 %
OSWorld	64,7 %	72,7 %	72,5 %	N/A
SWE-bench Verified	~80 %	80,8 %	79,6 %	80,6 %
ARC-AGI-2	52,9 %	68,8 %	58,3 %	77,1 %

Hvad tallene betyder

GPT-5.3 Codex dominerer inden for agent-baseret terminal-kodning — den type arbejde, hvor en AI-agent skal navigere i en kodebase, køre kommandoer, fortolke output, rette fejl og iterere. Terminal-Bench-scoren på 77,3 % er næsten 9 point foran den næstbedste (Gemini 3.1 Pro på 68,5 %) og 12 point foran Opus 4.6 (65,4 %).

Men inden for computerbrug (OSWorld) ligger den betydeligt efter Claude — 64,7 % mod Sonnet 4.6's 72,5 %. Og inden for ræsonnering (ARC-AGI-2) er den langt bag Gemini 3.1 Pro (77,1 %) og Opus 4.6 (68,8 %).

Hovedfunktioner

1. Autonome sessioner over flere timer

Tidligere kodningsmodeller arbejdede i korte ryk — du prompter, den svarer, du prompter igen. GPT-5.3 Codex arbejder kontinuerligt på komplekse opgaver og styrer sin egen arbejdsgang over mange trin.

Eksempel på workflow: "Migrer vores autentificeringssystem fra JWT til OAuth 2.0, opdater alle berørte endpoints, skriv tests og verificer, at migreringen fungerer." GPT-5.3 Codex vil researche kodebasen, planlægge migreringen, udføre den fil for fil, køre tests, rette fejl og rapportere tilbage — potentielt over flere timer.

2. Interaktiv styring

Du kan omdirigere GPT-5.3 Codex, mens den arbejder, uden at miste kontekst. Hvis du ser den gå i den forkerte retning, kan du bede den om at ændre kurs. Samtalen forbliver sammenhængende.

3. Fuld software-livscyklus

OpenAI positionerer eksplicit GPT-5.3 Codex til mere end blot at skrive kode:

Debugging — læser fejllogfiler, sporer rodårsager, anvender rettelser
Udrulning — administrerer deployment-pipelines og konfigurationer
Overvågning — holder øje med problemer i kørende systemer
PRD'er og dokumentation — skriver produktkrav og dokumentation
Brugerresearch — sammenfatter feedback og testresultater
Testning — genererer og kører test-suites
Metrikker — analyserer performancedata

4. Selv-bootstrapping

GPT-5.3 Codex brugte tidlige versioner af sig selv under udviklingen til at:

Debugge problemer i trænings-pipelinen

Styre modeludrulning

Diagnosticere evalueringsresultater

Iterere på spiludvikling autonomt over millioner af tokens

Dette er første gang, en AI-model offentligt er blevet beskrevet som havende bidraget til sin egen skabelse.

GPT-5.3 Codex mod Claude Code

Kapabilitet	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
Terminal-kodning	77,3 %	Opus: 65,4 %, Sonnet: 59,1 %
Computerbrug	64,7 %	Sonnet: 72,5 %, Opus: 72,7 %
SWE-bench	~80 %	Opus: 80,8 %, Sonnet: 79,6 %
Autonomi over flere timer	Ja	Begrænset
Interaktiv styring	Ja	Ja
IDE-integration	Codex IDE-extension	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
Kontoropgaver	Begrænset	Sonnet: 1633 Elo
Modstand mod prompt injection	Standard	Opus-niveau
API-prissætning	TBD	$3/$15 (Sonnet), $15/$75 (Opus)

Vælg GPT-5.3 Codex når:

Du har langvarige autonome kodningsopgaver (sessioner over flere timer)
Du har terminal-tunge workflows med komplekse værktøjskæder
Du allerede er i OpenAI/ChatGPT-økosystemet
Du ønsker fuld automatisering af software-livscyklussen

Vælg Claude Code når:

Computerbrug / browser-automatisering er nødvendig (72,5 % vs 64,7 %)
Du har kontoropgaver sideløbende med kodning
Agentsikkerhed er kritisk (bedre modstand mod prompt injection)
Forudsigelighed i API-omkostninger er vigtig ($3/$15 kendt prissætning)

Tilgængelighed

GPT-5.3 Codex er tilgængelig for betalte ChatGPT-abonnementer (Plus, Pro, Team, Enterprise) på tværs af:

Codex-app (web) — fuldt autonomt agent-interface
Codex CLI — terminal-baseret kodningsagent
IDE-extension — integreret i din editor
API — kommer om få uger (prissætning TBD)

Der er i øjeblikket ingen adgang for gratisbrugere.

Hvad det betyder for udviklere

Kapløbet om AI-kodningsagenter er i gang

Den 5. februar 2026 udgav både OpenAI og Anthropic store modeller på samme dag — GPT-5.3 Codex og Claude Opus 4.6. Budskabet er klart: autonome kodningsagenter er den primære konkurrencearena.

Forskellige styrker, forskellige workflows

GPT-5.3 Codex excellerer i autonom, terminal-baseret kodning over lange sessioner. Claude excellerer i computerbrug, kontorintegration og sikkerhed. Gemini 3.1 Pro fører på ræsonnering og multimodalitet.

For de fleste udviklere afhænger valget af dit workflow:

Tungt CLI/terminal-arbejde → GPT-5.3 Codex

Browser-automatisering + blandede opgaver → Claude Code

Videnskabeligt/ræsonnerings-tungt arbejde → Gemini 3.1 Pro

Modellen er kun starten

Tendensen på tværs af alle tre laboratorier: modellen alene er ikke nok. Du har brug for værktøjer til udrulning, overvågning, analyse og vækst omkring den. AI-kodningsagenten skriver koden, men at levere et produkt kræver hele stacken.

Ship det, du bygger. Y Build håndterer alt efter koden: udrulning med ét klik, Demo Cut til produktvideoer, AI SEO og analyse. Fungerer med ethvert AI-kodningsværktøj. Start gratis.

Kilder: