GPT-5.3 Codex: OpenAI's autonome kodningsagent
OpenAI udgav GPT-5.3 Codex den 5. februar 2026 — den første AI-model, der hjalp med at bygge sig selv. 77,3 % Terminal-Bench, 56,8 % SWE-Bench Pro, autonome kodningssessioner over flere timer. Fuld gennemgang af funktioner, benchmarks, og hvordan den sammenlignes med Claude Code.
TL;DR
OpenAI udgav GPT-5.3 Codex den 5. februar 2026 — samme dag som Anthropic lancerede Opus 4.6. Vigtige statistikker:
- Terminal-Bench 2.0: 77,3 % — fører over alle modeller inden for agent-baseret terminal-kodning
- SWE-Bench Pro: 56,8 % — topscore på tværs af fire programmeringssprog
- OSWorld: 64,7 % — stærk computerbrug (men bag Sonnet 4.6's 72,5 %)
- 25 % hurtigere end GPT-5.2 Codex
- Interaktiv under arbejdet — styr agenten midt i en opgave uden at miste kontekst
- Første selv-bootstrappende model — GPT-5.3 Codex hjalp med at debugge sin egen træning
- Tilgængelig i Codex-app, CLI og IDE-extension for betalte ChatGPT-abonnementer
- API-prissætning er endnu ikke offentliggjort
Hvad OpenAI annoncerede
GPT-5.3 Codex er ikke bare en bedre kodningsmodel. Det er OpenAI's første model designet som en fuld software-livscyklus-agent — debugging, udrulning, overvågning, skrivning af PRD'er, redigering af tekster, kørsel af tests og mere.
Hovedfunktionen: autonome, langvarige opgaver. Giv GPT-5.3 Codex en kompleks opgave, og den vil arbejde på den i timevis — researche, bruge værktøjer, eksekvere kode og tilpasse sin plan undervejs. Du kan styre den midt i opgaven uden at miste kontekst, præcis som at arbejde med en kollega.
OpenAI's mest provokerende påstand: GPT-5.3 Codex er "den første model, der var instrumentel i at skabe sig selv." Codex-teamet brugte tidlige versioner til at debugge dens egen trænings-pipeline, styre udrulning og diagnosticere evalueringsresultater.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Benchmarks
Hvor GPT-5.3 Codex fører
| Benchmark | Hvad den tester | GPT-5.3 Codex | Bedste konkurrent |
|---|---|---|---|
| Terminal-Bench 2.0 | Agent-baseret terminal-kodning | 77,3 % | Gemini 3.1 Pro: 68,5 % |
| SWE-Bench Pro | Multi-sprog kodning | 56,8 % | Gemini 3.1 Pro: 54,2 % |
| HumanEval | Kodegenerering | 93 % | — |
| GPQA | Videnskabelig ræsonnering | 81 % | Gemini 3.1 Pro: 94,3 % |
Fuld sammenligning
| Benchmark | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 77,3 % | 65,4 % | 59,1 % | 68,5 % |
| SWE-Bench Pro | 56,8 % | — | — | 54,2 % |
| OSWorld | 64,7 % | 72,7 % | 72,5 % | N/A |
| SWE-bench Verified | ~80 % | 80,8 % | 79,6 % | 80,6 % |
| ARC-AGI-2 | 52,9 % | 68,8 % | 58,3 % | 77,1 % |
Hvad tallene betyder
GPT-5.3 Codex dominerer inden for agent-baseret terminal-kodning — den type arbejde, hvor en AI-agent skal navigere i en kodebase, køre kommandoer, fortolke output, rette fejl og iterere. Terminal-Bench-scoren på 77,3 % er næsten 9 point foran den næstbedste (Gemini 3.1 Pro på 68,5 %) og 12 point foran Opus 4.6 (65,4 %).
Men inden for computerbrug (OSWorld) ligger den betydeligt efter Claude — 64,7 % mod Sonnet 4.6's 72,5 %. Og inden for ræsonnering (ARC-AGI-2) er den langt bag Gemini 3.1 Pro (77,1 %) og Opus 4.6 (68,8 %).
Hovedfunktioner
1. Autonome sessioner over flere timer
Tidligere kodningsmodeller arbejdede i korte ryk — du prompter, den svarer, du prompter igen. GPT-5.3 Codex arbejder kontinuerligt på komplekse opgaver og styrer sin egen arbejdsgang over mange trin.
Eksempel på workflow: "Migrer vores autentificeringssystem fra JWT til OAuth 2.0, opdater alle berørte endpoints, skriv tests og verificer, at migreringen fungerer." GPT-5.3 Codex vil researche kodebasen, planlægge migreringen, udføre den fil for fil, køre tests, rette fejl og rapportere tilbage — potentielt over flere timer.
2. Interaktiv styring
Du kan omdirigere GPT-5.3 Codex, mens den arbejder, uden at miste kontekst. Hvis du ser den gå i den forkerte retning, kan du bede den om at ændre kurs. Samtalen forbliver sammenhængende.
3. Fuld software-livscyklus
OpenAI positionerer eksplicit GPT-5.3 Codex til mere end blot at skrive kode:
- Debugging — læser fejllogfiler, sporer rodårsager, anvender rettelser
- Udrulning — administrerer deployment-pipelines og konfigurationer
- Overvågning — holder øje med problemer i kørende systemer
- PRD'er og dokumentation — skriver produktkrav og dokumentation
- Brugerresearch — sammenfatter feedback og testresultater
- Testning — genererer og kører test-suites
- Metrikker — analyserer performancedata
4. Selv-bootstrapping
GPT-5.3 Codex brugte tidlige versioner af sig selv under udviklingen til at:
- Debugge problemer i trænings-pipelinen
- Styre modeludrulning
- Diagnosticere evalueringsresultater
- Iterere på spiludvikling autonomt over millioner af tokens
Dette er første gang, en AI-model offentligt er blevet beskrevet som havende bidraget til sin egen skabelse.
GPT-5.3 Codex mod Claude Code
| Kapabilitet | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| Terminal-kodning | 77,3 % | Opus: 65,4 %, Sonnet: 59,1 % |
| Computerbrug | 64,7 % | Sonnet: 72,5 %, Opus: 72,7 % |
| SWE-bench | ~80 % | Opus: 80,8 %, Sonnet: 79,6 % |
| Autonomi over flere timer | Ja | Begrænset |
| Interaktiv styring | Ja | Ja |
| IDE-integration | Codex IDE-extension | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| Kontoropgaver | Begrænset | Sonnet: 1633 Elo |
| Modstand mod prompt injection | Standard | Opus-niveau |
| API-prissætning | TBD | $3/$15 (Sonnet), $15/$75 (Opus) |
- Du har langvarige autonome kodningsopgaver (sessioner over flere timer)
- Du har terminal-tunge workflows med komplekse værktøjskæder
- Du allerede er i OpenAI/ChatGPT-økosystemet
- Du ønsker fuld automatisering af software-livscyklussen
- Computerbrug / browser-automatisering er nødvendig (72,5 % vs 64,7 %)
- Du har kontoropgaver sideløbende med kodning
- Agentsikkerhed er kritisk (bedre modstand mod prompt injection)
- Forudsigelighed i API-omkostninger er vigtig ($3/$15 kendt prissætning)
Tilgængelighed
GPT-5.3 Codex er tilgængelig for betalte ChatGPT-abonnementer (Plus, Pro, Team, Enterprise) på tværs af:
- Codex-app (web) — fuldt autonomt agent-interface
- Codex CLI — terminal-baseret kodningsagent
- IDE-extension — integreret i din editor
- API — kommer om få uger (prissætning TBD)
Hvad det betyder for udviklere
Kapløbet om AI-kodningsagenter er i gang
Den 5. februar 2026 udgav både OpenAI og Anthropic store modeller på samme dag — GPT-5.3 Codex og Claude Opus 4.6. Budskabet er klart: autonome kodningsagenter er den primære konkurrencearena.
Forskellige styrker, forskellige workflows
GPT-5.3 Codex excellerer i autonom, terminal-baseret kodning over lange sessioner. Claude excellerer i computerbrug, kontorintegration og sikkerhed. Gemini 3.1 Pro fører på ræsonnering og multimodalitet.
For de fleste udviklere afhænger valget af dit workflow:
- Tungt CLI/terminal-arbejde → GPT-5.3 Codex
- Browser-automatisering + blandede opgaver → Claude Code
- Videnskabeligt/ræsonnerings-tungt arbejde → Gemini 3.1 Pro
Modellen er kun starten
Tendensen på tværs af alle tre laboratorier: modellen alene er ikke nok. Du har brug for værktøjer til udrulning, overvågning, analyse og vækst omkring den. AI-kodningsagenten skriver koden, men at levere et produkt kræver hele stacken.
Ship det, du bygger. Y Build håndterer alt efter koden: udrulning med ét klik, Demo Cut til produktvideoer, AI SEO og analyse. Fungerer med ethvert AI-kodningsværktøj. Start gratis.
Kilder:
- OpenAI: Introduktion af GPT-5.3-Codex
- OpenAI: GPT-5.3-Codex System Card
- Fortune: OpenAI GPT-5.3 Codex rejser cybersikkerhedsrisici
- MarkTechPost: GPT-5.3-Codex agent-baseret kodningsmodel
- DataCamp: GPT-5.3 Codex fra kodning til generel arbejdsagent
- OfficeChai: Gemini 3.1 Pro Benchmarks (GPT-5.3 sammenligning)
- LLM Stats: GPT-5.3 Codex prissætning og benchmarks
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.