GPT-5.3 Codex: OpenAIs autonome kodeagent
OpenAI lanserte GPT-5.3 Codex 5. februar 2026 — den første AI-modellen som hjalp til med å bygge seg selv. 77,3 % Terminal-Bench, 56,8 % SWE-Bench Pro, autonome kodeøkter over flere timer. Full gjennomgang av funksjoner, benchmarks og hvordan den sammenlignes med Claude Code.
TL;DR
OpenAI lanserte GPT-5.3 Codex 5. februar 2026 — samme dag som Anthropic slapp Opus 4.6. Viktige statistikker:
- Terminal-Bench 2.0: 77,3 % — leder over alle modeller på agentbasert terminalkoding
- SWE-Bench Pro: 56,8 % — toppscore på tvers av fire programmeringsspråk
- OSWorld: 64,7 % — sterk på datamaskinbruk (men bak Sonnet 4.6s 72,5 %)
- 25 % raskere enn GPT-5.2 Codex
- Interaktiv under arbeid — styr agenten midt i en oppgave uten å miste kontekst
- Første selv-bootstrappende modell — GPT-5.3 Codex hjalp til med å feilsøke sin egen trening
- Tilgjengelig i Codex-appen, CLI og IDE-utvidelse for betalte ChatGPT-abonnementer
- API-prising er ennå ikke publisert
Hva OpenAI kunngjorde
GPT-5.3 Codex er ikke bare en bedre kodemodell. Det er OpenAIs første modell designet som en fullverdig agent for programvarens livssyklus — feilsøking, distribuering, overvåking, skriving av PRD-er, redigering av tekst, kjøring av tester og mer.
Hovedfunksjonen: autonome oppgaver som kjører over lang tid. Gi GPT-5.3 Codex en kompleks oppgave, og den vil jobbe med den i timevis — gjøre undersøkelser, bruke verktøy, utføre kode og tilpasse planen sin underveis. Du kan styre den midt i en oppgave uten å miste kontekst, akkurat som å jobbe med en kollega.
OpenAIs mest provoserende påstand: GPT-5.3 Codex er "den første modellen som var instrumentell i å skape seg selv." Codex-teamet brukte tidlige versjoner til å feilsøke sin egen trenings-pipeline, administrere distribusjon og diagnostisere evalueringsresultater.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Benchmarks
Der GPT-5.3 Codex leder
| Benchmark | Hva den tester | GPT-5.3 Codex | Beste konkurrent |
|---|---|---|---|
| Terminal-Bench 2.0 | Agentbasert terminalkoding | 77,3 % | Gemini 3.1 Pro: 68,5 % |
| SWE-Bench Pro | Koding på tvers av språk | 56,8 % | Gemini 3.1 Pro: 54,2 % |
| HumanEval | Kodegenerering | 93 % | — |
| GPQA | Vitenskapelig resonnering | 81 % | Gemini 3.1 Pro: 94,3 % |
Full sammenligning
| Benchmark | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 77,3 % | 65,4 % | 59,1 % | 68,5 % |
| SWE-Bench Pro | 56,8 % | — | — | 54,2 % |
| OSWorld | 64,7 % | 72,7 % | 72,5 % | N/A |
| SWE-bench Verified | ~80 % | 80,8 % | 79,6 % | 80,6 % |
| ARC-AGI-2 | 52,9 % | 68,8 % | 58,3 % | 77,1 % |
Hva tallene betyr
GPT-5.3 Codex dominerer på agentbasert terminalkoding — den typen arbeid der en AI-agent må navigere i en kodebase, kjøre kommandoer, tolke utdata, fikse feil og iterere. Terminal-Bench-scoren på 77,3 % er nesten 9 poeng foran den neste beste (Gemini 3.1 Pro på 68,5 %) og 12 poeng foran Opus 4.6 (65,4 %).
Men på datamaskinbruk (OSWorld) ligger den betydelig bak Claude — 64,7 % mot Sonnet 4.6s 72,5 %. Og på resonnering (ARC-AGI-2) er den langt bak Gemini 3.1 Pro (77,1 %) og Opus 4.6 (68,8 %).
Nøkkelfunksjoner
1. Autonome økter over flere timer
Tidligere kodemodeller fungerte i korte støt — du gir en prompt, den svarer, du gir en ny prompt. GPT-5.3 Codex jobber kontinuerlig med komplekse oppgaver og administrerer sin egen arbeidsflyt over mange trinn.
Eksempel på arbeidsflyt: "Migrer autentiseringssystemet vårt fra JWT til OAuth 2.0, oppdater alle berørte endepunkter, skriv tester og verifiser at migreringen fungerer." GPT-5.3 Codex vil undersøke kodebasen, planlegge migreringen, utføre den fil for fil, kjøre tester, fikse feil og rapportere tilbake — potensielt over flere timer.
2. Interaktiv styring
Du kan omdirigere GPT-5.3 Codex mens den jobber uten å miste kontekst. Hvis du ser at den er på vei i feil retning, kan du be den endre kurs. Samtalen forblir kontinuerlig.
3. Full livssyklus for programvare
OpenAI posisjonerer eksplisitt GPT-5.3 Codex til mer enn bare å skrive kode:
- Feilsøking — leser feillogger, sporer rotårsaker, utfører rettelser
- Distribuering (Deploying) — håndterer distribusjons-pipelines og konfigurasjoner
- Overvåking — ser etter problemer i kjørende systemer
- PRD-er og dokumentasjon — skriver produktkrav og dokumentasjon
- Brukerundersøkelser — syntetiserer tilbakemeldinger og testresultater
- Testing — genererer og kjører testsuiter
- Metrikker — analyserer ytelsesdata
4. Selv-bootstrapping
GPT-5.3 Codex brukte tidlige versjoner av seg selv under utviklingen til å:
- Feilsøke problemer i trenings-pipelinen
- Administrere distribusjon av modeller
- Diagnostisere evalueringsresultater
- Iterere på spillutvikling autonomt over millioner av tokens
Dette er første gang en AI-modell offentlig har blitt beskrevet som en bidragsyter til sin egen skapelse.
GPT-5.3 Codex vs. Claude Code
| Kapasitet | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| Terminalkoding | 77,3 % | Opus: 65,4 %, Sonnet: 59,1 % |
| Datamaskinbruk | 64,7 % | Sonnet: 72,5 %, Opus: 72,7 % |
| SWE-bench | ~80 % | Opus: 80,8 %, Sonnet: 79,6 % |
| Fler-timers autonomi | Ja | Begrenset |
| Interaktiv styring | Ja | Ja |
| IDE-integrasjon | Codex IDE-utvidelse | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| Kontoroppgaver | Begrenset | Sonnet: 1633 Elo |
| Motstand mot prompt-injeksjon | Standard | Opus-nivå |
| API-prising | TBD | $3/$15 (Sonnet), $15/$75 (Opus) |
- Du har autonome kodingsoppgaver som tar lang tid (økter over flere timer)
- Du har terminal-tunge arbeidsflyter med komplekse verktøykjeder
- Du allerede er i OpenAI/ChatGPT-økosystemet
- Du ønsker automatisering av hele programvarens livssyklus
- Du trenger datamaskinbruk / nettleserautomatisering (72,5 % mot 64,7 %)
- Du gjør kontoroppgaver ved siden av koding
- Agentsikkerhet er kritisk (bedre motstand mot prompt-injeksjon)
- Forutsigbare API-kostnader er viktig ($3/$15 kjent prising)
Tilgjengelighet
GPT-5.3 Codex er tilgjengelig for betalte ChatGPT-abonnementer (Plus, Pro, Team, Enterprise) via:
- Codex-appen (web) — fullt grensesnitt for autonome agenter
- Codex CLI — terminalbasert kodeagent
- IDE-utvidelse — integrert i editoren din
- API — kommer om få uker (prising TBD)
Hva det betyr for utviklere
Kappløpet om AI-kodeagenter er i gang
- februar 2026 lanserte både OpenAI og Anthropic store modeller på samme dag — GPT-5.3 Codex og Claude Opus 4.6. Budskapet er tydelig: autonome kodeagenter er den viktigste konkurransearenaen.
Ulike styrker, ulike arbeidsflyter
GPT-5.3 Codex utmerker seg på autonom, terminalbasert koding over lange økter. Claude utmerker seg på datamaskinbruk, kontorintegrasjon og sikkerhet. Gemini 3.1 Pro leder på resonnering og multimodalitet.
For de fleste utviklere avhenger valget av arbeidsflyten din:
- Mye CLI/terminal-arbeid → GPT-5.3 Codex
- Nettleserautomatisering + blandede oppgaver → Claude Code
- Vitenskapelig/resonnerings-tungt arbeid → Gemini 3.1 Pro
Modellen er bare starten
Trenden hos alle de tre labene er: modellen alene er ikke nok. Du trenger verktøy for distribusjon, overvåking, analyse og vekst rundt den. AI-kodeagenten skriver koden, men å levere et produkt krever hele stacken.
Lever det du bygger. Y Build håndterer alt etter koden: ett-klikks deploy, Demo Cut for produktvideoer, AI SEO og analyse. Fungerer med alle AI-kodeverktøy. Start gratis.
Kilder:
- OpenAI: Introducing GPT-5.3-Codex
- OpenAI: GPT-5.3-Codex System Card
- Fortune: OpenAI GPT-5.3 Codex raises cybersecurity risks
- MarkTechPost: GPT-5.3-Codex agentic coding model
- DataCamp: GPT-5.3 Codex from coding to general work agent
- OfficeChai: Gemini 3.1 Pro Benchmarks (GPT-5.3 comparison)
- LLM Stats: GPT-5.3 Codex pricing and benchmarks
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.