GPT-5.3 Codex: OpenAIs autonome kodeagent

TL;DR

OpenAI lanserte GPT-5.3 Codex 5. februar 2026 — samme dag som Anthropic slapp Opus 4.6. Viktige statistikker:

Terminal-Bench 2.0: 77,3 % — leder over alle modeller på agentbasert terminalkoding
SWE-Bench Pro: 56,8 % — toppscore på tvers av fire programmeringsspråk
OSWorld: 64,7 % — sterk på datamaskinbruk (men bak Sonnet 4.6s 72,5 %)
25 % raskere enn GPT-5.2 Codex
Interaktiv under arbeid — styr agenten midt i en oppgave uten å miste kontekst
Første selv-bootstrappende modell — GPT-5.3 Codex hjalp til med å feilsøke sin egen trening
Tilgjengelig i Codex-appen, CLI og IDE-utvidelse for betalte ChatGPT-abonnementer
API-prising er ennå ikke publisert

Hva OpenAI kunngjorde

GPT-5.3 Codex er ikke bare en bedre kodemodell. Det er OpenAIs første modell designet som en fullverdig agent for programvarens livssyklus — feilsøking, distribuering, overvåking, skriving av PRD-er, redigering av tekst, kjøring av tester og mer.

Hovedfunksjonen: autonome oppgaver som kjører over lang tid. Gi GPT-5.3 Codex en kompleks oppgave, og den vil jobbe med den i timevis — gjøre undersøkelser, bruke verktøy, utføre kode og tilpasse planen sin underveis. Du kan styre den midt i en oppgave uten å miste kontekst, akkurat som å jobbe med en kollega.

OpenAIs mest provoserende påstand: GPT-5.3 Codex er "den første modellen som var instrumentell i å skape seg selv." Codex-teamet brukte tidlige versjoner til å feilsøke sin egen trenings-pipeline, administrere distribusjon og diagnostisere evalueringsresultater.

Benchmarks

Der GPT-5.3 Codex leder

Benchmark	Hva den tester	GPT-5.3 Codex	Beste konkurrent
Terminal-Bench 2.0	Agentbasert terminalkoding	77,3 %	Gemini 3.1 Pro: 68,5 %
SWE-Bench Pro	Koding på tvers av språk	56,8 %	Gemini 3.1 Pro: 54,2 %
HumanEval	Kodegenerering	93 %	—
GPQA	Vitenskapelig resonnering	81 %	Gemini 3.1 Pro: 94,3 %

Full sammenligning

Benchmark	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	77,3 %	65,4 %	59,1 %	68,5 %
SWE-Bench Pro	56,8 %	—	—	54,2 %
OSWorld	64,7 %	72,7 %	72,5 %	N/A
SWE-bench Verified	~80 %	80,8 %	79,6 %	80,6 %
ARC-AGI-2	52,9 %	68,8 %	58,3 %	77,1 %

Hva tallene betyr

GPT-5.3 Codex dominerer på agentbasert terminalkoding — den typen arbeid der en AI-agent må navigere i en kodebase, kjøre kommandoer, tolke utdata, fikse feil og iterere. Terminal-Bench-scoren på 77,3 % er nesten 9 poeng foran den neste beste (Gemini 3.1 Pro på 68,5 %) og 12 poeng foran Opus 4.6 (65,4 %).

Men på datamaskinbruk (OSWorld) ligger den betydelig bak Claude — 64,7 % mot Sonnet 4.6s 72,5 %. Og på resonnering (ARC-AGI-2) er den langt bak Gemini 3.1 Pro (77,1 %) og Opus 4.6 (68,8 %).

Nøkkelfunksjoner

1. Autonome økter over flere timer

Tidligere kodemodeller fungerte i korte støt — du gir en prompt, den svarer, du gir en ny prompt. GPT-5.3 Codex jobber kontinuerlig med komplekse oppgaver og administrerer sin egen arbeidsflyt over mange trinn.

Eksempel på arbeidsflyt: "Migrer autentiseringssystemet vårt fra JWT til OAuth 2.0, oppdater alle berørte endepunkter, skriv tester og verifiser at migreringen fungerer." GPT-5.3 Codex vil undersøke kodebasen, planlegge migreringen, utføre den fil for fil, kjøre tester, fikse feil og rapportere tilbake — potensielt over flere timer.

2. Interaktiv styring

Du kan omdirigere GPT-5.3 Codex mens den jobber uten å miste kontekst. Hvis du ser at den er på vei i feil retning, kan du be den endre kurs. Samtalen forblir kontinuerlig.

3. Full livssyklus for programvare

OpenAI posisjonerer eksplisitt GPT-5.3 Codex til mer enn bare å skrive kode:

Feilsøking — leser feillogger, sporer rotårsaker, utfører rettelser
Distribuering (Deploying) — håndterer distribusjons-pipelines og konfigurasjoner
Overvåking — ser etter problemer i kjørende systemer
PRD-er og dokumentasjon — skriver produktkrav og dokumentasjon
Brukerundersøkelser — syntetiserer tilbakemeldinger og testresultater
Testing — genererer og kjører testsuiter
Metrikker — analyserer ytelsesdata

4. Selv-bootstrapping

GPT-5.3 Codex brukte tidlige versjoner av seg selv under utviklingen til å:

Feilsøke problemer i trenings-pipelinen

Administrere distribusjon av modeller

Diagnostisere evalueringsresultater

Iterere på spillutvikling autonomt over millioner av tokens

Dette er første gang en AI-modell offentlig har blitt beskrevet som en bidragsyter til sin egen skapelse.

GPT-5.3 Codex vs. Claude Code

Kapasitet	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
Terminalkoding	77,3 %	Opus: 65,4 %, Sonnet: 59,1 %
Datamaskinbruk	64,7 %	Sonnet: 72,5 %, Opus: 72,7 %
SWE-bench	~80 %	Opus: 80,8 %, Sonnet: 79,6 %
Fler-timers autonomi	Ja	Begrenset
Interaktiv styring	Ja	Ja
IDE-integrasjon	Codex IDE-utvidelse	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
Kontoroppgaver	Begrenset	Sonnet: 1633 Elo
Motstand mot prompt-injeksjon	Standard	Opus-nivå
API-prising	TBD	$3/$15 (Sonnet), $15/$75 (Opus)

Velg GPT-5.3 Codex når:

Du har autonome kodingsoppgaver som tar lang tid (økter over flere timer)
Du har terminal-tunge arbeidsflyter med komplekse verktøykjeder
Du allerede er i OpenAI/ChatGPT-økosystemet
Du ønsker automatisering av hele programvarens livssyklus

Velg Claude Code når:

Du trenger datamaskinbruk / nettleserautomatisering (72,5 % mot 64,7 %)
Du gjør kontoroppgaver ved siden av koding
Agentsikkerhet er kritisk (bedre motstand mot prompt-injeksjon)
Forutsigbare API-kostnader er viktig ($3/$15 kjent prising)

Tilgjengelighet

GPT-5.3 Codex er tilgjengelig for betalte ChatGPT-abonnementer (Plus, Pro, Team, Enterprise) via:

Codex-appen (web) — fullt grensesnitt for autonome agenter
Codex CLI — terminalbasert kodeagent
IDE-utvidelse — integrert i editoren din
API — kommer om få uker (prising TBD)

Ingen tilgang via gratisversjon for øyeblikket.

Hva det betyr for utviklere

Kappløpet om AI-kodeagenter er i gang

februar 2026 lanserte både OpenAI og Anthropic store modeller på samme dag — GPT-5.3 Codex og Claude Opus 4.6. Budskapet er tydelig: autonome kodeagenter er den viktigste konkurransearenaen.

Ulike styrker, ulike arbeidsflyter

GPT-5.3 Codex utmerker seg på autonom, terminalbasert koding over lange økter. Claude utmerker seg på datamaskinbruk, kontorintegrasjon og sikkerhet. Gemini 3.1 Pro leder på resonnering og multimodalitet.

For de fleste utviklere avhenger valget av arbeidsflyten din:

Mye CLI/terminal-arbeid → GPT-5.3 Codex

Nettleserautomatisering + blandede oppgaver → Claude Code

Vitenskapelig/resonnerings-tungt arbeid → Gemini 3.1 Pro

Modellen er bare starten

Trenden hos alle de tre labene er: modellen alene er ikke nok. Du trenger verktøy for distribusjon, overvåking, analyse og vekst rundt den. AI-kodeagenten skriver koden, men å levere et produkt krever hele stacken.

Lever det du bygger. Y Build håndterer alt etter koden: ett-klikks deploy, Demo Cut for produktvideoer, AI SEO og analyse. Fungerer med alle AI-kodeverktøy. Start gratis.

Kilder: