GPT-5.3 Codex: OpenAI's Autonome Coding Agent

TL;DR

OpenAI heeft GPT-5.3 Codex uitgebracht op 5 februari 2026 — dezelfde dag dat Anthropic Opus 4.6 lanceerde. Belangrijkste statistieken:

Terminal-Bench 2.0: 77,3% — leidt alle modellen op het gebied van agentische terminal-coding
SWE-Bench Pro: 56,8% — hoogste score over vier programmeertalen
OSWorld: 64,7% — sterk in computergebruik (maar achter op de 72,5% van Sonnet 4.6)
25% sneller dan GPT-5.2 Codex
Interactief tijdens het werk — stuur de agent bij tijdens een taak zonder context te verliezen
Eerste self-bootstrapping model — GPT-5.3 Codex hielp bij het debuggen van zijn eigen training
Beschikbaar in de Codex-app, CLI en IDE-extensie voor betaalde ChatGPT-abonnementen
API-prijzen nog niet gepubliceerd

Wat OpenAI heeft aangekondigd

GPT-5.3 Codex is niet zomaar een beter programmeermodel. Het is OpenAI's eerste model dat is ontworpen als een agent voor de volledige software-levenscyclus — debuggen, deployen, monitoren, PRD's schrijven, copy bewerken, tests uitvoeren en meer.

De belangrijkste feature: autonome, langdurige taken. Geef GPT-5.3 Codex een complexe taak en het zal er urenlang aan werken — onderzoek doen, tools gebruiken, code uitvoeren en het plan gaandeweg aanpassen. Je kunt het tijdens de taak bijsturen zonder context te verliezen, vergelijkbaar met het samenwerken met een collega.

OpenAI's meest uitdagende bewering: GPT-5.3 Codex is "het eerste model dat instrumenteel was bij het creëren van zichzelf." Het Codex-team gebruikte vroege versies om de eigen trainingspijplijn te debuggen, de deployment te beheren en evaluatieresultaten te diagnosticeren.

Benchmarks

Waar GPT-5.3 Codex leidt

Benchmark	Wat het test	GPT-5.3 Codex	Beste concurrent
Terminal-Bench 2.0	Agentische terminal-coding	77,3%	Gemini 3.1 Pro: 68,5%
SWE-Bench Pro	Meertalig programmeren	56,8%	Gemini 3.1 Pro: 54,2%
HumanEval	Codegeneratie	93%	—
GPQA	Wetenschappelijk redeneren	81%	Gemini 3.1 Pro: 94,3%

Volledige vergelijking

Benchmark	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	77,3%	65,4%	59,1%	68,5%
SWE-Bench Pro	56,8%	—	—	54,2%
OSWorld	64,7%	72,7%	72,5%	N/B
SWE-bench Verified	~80%	80,8%	79,6%	80,6%
ARC-AGI-2	52,9%	68,8%	58,3%	77,1%

Wat de cijfers betekenen

GPT-5.3 Codex domineert op het gebied van agentische terminal-coding — het soort werk waarbij een AI-agent door een codebase moet navigeren, commando's moet uitvoeren, output moet interpreteren, fouten moet herstellen en moet itereren. De Terminal-Bench-score van 77,3% is bijna 9 punten hoger dan de nummer twee (Gemini 3.1 Pro op 68,5%) and 12 punten hoger dan Opus 4.6 (65,4%).

Echter, op het gebied van computergebruik (OSWorld) loopt het aanzienlijk achter op Claude — 64,7% versus de 72,5% van Sonnet 4.6. En wat betreft redeneren (ARC-AGI-2) blijft het ver achter op Gemini 3.1 Pro (77,1%) en Opus 4.6 (68,8%).

Belangrijkste Functies

1. Autonome sessies van meerdere uren

Vorige programmeermodellen werkten in korte bursts — jij geeft een prompt, het reageert, jij geeft weer een prompt. GPT-5.3 Codex werkt continu aan complexe taken en beheert zijn eigen workflow over vele stappen.

Voorbeeld-workflow: "Migreer ons authenticatiesysteem van JWT naar OAuth 2.0, update alle betrokken endpoints, schrijf tests en verifieer of de migratie werkt." GPT-5.3 Codex zal de codebase onderzoeken, de migratie plannen, deze bestand voor bestand uitvoeren, tests draaien, fouten herstellen en rapporteren — mogelijk over een periode van meerdere uren.

2. Interactieve besturing

Je kunt GPT-5.3 Codex bijsturen terwijl het aan het werk is, zonder context te verliezen. Als je ziet dat het de verkeerde kant op gaat, vertel je het de richting te veranderen. De conversatie blijft continu.

3. Volledige software-levenscyclus

OpenAI positioneert GPT-5.3 Codex expliciet als meer dan alleen een tool om code te schrijven:

Debugging — leest foutlogs, spoort de oorzaak op, voert reparaties uit
Deploying — beheert deployment-pijplijnen en configuraties
Monitoring — houdt draaiende systemen in de gaten voor problemen
PRD's en documentatie — schrijft productvereisten en documentatie
Gebruikersonderzoek — synthetiseert feedback en testresultaten
Testing — genereert en voert testsuites uit
Metrics — analyseert prestatiegegevens

4. Self-Bootstrapping

GPT-5.3 Codex gebruikte vroege versies van zichzelf tijdens de ontwikkeling om:

Problemen in de trainingspijplijn te debuggen

De deployment van het model te beheren

Evaluatieresultaten te diagnosticeren

Autonoom te itereren op game-ontwikkeling over miljoenen tokens

Dit is de eerste keer dat een AI-model publiekelijk wordt beschreven als een bijdrager aan zijn eigen creatie.

GPT-5.3 Codex vs. Claude Code

Mogelijkheid	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
Terminal-coding	77,3%	Opus: 65,4%, Sonnet: 59,1%
Computergebruik	64,7%	Sonnet: 72,5%, Opus: 72,7%
SWE-bench	~80%	Opus: 80,8%, Sonnet: 79,6%
Autonomie van meerdere uren	Ja	Beperkt
Interactieve besturing	Ja	Ja
IDE-integratie	Codex IDE-extensie	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
Kantoortaken	Beperkt	Sonnet: 1633 Elo
Resistentie tegen prompt-injectie	Standaard	Opus-niveau
API-prijzen	Nader te bepalen	$3/$15 (Sonnet), $15/$75 (Opus)

Kies voor GPT-5.3 Codex wanneer:

Langdurige autonome programmeertaken (sessies van meerdere uren) nodig zijn
Terminal-intensieve workflows met complexe toolchains worden gebruikt
Je al in het OpenAI/ChatGPT-ecosysteem zit
Volledige automatisering van de software-levenscyclus gewenst is

Kies voor Claude Code wanneer:

Computergebruik / browserautomatisering (72,5% vs 64,7%) belangrijk is
Kantoortaken naast het programmeren voorkomen
Veiligheid van de agent cruciaal is (betere resistentie tegen prompt-injectie)
Voorspelbaarheid van API-kosten gewenst is ($3/$15 bekende prijzen)

Beschikbaarheid

GPT-5.3 Codex is beschikbaar voor betaalde ChatGPT-abonnementen (Plus, Pro, Team, Enterprise) via:

Codex-app (web) — volledige interface voor autonome agents
Codex CLI — op terminal gebaseerde programmeeragent
IDE-extensie — geïntegreerd in je editor
API — verwacht over enkele weken (prijzen nader te bepalen)

Momenteel is er geen toegang via het gratis abonnement.

Wat het betekent voor ontwikkelaars

De race om AI-coding agents is echt begonnen

Op 5 februari 2026 brachten zowel OpenAI als Anthropic op dezelfde dag belangrijke modellen uit — GPT-5.3 Codex en Claude Opus 4.6. De boodschap is duidelijk: autonome programmeeragents zijn het primaire strijdtoneel voor concurrentie.

Verschillende sterktes, verschillende workflows

GPT-5.3 Codex blinkt uit in autonome, op de terminal gebaseerde coding gedurende lange sessies. Claude excelleert in computergebruik, kantoorintegratie en veiligheid. Gemini 3.1 Pro loopt voorop op het gebied van redeneren en multimodaliteit.

Voor de meeste ontwikkelaars hangt de keuze af van je workflow:

Veel CLI/terminal-werk → GPT-5.3 Codex

Browserautomatisering + gemengde taken → Claude Code

Wetenschappelijk werk of werk dat veel redeneren vereist → Gemini 3.1 Pro

Het model is pas het begin

De trend bij alle drie de labs: het model alleen is niet genoeg. Je hebt tools nodig voor deployment, monitoring, analytics en groei eromheen. De AI-coding agent schrijft de code, maar om een product te lanceren is de volledige stack nodig.

Ship wat je bouwt. Y Build beheert alles na de code: one-click deployment, Demo Cut voor productvideo's, AI SEO en analytics. Werkt met elke AI-coding tool. Start gratis.

Bronnen: