GPT-5.3 Codex: OpenAI's Autonome Coding Agent
OpenAI heeft GPT-5.3 Codex uitgebracht op 5 februari 2026 — het eerste AI-model dat hielp zichzelf te bouwen. 77,3% op Terminal-Bench, 56,8% op SWE-Bench Pro, autonome programmeersessies van meerdere uren. Een volledige analyse van functies, benchmarks en hoe het zich verhoudt tot Claude Code.
TL;DR
OpenAI heeft GPT-5.3 Codex uitgebracht op 5 februari 2026 — dezelfde dag dat Anthropic Opus 4.6 lanceerde. Belangrijkste statistieken:
- Terminal-Bench 2.0: 77,3% — leidt alle modellen op het gebied van agentische terminal-coding
- SWE-Bench Pro: 56,8% — hoogste score over vier programmeertalen
- OSWorld: 64,7% — sterk in computergebruik (maar achter op de 72,5% van Sonnet 4.6)
- 25% sneller dan GPT-5.2 Codex
- Interactief tijdens het werk — stuur de agent bij tijdens een taak zonder context te verliezen
- Eerste self-bootstrapping model — GPT-5.3 Codex hielp bij het debuggen van zijn eigen training
- Beschikbaar in de Codex-app, CLI en IDE-extensie voor betaalde ChatGPT-abonnementen
- API-prijzen nog niet gepubliceerd
Wat OpenAI heeft aangekondigd
GPT-5.3 Codex is niet zomaar een beter programmeermodel. Het is OpenAI's eerste model dat is ontworpen als een agent voor de volledige software-levenscyclus — debuggen, deployen, monitoren, PRD's schrijven, copy bewerken, tests uitvoeren en meer.
De belangrijkste feature: autonome, langdurige taken. Geef GPT-5.3 Codex een complexe taak en het zal er urenlang aan werken — onderzoek doen, tools gebruiken, code uitvoeren en het plan gaandeweg aanpassen. Je kunt het tijdens de taak bijsturen zonder context te verliezen, vergelijkbaar met het samenwerken met een collega.
OpenAI's meest uitdagende bewering: GPT-5.3 Codex is "het eerste model dat instrumenteel was bij het creëren van zichzelf." Het Codex-team gebruikte vroege versies om de eigen trainingspijplijn te debuggen, de deployment te beheren en evaluatieresultaten te diagnosticeren.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Benchmarks
Waar GPT-5.3 Codex leidt
| Benchmark | Wat het test | GPT-5.3 Codex | Beste concurrent |
|---|---|---|---|
| Terminal-Bench 2.0 | Agentische terminal-coding | 77,3% | Gemini 3.1 Pro: 68,5% |
| SWE-Bench Pro | Meertalig programmeren | 56,8% | Gemini 3.1 Pro: 54,2% |
| HumanEval | Codegeneratie | 93% | — |
| GPQA | Wetenschappelijk redeneren | 81% | Gemini 3.1 Pro: 94,3% |
Volledige vergelijking
| Benchmark | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 77,3% | 65,4% | 59,1% | 68,5% |
| SWE-Bench Pro | 56,8% | — | — | 54,2% |
| OSWorld | 64,7% | 72,7% | 72,5% | N/B |
| SWE-bench Verified | ~80% | 80,8% | 79,6% | 80,6% |
| ARC-AGI-2 | 52,9% | 68,8% | 58,3% | 77,1% |
Wat de cijfers betekenen
GPT-5.3 Codex domineert op het gebied van agentische terminal-coding — het soort werk waarbij een AI-agent door een codebase moet navigeren, commando's moet uitvoeren, output moet interpreteren, fouten moet herstellen en moet itereren. De Terminal-Bench-score van 77,3% is bijna 9 punten hoger dan de nummer twee (Gemini 3.1 Pro op 68,5%) and 12 punten hoger dan Opus 4.6 (65,4%).
Echter, op het gebied van computergebruik (OSWorld) loopt het aanzienlijk achter op Claude — 64,7% versus de 72,5% van Sonnet 4.6. En wat betreft redeneren (ARC-AGI-2) blijft het ver achter op Gemini 3.1 Pro (77,1%) en Opus 4.6 (68,8%).
Belangrijkste Functies
1. Autonome sessies van meerdere uren
Vorige programmeermodellen werkten in korte bursts — jij geeft een prompt, het reageert, jij geeft weer een prompt. GPT-5.3 Codex werkt continu aan complexe taken en beheert zijn eigen workflow over vele stappen.
Voorbeeld-workflow: "Migreer ons authenticatiesysteem van JWT naar OAuth 2.0, update alle betrokken endpoints, schrijf tests en verifieer of de migratie werkt." GPT-5.3 Codex zal de codebase onderzoeken, de migratie plannen, deze bestand voor bestand uitvoeren, tests draaien, fouten herstellen en rapporteren — mogelijk over een periode van meerdere uren.
2. Interactieve besturing
Je kunt GPT-5.3 Codex bijsturen terwijl het aan het werk is, zonder context te verliezen. Als je ziet dat het de verkeerde kant op gaat, vertel je het de richting te veranderen. De conversatie blijft continu.
3. Volledige software-levenscyclus
OpenAI positioneert GPT-5.3 Codex expliciet als meer dan alleen een tool om code te schrijven:
- Debugging — leest foutlogs, spoort de oorzaak op, voert reparaties uit
- Deploying — beheert deployment-pijplijnen en configuraties
- Monitoring — houdt draaiende systemen in de gaten voor problemen
- PRD's en documentatie — schrijft productvereisten en documentatie
- Gebruikersonderzoek — synthetiseert feedback en testresultaten
- Testing — genereert en voert testsuites uit
- Metrics — analyseert prestatiegegevens
4. Self-Bootstrapping
GPT-5.3 Codex gebruikte vroege versies van zichzelf tijdens de ontwikkeling om:
- Problemen in de trainingspijplijn te debuggen
- De deployment van het model te beheren
- Evaluatieresultaten te diagnosticeren
- Autonoom te itereren op game-ontwikkeling over miljoenen tokens
Dit is de eerste keer dat een AI-model publiekelijk wordt beschreven als een bijdrager aan zijn eigen creatie.
GPT-5.3 Codex vs. Claude Code
| Mogelijkheid | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| Terminal-coding | 77,3% | Opus: 65,4%, Sonnet: 59,1% |
| Computergebruik | 64,7% | Sonnet: 72,5%, Opus: 72,7% |
| SWE-bench | ~80% | Opus: 80,8%, Sonnet: 79,6% |
| Autonomie van meerdere uren | Ja | Beperkt |
| Interactieve besturing | Ja | Ja |
| IDE-integratie | Codex IDE-extensie | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| Kantoortaken | Beperkt | Sonnet: 1633 Elo |
| Resistentie tegen prompt-injectie | Standaard | Opus-niveau |
| API-prijzen | Nader te bepalen | $3/$15 (Sonnet), $15/$75 (Opus) |
- Langdurige autonome programmeertaken (sessies van meerdere uren) nodig zijn
- Terminal-intensieve workflows met complexe toolchains worden gebruikt
- Je al in het OpenAI/ChatGPT-ecosysteem zit
- Volledige automatisering van de software-levenscyclus gewenst is
- Computergebruik / browserautomatisering (72,5% vs 64,7%) belangrijk is
- Kantoortaken naast het programmeren voorkomen
- Veiligheid van de agent cruciaal is (betere resistentie tegen prompt-injectie)
- Voorspelbaarheid van API-kosten gewenst is ($3/$15 bekende prijzen)
Beschikbaarheid
GPT-5.3 Codex is beschikbaar voor betaalde ChatGPT-abonnementen (Plus, Pro, Team, Enterprise) via:
- Codex-app (web) — volledige interface voor autonome agents
- Codex CLI — op terminal gebaseerde programmeeragent
- IDE-extensie — geïntegreerd in je editor
- API — verwacht over enkele weken (prijzen nader te bepalen)
Wat het betekent voor ontwikkelaars
De race om AI-coding agents is echt begonnen
Op 5 februari 2026 brachten zowel OpenAI als Anthropic op dezelfde dag belangrijke modellen uit — GPT-5.3 Codex en Claude Opus 4.6. De boodschap is duidelijk: autonome programmeeragents zijn het primaire strijdtoneel voor concurrentie.
Verschillende sterktes, verschillende workflows
GPT-5.3 Codex blinkt uit in autonome, op de terminal gebaseerde coding gedurende lange sessies. Claude excelleert in computergebruik, kantoorintegratie en veiligheid. Gemini 3.1 Pro loopt voorop op het gebied van redeneren en multimodaliteit.
Voor de meeste ontwikkelaars hangt de keuze af van je workflow:
- Veel CLI/terminal-werk → GPT-5.3 Codex
- Browserautomatisering + gemengde taken → Claude Code
- Wetenschappelijk werk of werk dat veel redeneren vereist → Gemini 3.1 Pro
Het model is pas het begin
De trend bij alle drie de labs: het model alleen is niet genoeg. Je hebt tools nodig voor deployment, monitoring, analytics en groei eromheen. De AI-coding agent schrijft de code, maar om een product te lanceren is de volledige stack nodig.
Ship wat je bouwt. Y Build beheert alles na de code: one-click deployment, Demo Cut voor productvideo's, AI SEO en analytics. Werkt met elke AI-coding tool. Start gratis.
Bronnen:
- OpenAI: Introducing GPT-5.3-Codex
- OpenAI: GPT-5.3-Codex System Card
- Fortune: OpenAI GPT-5.3 Codex raises cybersecurity risks
- MarkTechPost: GPT-5.3-Codex agentic coding model
- DataCamp: GPT-5.3 Codex from coding to general work agent
- OfficeChai: Gemini 3.1 Pro Benchmarks (GPT-5.3 comparison)
- LLM Stats: GPT-5.3 Codex pricing and benchmarks
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.