GPT-5.3 Codex: OpenAIs autonoma kodningsagent
OpenAI släppte GPT-5.3 Codex den 5 februari 2026 — den första AI-modellen som hjälpte till att bygga sig själv. 77,3 % Terminal-Bench, 56,8 % SWE-Bench Pro, autonoma kodningssessioner över flera timmar. Fullständig genomgång av funktioner, benchmarks och hur den står sig mot Claude Code.
TL;DR
OpenAI släppte GPT-5.3 Codex den 5 februari 2026 — samma dag som Anthropic lanserade Opus 4.6. Nyckelstatistik:
- Terminal-Bench 2.0: 77,3 % — leder över alla modeller inom agentbaserad terminalkodning
- SWE-Bench Pro: 56,8 % — högsta poäng över fyra programmeringsspråk
- OSWorld: 64,7 % — stark datoranvändning (men efter Sonnet 4.6:s 72,5 %)
- 25 % snabbare än GPT-5.2 Codex
- Interaktiv under arbete — styr agenten mitt i en uppgift utan att förlora kontext
- Första själv-bootstrappande modellen — GPT-5.3 Codex hjälpte till att felsöka sin egen träning
- Tillgänglig i Codex-appen, CLI och som IDE-tillägg för betalda ChatGPT-planer
- API-prissättning ännu ej publicerad
Vad OpenAI tillkännagav
GPT-5.3 Codex är inte bara en bättre kodningsmodell. Det är OpenAIs första modell designad som en agent för mjukvarans hela livscykel — felsökning, driftsättning, övervakning, skriva PRD:er, redigera texter, köra tester och mer.
Huvudfunktionen: autonoma långkörande uppgifter. Ge GPT-5.3 Codex en komplex uppgift och den kommer att arbeta med den i timmar — genom att göra efterforskningar, använda verktyg, köra kod och anpassa sin plan längs vägen. Du kan styra den mitt i en uppgift utan att förlora kontext, precis som att arbeta med en kollega.
OpenAIs mest provocerande påstående: GPT-5.3 Codex är "den första modellen som var avgörande för att skapa sig själv." Codex-teamet använde tidiga versioner för att felsöka sin egen träningspipeline, hantera driftsättning och diagnostisera utvärderingsresultat.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Benchmarks
Där GPT-5.3 Codex leder
| Benchmark | Vad det testar | GPT-5.3 Codex | Bästa konkurrent |
|---|---|---|---|
| Terminal-Bench 2.0 | Agentbaserad terminalkodning | 77,3 % | Gemini 3.1 Pro: 68,5 % |
| SWE-Bench Pro | Kodning på flera språk | 56,8 % | Gemini 3.1 Pro: 54,2 % |
| HumanEval | Kodgenerering | 93 % | — |
| GPQA | Vetenskapliga resonemang | 81 % | Gemini 3.1 Pro: 94,3 % |
Fullständig jämförelse
| Benchmark | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 77,3 % | 65,4 % | 59,1 % | 68,5 % |
| SWE-Bench Pro | 56,8 % | — | — | 54,2 % |
| OSWorld | 64,7 % | 72,7 % | 72,5 % | N/A |
| SWE-bench Verified | ~80 % | 80,8 % | 79,6 % | 80,6 % |
| ARC-AGI-2 | 52,9 % | 68,8 % | 58,3 % | 77,1 % |
Vad siffrorna betyder
GPT-5.3 Codex dominerar inom agentbaserad terminalkodning — den typ av arbete där en AI-agent behöver navigera i en kodbas, köra kommandon, tolka utdata, åtgärda fel och iterera. Resultatet på 77,3 % i Terminal-Bench är nästan 9 poäng före näst bästa (Gemini 3.1 Pro på 68,5 %) och 12 poäng före Opus 4.6 (65,4 %).
Men vid datoranvändning (OSWorld) ligger den betydligt efter Claude — 64,7 % mot Sonnet 4.6:s 72,5 %. Och när det gäller resonemang (ARC-AGI-2) är den långt efter Gemini 3.1 Pro (77,1 %) och Opus 4.6 (68,8 %).
Nyckelfunktioner
1. Autonoma sessioner över flera timmar
Tidigare kodningsmodeller arbetade i korta intervaller — du ger en prompt, den svarar, du ger en ny prompt. GPT-5.3 Codex arbetar kontinuerligt med komplexa uppgifter och hanterar sitt eget arbetsflöde över många steg.
Exempel på arbetsflöde: "Migrera vårt autentiseringssystem från JWT till OAuth 2.0, uppdatera alla berörda endpoints, skriv tester och verifiera att migreringen fungerar." GPT-5.3 Codex kommer att undersöka kodbasen, planera migreringen, utföra den fil för fil, köra tester, åtgärda fel och rapportera tillbaka — potentiellt under flera timmar.
2. Interaktiv styrning
Du kan omdirigera GPT-5.3 Codex medan den arbetar utan att förlora kontext. Om du ser att den är på väg åt fel håll, säg till den att byta riktning. Konversationen förblir sammanhängande.
3. Hela mjukvarans livscykel
OpenAI positionerar uttryckligen GPT-5.3 Codex till mer än att bara skriva kod:
- Felsökning — läser felloggar, spårar grundorsaker, applicerar rättningar
- Driftsättning — hanterar pipelines för driftsättning och konfigurationer
- Övervakning — bevakar problem i system som är i drift
- PRD:er och dokumentation — skriver produktkrav och dokumentation
- Användarundersökningar — sammanställer feedback och testresultat
- Testning — genererar och kör testsviter
- Metrik — analyserar prestandadata
4. Själv-bootstrapping
GPT-5.3 Codex använde tidiga versioner av sig själv under utvecklingen för att:
- Felsöka problem i träningspipelinen
- Hantera driftsättning av modellen
- Diagnostisera utvärderingsresultat
- Iterera på spelutveckling autonomt över miljontals tokens
Detta är första gången en AI-modell offentligt beskrivs som att ha bidragit till sin egen skapelse.
GPT-5.3 Codex vs. Claude Code
| Förmåga | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| Terminalkodning | 77,3 % | Opus: 65,4 %, Sonnet: 59,1 % |
| Datoranvändning | 64,7 % | Sonnet: 72,5 %, Opus: 72,7 % |
| SWE-bench | ~80 % | Opus: 80,8 %, Sonnet: 79,6 % |
| Autonomi över flera timmar | Ja | Begränsad |
| Interaktiv styrning | Ja | Ja |
| IDE-integration | Codex IDE-tillägg | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| Kontorsuppgifter | Begränsad | Sonnet: 1633 Elo |
| Motståndskraft mot prompt-injektioner | Standard | Opus-nivå |
| API-prissättning | TBD | $3/$15 (Sonnet), $15/$75 (Opus) |
- Långkörande autonoma kodningsuppgifter (sessioner över flera timmar)
- Terminal-tunga arbetsflöden med komplexa verktygskedjor
- Du redan befinner dig i OpenAIs/ChatGPTs ekosystem
- Fullständig automatisering av mjukvarans livscykel krävs
- Datoranvändning / webbläsarautomatisering (72,5 % mot 64,7 %)
- Kontorsuppgifter vid sidan av kodning
- Agentsäkerhet är kritisk (bättre motståndskraft mot prompt-injektioner)
- Förutsägbarhet gällande API-kostnader ($3/$15 känd prissättning)
Tillgänglighet
GPT-5.3 Codex är tillgänglig för betalda ChatGPT-planer (Plus, Pro, Team, Enterprise) via:
- Codex-appen (webb) — fullständigt gränssnitt för den autonoma agenten
- Codex CLI — terminalbaserad kodningsagent
- IDE-tillägg — integrerat i din editor
- API — kommer inom några veckor (prissättning TBD)
Vad det betyder för utvecklare
Racet för AI-kodagenter är på riktigt
Den 5 februari 2026 släppte både OpenAI och Anthropic stora modeller på samma dag — GPT-5.3 Codex och Claude Opus 4.6. Budskapet är tydligt: autonoma kodningsagenter är det primära slagfältet för konkurrens.
Olika styrkor, olika arbetsflöden
GPT-5.3 Codex briljerar vid autonom, terminalbaserad kodning under långa sessioner. Claude utmärker sig inom datoranvändning, kontorsintegration och säkerhet. Gemini 3.1 Pro leder inom resonemang och multimodalitet.
För de flesta utvecklare beror valet på ditt arbetsflöde:
- Tungt CLI/terminal-arbete → GPT-5.3 Codex
- Webbläsarautomatisering + blandade uppgifter → Claude Code
- Vetenskapligt/resonemangstungt arbete → Gemini 3.1 Pro
Modellen är bara början
Trenden hos alla tre labben: modellen ensam räcker inte. Du behöver verktyg för driftsättning, övervakning, analys och tillväxt runt den. AI-kodagenten skriver koden, men att leverera en produkt kräver hela stacken.
Leverera det du bygger. Y Build hanterar allt efter koden: driftsättning med ett klick, Demo Cut för produktvideor, AI SEO och analys. Fungerar med alla AI-kodningsverktyg. Starta gratis.
Källor:
- OpenAI: Introducing GPT-5.3-Codex
- OpenAI: GPT-5.3-Codex System Card
- Fortune: OpenAI GPT-5.3 Codex raises cybersecurity risks
- MarkTechPost: GPT-5.3-Codex agentic coding model
- DataCamp: GPT-5.3 Codex from coding to general work agent
- OfficeChai: Gemini 3.1 Pro Benchmarks (GPT-5.3 comparison)
- LLM Stats: GPT-5.3 Codex pricing and benchmarks
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.