GPT-5.3 Codex: OpenAIs autonomer Coding-Agent
OpenAI hat am 5. Februar 2026 GPT-5.3 Codex veröffentlicht — das erste KI-Modell, das sich selbst mitentwickelt hat. 77,3 % Terminal-Bench, 56,8 % SWE-Bench Pro, autonome mehrstündige Coding-Sessions. Vollständige Analyse der Funktionen, Benchmarks und Vergleich mit Claude Code.
TL;DR
OpenAI hat am 5. Februar 2026 GPT-5.3 Codex veröffentlicht — am selben Tag, an dem Anthropic Opus 4.6 herausbrachte. Die wichtigsten Statistiken:
- Terminal-Bench 2.0: 77,3 % — führt alle Modelle beim agentenbasierten Terminal-Coding an
- SWE-Bench Pro: 56,8 % — Höchstwert über vier Programmiersprachen hinweg
- OSWorld: 64,7 % — starke Computer-Nutzung (liegt jedoch hinter den 72,5 % von Sonnet 4.6)
- 25 % schneller als GPT-5.2 Codex
- Interaktiv während der Arbeit — steuern Sie den Agenten während der Aufgabe, ohne den Kontext zu verlieren
- Erstes Self-Bootstrapping-Modell — GPT-5.3 Codex half beim Debugging des eigenen Trainings
- Verfügbar in der Codex-App, als CLI und IDE-Erweiterung für kostenpflichtige ChatGPT-Abos
- API-Preise wurden noch nicht veröffentlicht
Was OpenAI angekündigt hat
GPT-5.3 Codex ist nicht nur ein besseres Coding-Modell. Es ist das erste Modell von OpenAI, das als Agent für den gesamten Software-Lebenszyklus konzipiert wurde — Debugging, Deployment, Monitoring, das Schreiben von PRDs, das Bearbeiten von Texten, das Ausführen von Tests und mehr.
Das Highlight-Feature: autonome, langlaufende Aufgaben. Geben Sie GPT-5.3 Codex eine komplexe Aufgabe, und es wird stundenlang daran arbeiten — recherchieren, Tools nutzen, Code ausführen und seinen Plan währenddessen anpassen. Sie können es mitten im Prozess umsteuern, ohne dass der Kontext verloren geht, ähnlich wie bei der Zusammenarbeit mit einem Kollegen.
Die provokanteste Behauptung von OpenAI: GPT-5.3 Codex ist „das erste Modell, das maßgeblich an seiner eigenen Entstehung beteiligt war“. Das Codex-Team nutzte frühe Versionen, um die eigene Trainings-Pipeline zu debuggen, das Deployment zu verwalten und Evaluierungsergebnisse zu diagnostizieren.
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.
Benchmarks
Wo GPT-5.3 Codex führt
| Benchmark | Was getestet wird | GPT-5.3 Codex | Bester Wettbewerber |
|---|---|---|---|
| Terminal-Bench 2.0 | Agentenbasiertes Terminal-Coding | 77,3 % | Gemini 3.1 Pro: 68,5 % |
| SWE-Bench Pro | Mehrsprachiges Coding | 56,8 % | Gemini 3.1 Pro: 54,2 % |
| HumanEval | Code-Generierung | 93 % | — |
| GPQA | Wissenschaftliches Schlussfolgern | 81 % | Gemini 3.1 Pro: 94,3 % |
Vollständiger Vergleich
| Benchmark | GPT-5.3 Codex | Opus 4.6 | Sonnet 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 77,3 % | 65,4 % | 59,1 % | 68,5 % |
| SWE-Bench Pro | 56,8 % | — | — | 54,2 % |
| OSWorld | 64,7 % | 72,7 % | 72,5 % | N/A |
| SWE-bench Verified | ~80 % | 80,8 % | 79,6 % | 80,6 % |
| ARC-AGI-2 | 52,9 % | 68,8 % | 58,3 % | 77,1 % |
Was die Zahlen bedeuten
GPT-5.3 Codex dominiert beim agentenbasierten Terminal-Coding — jener Art von Arbeit, bei der ein KI-Agent eine Codebasis navigieren, Befehle ausführen, den Output interpretieren, Fehler beheben und iterieren muss. Der Score von 77,3 % im Terminal-Bench liegt fast 9 Punkte vor dem nächstbesten Modell (Gemini 3.1 Pro mit 68,5 %) und 12 Punkte vor Opus 4.6 (65,4 %).
Bei der Computer-Nutzung (OSWorld) liegt es jedoch deutlich hinter Claude — 64,7 % gegenüber 72,5 % bei Sonnet 4.6. Und beim Schlussfolgern (ARC-AGI-2) liegt es weit hinter Gemini 3.1 Pro (77,1 %) und Opus 4.6 (68,8 %).
Hauptmerkmale
1. Autonome mehrstündige Sitzungen
Frühere Coding-Modelle arbeiteten in kurzen Schüben — man gibt einen Prompt ein, das Modell antwortet, man gibt einen weiteren Prompt ein. GPT-5.3 Codex arbeitet kontinuierlich an komplexen Aufgaben und verwaltet seinen eigenen Workflow über viele Schritte hinweg.
Beispiel-Workflow: „Migriere unser Authentifizierungssystem von JWT zu OAuth 2.0, aktualisiere alle betroffenen Endpunkte, schreibe Tests und verifiziere, dass die Migration funktioniert.“ GPT-5.3 Codex wird die Codebasis untersuchen, die Migration planen, sie Datei für Datei ausführen, Tests laufen lassen, Fehler beheben und Bericht erstatten — potenziell über mehrere Stunden hinweg.
2. Interaktive Steuerung
Sie können GPT-5.3 Codex während der Arbeit umleiten, ohne den Kontext zu verlieren. Wenn Sie sehen, dass es in die falsche Richtung läuft, sagen Sie ihm, dass es die Richtung ändern soll. Die Konversation bleibt durchgehend bestehen.
3. Vollständiger Software-Lebenszyklus
OpenAI positioniert GPT-5.3 Codex explizit über das reine Schreiben von Code hinaus:
- Debugging — liest Error-Logs, verfolgt Ursachen zurück, wendet Fixes an
- Deployment — verwaltet Deployment-Pipelines und Konfigurationen
- Monitoring — überwacht laufende Systeme auf Probleme
- PRDs und Dokumentation — schreibt Produktanforderungen und Dokumentationen
- Nutzerforschung — synthetisiert Feedback und Testergebnisse
- Testing — generiert und führt Test-Suites aus
- Metriken — analysiert Performance-Daten
4. Self-Bootstrapping
GPT-5.3 Codex nutzte während der Entwicklung frühe Versionen seiner selbst, um:
- Probleme in der Trainings-Pipeline zu debuggen
- Das Modell-Deployment zu verwalten
- Evaluierungsergebnisse zu diagnostizieren
- Autonom über Millionen von Token hinweg an der Spieleentwicklung zu iterieren
Dies ist das erste Mal, dass ein KI-Modell öffentlich als Beitrag zu seiner eigenen Erschaffung beschrieben wurde.
GPT-5.3 Codex vs. Claude Code
| Fähigkeit | GPT-5.3 Codex | Claude Code (Sonnet/Opus 4.6) |
|---|---|---|
| Terminal-Coding | 77,3 % | Opus: 65,4 %, Sonnet: 59,1 % |
| Computer-Nutzung | 64,7 % | Sonnet: 72,5 %, Opus: 72,7 % |
| SWE-bench | ~80 % | Opus: 80,8 %, Sonnet: 79,6 % |
| Mehrstündige Autonomie | Ja | Eingeschränkt |
| Interaktive Steuerung | Ja | Ja |
| IDE-Integration | Codex IDE-Erweiterung | Cursor, VS Code |
| CLI | Codex CLI | Claude Code CLI |
| Office-Aufgaben | Eingeschränkt | Sonnet: 1633 Elo |
| Resistenz gegen Prompt-Injections | Standard | Opus-Niveau |
| API-Preise | Noch offen | $3/$15 (Sonnet), $15/$75 (Opus) |
- Langlaufende autonome Coding-Aufgaben (mehrstündige Sitzungen)
- Terminal-lastige Workflows mit komplexen Toolchains
- Bestehende Nutzung des OpenAI/ChatGPT-Ökosystems
- Automatisierung des gesamten Software-Lebenszyklus
- Computer-Nutzung / Browser-Automatisierung (72,5 % vs. 64,7 %)
- Office-Aufgaben neben dem Programmieren
- Wenn Agenten-Sicherheit kritisch ist (bessere Resistenz gegen Prompt-Injections)
- Vorhersehbare API-Kosten (bekannte Preise von $3/$15)
Verfügbarkeit
GPT-5.3 Codex ist für kostenpflichtige ChatGPT-Abos (Plus, Pro, Team, Enterprise) verfügbar über:
- Codex-App (Web) — vollständiges Interface für autonome Agenten
- Codex CLI — terminalbasierter Coding-Agent
- IDE-Erweiterung — in Ihren Editor integriert
- API — erscheint in wenigen Wochen (Preise noch offen)
Was das für Entwickler bedeutet
Das Rennen um KI-Coding-Agenten ist in vollem Gange
Am 5. Februar 2026 veröffentlichten sowohl OpenAI als auch Anthropic am selben Tag bedeutende Modelle — GPT-5.3 Codex und Claude Opus 4.6. Die Botschaft ist klar: Autonome Coding-Agenten sind das primäre Wettbewerbsfeld.
Unterschiedliche Stärken, unterschiedliche Workflows
GPT-5.3 Codex glänzt bei autonomen, terminalbasierten Coding-Aufgaben über lange Sitzungen. Claude überzeugt bei der Computer-Nutzung, Office-Integration und Sicherheit. Gemini 3.1 Pro führt beim logischen Schlussfolgern und im multimodalen Bereich.
Für die meisten Entwickler hängt die Wahl vom Workflow ab:
- Viel CLI/Terminal-Arbeit → GPT-5.3 Codex
- Browser-Automatisierung + gemischte Aufgaben → Claude Code
- Wissenschaftliche/logikintensive Arbeit → Gemini 3.1 Pro
Das Modell ist erst der Anfang
Der Trend bei allen drei Laboren zeigt: Das Modell allein reicht nicht aus. Man benötigt Tools für Deployment, Monitoring, Analytics und Wachstum drumherum. Der KI-Coding-Agent schreibt den Code, aber um ein Produkt auf den Markt zu bringen, ist der gesamte Stack erforderlich.
Bringen Sie Ihre Projekte live. Y Build übernimmt alles nach dem Code: One-Click-Deploy, Demo Cut für Produktvideos, KI-SEO und Analytics. Funktioniert mit jedem KI-Coding-Tool. Kostenlos starten.
Quellen:
- OpenAI: Einführung von GPT-5.3-Codex
- OpenAI: GPT-5.3-Codex System Card
- Fortune: OpenAI GPT-5.3 Codex warnt vor beispiellosen Cybersicherheitsrisiken
- MarkTechPost: GPT-5.3-Codex agentenbasiertes Coding-Modell
- DataCamp: GPT-5.3 Codex vom Coding- zum allgemeinen Arbeitsagenten
- OfficeChai: Gemini 3.1 Pro Benchmarks (GPT-5.3 Vergleich)
- LLM Stats: GPT-5.3 Codex Preise und Benchmarks
Be first to build with AI
Y Build is the AI-era operating system for startups. Join the waitlist and get early access.