GPT-5.3 Codex: OpenAIs autonomer Coding-Agent

TL;DR

OpenAI hat am 5. Februar 2026 GPT-5.3 Codex veröffentlicht — am selben Tag, an dem Anthropic Opus 4.6 herausbrachte. Die wichtigsten Statistiken:

Terminal-Bench 2.0: 77,3 % — führt alle Modelle beim agentenbasierten Terminal-Coding an
SWE-Bench Pro: 56,8 % — Höchstwert über vier Programmiersprachen hinweg
OSWorld: 64,7 % — starke Computer-Nutzung (liegt jedoch hinter den 72,5 % von Sonnet 4.6)
25 % schneller als GPT-5.2 Codex
Interaktiv während der Arbeit — steuern Sie den Agenten während der Aufgabe, ohne den Kontext zu verlieren
Erstes Self-Bootstrapping-Modell — GPT-5.3 Codex half beim Debugging des eigenen Trainings
Verfügbar in der Codex-App, als CLI und IDE-Erweiterung für kostenpflichtige ChatGPT-Abos
API-Preise wurden noch nicht veröffentlicht

Was OpenAI angekündigt hat

GPT-5.3 Codex ist nicht nur ein besseres Coding-Modell. Es ist das erste Modell von OpenAI, das als Agent für den gesamten Software-Lebenszyklus konzipiert wurde — Debugging, Deployment, Monitoring, das Schreiben von PRDs, das Bearbeiten von Texten, das Ausführen von Tests und mehr.

Das Highlight-Feature: autonome, langlaufende Aufgaben. Geben Sie GPT-5.3 Codex eine komplexe Aufgabe, und es wird stundenlang daran arbeiten — recherchieren, Tools nutzen, Code ausführen und seinen Plan währenddessen anpassen. Sie können es mitten im Prozess umsteuern, ohne dass der Kontext verloren geht, ähnlich wie bei der Zusammenarbeit mit einem Kollegen.

Die provokanteste Behauptung von OpenAI: GPT-5.3 Codex ist „das erste Modell, das maßgeblich an seiner eigenen Entstehung beteiligt war“. Das Codex-Team nutzte frühe Versionen, um die eigene Trainings-Pipeline zu debuggen, das Deployment zu verwalten und Evaluierungsergebnisse zu diagnostizieren.

Benchmarks

Wo GPT-5.3 Codex führt

Benchmark	Was getestet wird	GPT-5.3 Codex	Bester Wettbewerber
Terminal-Bench 2.0	Agentenbasiertes Terminal-Coding	77,3 %	Gemini 3.1 Pro: 68,5 %
SWE-Bench Pro	Mehrsprachiges Coding	56,8 %	Gemini 3.1 Pro: 54,2 %
HumanEval	Code-Generierung	93 %	—
GPQA	Wissenschaftliches Schlussfolgern	81 %	Gemini 3.1 Pro: 94,3 %

Vollständiger Vergleich

Benchmark	GPT-5.3 Codex	Opus 4.6	Sonnet 4.6	Gemini 3.1 Pro
Terminal-Bench 2.0	77,3 %	65,4 %	59,1 %	68,5 %
SWE-Bench Pro	56,8 %	—	—	54,2 %
OSWorld	64,7 %	72,7 %	72,5 %	N/A
SWE-bench Verified	~80 %	80,8 %	79,6 %	80,6 %
ARC-AGI-2	52,9 %	68,8 %	58,3 %	77,1 %

Was die Zahlen bedeuten

GPT-5.3 Codex dominiert beim agentenbasierten Terminal-Coding — jener Art von Arbeit, bei der ein KI-Agent eine Codebasis navigieren, Befehle ausführen, den Output interpretieren, Fehler beheben und iterieren muss. Der Score von 77,3 % im Terminal-Bench liegt fast 9 Punkte vor dem nächstbesten Modell (Gemini 3.1 Pro mit 68,5 %) und 12 Punkte vor Opus 4.6 (65,4 %).

Bei der Computer-Nutzung (OSWorld) liegt es jedoch deutlich hinter Claude — 64,7 % gegenüber 72,5 % bei Sonnet 4.6. Und beim Schlussfolgern (ARC-AGI-2) liegt es weit hinter Gemini 3.1 Pro (77,1 %) und Opus 4.6 (68,8 %).

Hauptmerkmale

1. Autonome mehrstündige Sitzungen

Frühere Coding-Modelle arbeiteten in kurzen Schüben — man gibt einen Prompt ein, das Modell antwortet, man gibt einen weiteren Prompt ein. GPT-5.3 Codex arbeitet kontinuierlich an komplexen Aufgaben und verwaltet seinen eigenen Workflow über viele Schritte hinweg.

Beispiel-Workflow: „Migriere unser Authentifizierungssystem von JWT zu OAuth 2.0, aktualisiere alle betroffenen Endpunkte, schreibe Tests und verifiziere, dass die Migration funktioniert.“ GPT-5.3 Codex wird die Codebasis untersuchen, die Migration planen, sie Datei für Datei ausführen, Tests laufen lassen, Fehler beheben und Bericht erstatten — potenziell über mehrere Stunden hinweg.

2. Interaktive Steuerung

Sie können GPT-5.3 Codex während der Arbeit umleiten, ohne den Kontext zu verlieren. Wenn Sie sehen, dass es in die falsche Richtung läuft, sagen Sie ihm, dass es die Richtung ändern soll. Die Konversation bleibt durchgehend bestehen.

3. Vollständiger Software-Lebenszyklus

OpenAI positioniert GPT-5.3 Codex explizit über das reine Schreiben von Code hinaus:

Debugging — liest Error-Logs, verfolgt Ursachen zurück, wendet Fixes an
Deployment — verwaltet Deployment-Pipelines und Konfigurationen
Monitoring — überwacht laufende Systeme auf Probleme
PRDs und Dokumentation — schreibt Produktanforderungen und Dokumentationen
Nutzerforschung — synthetisiert Feedback und Testergebnisse
Testing — generiert und führt Test-Suites aus
Metriken — analysiert Performance-Daten

4. Self-Bootstrapping

GPT-5.3 Codex nutzte während der Entwicklung frühe Versionen seiner selbst, um:

Probleme in der Trainings-Pipeline zu debuggen

Das Modell-Deployment zu verwalten

Evaluierungsergebnisse zu diagnostizieren

Autonom über Millionen von Token hinweg an der Spieleentwicklung zu iterieren

Dies ist das erste Mal, dass ein KI-Modell öffentlich als Beitrag zu seiner eigenen Erschaffung beschrieben wurde.

GPT-5.3 Codex vs. Claude Code

Fähigkeit	GPT-5.3 Codex	Claude Code (Sonnet/Opus 4.6)
Terminal-Coding	77,3 %	Opus: 65,4 %, Sonnet: 59,1 %
Computer-Nutzung	64,7 %	Sonnet: 72,5 %, Opus: 72,7 %
SWE-bench	~80 %	Opus: 80,8 %, Sonnet: 79,6 %
Mehrstündige Autonomie	Ja	Eingeschränkt
Interaktive Steuerung	Ja	Ja
IDE-Integration	Codex IDE-Erweiterung	Cursor, VS Code
CLI	Codex CLI	Claude Code CLI
Office-Aufgaben	Eingeschränkt	Sonnet: 1633 Elo
Resistenz gegen Prompt-Injections	Standard	Opus-Niveau
API-Preise	Noch offen	$3/$15 (Sonnet), $15/$75 (Opus)

Wählen Sie GPT-5.3 Codex für:

Langlaufende autonome Coding-Aufgaben (mehrstündige Sitzungen)
Terminal-lastige Workflows mit komplexen Toolchains
Bestehende Nutzung des OpenAI/ChatGPT-Ökosystems
Automatisierung des gesamten Software-Lebenszyklus

Wählen Sie Claude Code für:

Computer-Nutzung / Browser-Automatisierung (72,5 % vs. 64,7 %)
Office-Aufgaben neben dem Programmieren
Wenn Agenten-Sicherheit kritisch ist (bessere Resistenz gegen Prompt-Injections)
Vorhersehbare API-Kosten (bekannte Preise von $3/$15)

Verfügbarkeit

GPT-5.3 Codex ist für kostenpflichtige ChatGPT-Abos (Plus, Pro, Team, Enterprise) verfügbar über:

Codex-App (Web) — vollständiges Interface für autonome Agenten
Codex CLI — terminalbasierter Coding-Agent
IDE-Erweiterung — in Ihren Editor integriert
API — erscheint in wenigen Wochen (Preise noch offen)

Aktuell gibt es keinen Zugang über die kostenlose Version.

Was das für Entwickler bedeutet

Das Rennen um KI-Coding-Agenten ist in vollem Gange

Am 5. Februar 2026 veröffentlichten sowohl OpenAI als auch Anthropic am selben Tag bedeutende Modelle — GPT-5.3 Codex und Claude Opus 4.6. Die Botschaft ist klar: Autonome Coding-Agenten sind das primäre Wettbewerbsfeld.

Unterschiedliche Stärken, unterschiedliche Workflows

GPT-5.3 Codex glänzt bei autonomen, terminalbasierten Coding-Aufgaben über lange Sitzungen. Claude überzeugt bei der Computer-Nutzung, Office-Integration und Sicherheit. Gemini 3.1 Pro führt beim logischen Schlussfolgern und im multimodalen Bereich.

Für die meisten Entwickler hängt die Wahl vom Workflow ab:

Viel CLI/Terminal-Arbeit → GPT-5.3 Codex

Browser-Automatisierung + gemischte Aufgaben → Claude Code

Wissenschaftliche/logikintensive Arbeit → Gemini 3.1 Pro

Das Modell ist erst der Anfang

Der Trend bei allen drei Laboren zeigt: Das Modell allein reicht nicht aus. Man benötigt Tools für Deployment, Monitoring, Analytics und Wachstum drumherum. Der KI-Coding-Agent schreibt den Code, aber um ein Produkt auf den Markt zu bringen, ist der gesamte Stack erforderlich.

Bringen Sie Ihre Projekte live. Y Build übernimmt alles nach dem Code: One-Click-Deploy, Demo Cut für Produktvideos, KI-SEO und Analytics. Funktioniert mit jedem KI-Coding-Tool. Kostenlos starten.

Quellen: