GPT-5.4 Leitfaden: Das autonome Agenten-Modell von OpenAI (2026)
GPT-5.4 erzielt 75 % bei OSWorld und schlägt Menschen bei der Computernutzung. 1 Mio. Kontext, 2,50 $/MTok, 5 Modellvarianten. Vollständige Benchmarks, Preise und Vergleichsleitfaden.
TL;DR
OpenAI hat GPT-5.4 am 5. März 2026 veröffentlicht – das erste Allzweckmodell, das Menschen bei der autonomen Computernutzung übertrifft. Wichtige Statistiken:
| Feature | Detail |
|---|---|
| OSWorld-Verified | 75,0 % — übertrifft die menschliche Baseline (72,4 %) |
| SWE-bench Pro | 57,7 % — starkes Coding, liegt aber hinter Claude Opus 4.6 (80,8 %) zurück |
| Kontextfenster | Bis zu 1,05 Mio. Token (272K Standard, 1 Mio. erweitert) |
| Computer Use | Nativ, State-of-the-Art — erstmals in ein allgemeines Modell integriert |
| Token-Effizienz | Deutlich weniger Token als GPT-5.2 für gleichwertige Aufgaben |
| API-Preis | 2,50 $ Input / 15,00 $ Output pro 1 Mio. Token |
| Varianten | Standard, Thinking, Pro, Mini, Nano |
| Interaktives Denken | Vorab-Plan + Steuerung während der Antwort |
Was ist GPT-5.4?
GPT-5.4 ist das Flaggschiff unter den großen Sprachmodellen von OpenAI, veröffentlicht am 5. März 2026. Es kombiniert die besten Coding-Stärken von GPT-5.3 Codex mit bahnbrechenden Fähigkeiten zur autonomen Computernutzung (Computer Use), einem Kontextfenster von 1 Million Token und einem neuen System für interaktives Denken.
Die Schlagzeile: GPT-5.4 ist das erste Allzweck-KI-Modell, das die menschliche Leistung bei Desktop-Aufgaben übertrifft. Es erreicht 75,0 % bei OSWorld-Verified – einem Benchmark, bei dem menschliche Experten 72,4 % erzielen. Kein anderes Modell hatte diese Schwelle zuvor eindeutig überschritten.
Dies entspricht einer Verbesserung um 28 Punkte gegenüber GPT-5.2 (47,3 %) in weniger als vier Monaten. Das Modell kann Bildschirmkoordinaten aus Screenshots auslesen und Maus- sowie Tastaturbefehle direkt ausgeben, was es ihm ermöglicht, autonom in Dateien, Browsern, Terminals und Produktivitätssoftware zu navigieren.
Hauptmerkmale
Native Computernutzung (Computer Use)
Im Gegensatz zu früheren Modellen, die externe Tools zur Computersteuerung benötigten, sind die Fähigkeiten zur Computernutzung in GPT-5.4 fest integriert. In der Codex-App und über die API kann das Modell:
- In Desktop-Umgebungen über Screenshots und Tastatur-/Mausaktionen navigieren
- Übergreifend über mehrere Anwendungen nacheinander agieren
- Mehrstufige Workflows abschließen (Dateiverwaltung, Browser-Aufgaben, Terminal-Operationen)
- Produktivitätssoftware wie Tabellenkalkulationen, Präsentationen und Dokumente bedienen
1 Million Token Kontextfenster
GPT-5.4 unterstützt bis zu 1,05 Mio. Token Kontext. Das Standardfenster beträgt 272K Token; Anfragen, die diesen Schwellenwert überschreiten, werden zum doppelten normalen Input-Tarif verarbeitet. Dieser massive Kontext ist entscheidend für agentenbasierte Workflows, bei denen das Modell lange Tool-Nutzungshistorien, große Codebasen oder umfangreiche Dokumentsätze im Speicher behalten muss.
Interaktives Denken (Interactive Thinking)
GPT-5.4 Thinking führt ein neues Paradigma ein: Das Modell liefert einen Vorab-Plan seiner Argumentation, und Sie können es während der Antwort steuern. Fügen Sie Anweisungen hinzu, korrigieren Sie den Kurs oder verfeinern Sie die Richtung, ohne von vorn beginnen zu müssen. Dies ist eine erhebliche Verbesserung der Benutzerfreundlichkeit für komplexe, mehrstufige Aufgaben.
Verbesserte Token-Effizienz
OpenAI berichtet, dass GPT-5.4 im Vergleich zu GPT-5.2 deutlich weniger Token zur Problemlösung benötigt, bei einer gleichzeitigen Reduzierung von Faktenfehlern um 33 %. Für den produktiven Einsatz bedeutet dies geringere Kosten pro Aufgabe, noch bevor die wettbewerbsfähigen Preise berücksichtigt werden.
Benchmarks
Wo GPT-5.4 führt
| Benchmark | Was getestet wird | GPT-5.4 | Bester Wettbewerber |
|---|---|---|---|
| OSWorld-Verified | Desktop-Computernutzung | 75,0 % | Claude Opus 4.6: 72,7 % |
| Toolathlon | Mehrstufige Tool-/API-Nutzung | Höchstpunktzahl | — |
| GDPval | Wissensarbeit | 83 % | — |
Vollständiger Modellvergleich
| Benchmark | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| OSWorld-Verified | 75,0 % | 72,7 % | N/V |
| SWE-bench Verified | ~80 % | 80,8 % | 80,6 % |
| SWE-bench Pro | 57,7 % | ~45 % | 54,2 % |
| ARC-AGI-2 | 52,9 % | 68,8 % | 77,1 % |
| GDPval | 83 % | — | — |
Was die Zahlen bedeuten
GPT-5.4 ist das erste Modell, das Computernutzung, Coding und Wissensarbeit gleichzeitig auf Frontier-Level glaubwürdig bewältigt. Der OSWorld-Score von 75 % ist der deutlichste Meilenstein – er bedeutet, dass das Modell drei von vier realen Desktop-Aufgaben abschließen kann, die selbst für menschliche Experten eine Herausforderung darstellen.
Das Bild ist jedoch nuanciert. Bei SWE-bench Verified (reales Coding) übertreffen sowohl Claude Opus 4.6 als auch Gemini 3.1 Pro GPT-5.4 mit 80,8 % bzw. 80,6 % deutlich. Bei der abstrakten Argumentation (ARC-AGI-2) liegt GPT-5.4 16 Prozentpunkte hinter Claude Opus 4.6 und über 24 Punkte hinter Gemini 3.1 Pro.
Fazit: GPT-5.4 gewinnt bei der autonomen Computersteuerung und der praktischen Tool-Nutzung, ist aber nicht für jede Aufgabe das beste Modell.
Modellvarianten und Preise
GPT-5.4 wird in fünf Varianten ausgeliefert, die jeweils auf unterschiedliche Anwendungsfälle und Budgets abzielen:
| Variante | Input (pro 1 Mio. Token) | Output (pro 1 Mio. Token) | Bestens geeignet für |
|---|---|---|---|
| GPT-5.4 Standard | 2,50 $ | 15,00 $ | Allzweck, Computernutzung, agentenbasierte Workflows |
| GPT-5.4 Thinking | 2,50 $ | 15,00 $ | Komplexe Argumentation mit interaktiver Plansteuerung |
| GPT-5.4 Pro | 30,00 $ | 180,00 $ | Recht, Medizin, Finanzen – maximale Genauigkeit |
| GPT-5.4 Mini | 0,75 $ | 4,50 $ | Hohes Volumen, latenzsensitive Workloads |
| GPT-5.4 Nano | TBD | TBD | Edge- und Embedded-Anwendungsfälle |
- Prompts, die 272K Token überschreiten, werden mit dem Doppelten des Standard-Input-Tarifs berechnet (5,00 $/MTok für Standard).
- Regionale Endpunkte zur Datenresidenz erheben einen Aufschlag von 10 % über alle Varianten hinweg.
- GPT-5.4 Mini ist für Nutzer der kostenlosen ChatGPT-Version verfügbar; Nano ist API-only.
Kostenvergleich: GPT-5.4 vs. Claude Opus 4.6
Für ein typisches tägliches Arbeitspensum:
| GPT-5.4 | Claude Opus 4.6 | |
|---|---|---|
| Durchschn. tägliche Kosten | ~5,50 $ | ~10,00 $ |
| Durchschn. monatliche Kosten | ~165 $ | ~300 $ |
| Kostenverhältnis | 1x | ~1,8x |
GPT-5.4 ist bei gleichwertigem Token-Durchsatz etwa 50 % günstiger als Claude Opus 4.6. Die Mini-Variante treibt dies noch weiter – sie erzielt 54,38 % beim SWE-bench Pro bei etwa sechsmal niedrigeren Kosten.
GPT-5.4 vs. Claude Opus 4.6: Wann sollte man welches verwenden?
Dies ist die Frage, die sich die meisten Teams im April 2026 stellen. Die Antwort hängt von Ihrem Workload ab.
Wählen Sie GPT-5.4, wenn Sie Folgendes benötigen:
- Desktop-Automatisierung und Computernutzung — 75,0 % bei OSWorld gegenüber 72,7 % bei Opus 4.6
- Tool-Aufrufe und API-Orchestrierung — bessere Genauigkeit in weniger Schritten bei Toolathlon
- Kosteneffizienz — etwa die Hälfte der Kosten pro Token im Vergleich zu Opus 4.6
- Token-effiziente Argumentation — weniger Token pro Problem bedeuten niedrigere Rechnungen
- Rapid Prototyping — schnelle Iteration mit geringerem Overhead
Wählen Sie Claude Opus 4.6, wenn Sie Folgendes benötigen:
- Komplexes Code-Refactoring über mehrere Dateien — führt bei SWE-bench Verified mit 80,8 %
- Kohärenz bei langem Kontext — besser darin, die Qualität über sehr lange Kontexte hinweg zu halten
- Abstrakte und neuartige Argumentation — 16 Punkte Vorsprung bei ARC-AGI-2
- Agentenbasierte Suche und tiefe Code-Architektur — glänzt bei Aufgaben, die tiefes Verständnis erfordern
- Schreibqualität und Nuancen — Platz 1 bei der Nutzerzufriedenheit in der Chatbot Arena
Head-to-Head-Zusammenfassung
| Dimension | Gewinner | Vorsprung |
|---|---|---|
| Computernutzung (OSWorld) | GPT-5.4 | 75,0 % vs. 72,7 % |
| Coding (SWE-bench Verified) | Claude Opus 4.6 | 80,8 % vs. ~80 % |
| Abstrakte Argumentation (ARC-AGI-2) | Claude Opus 4.6 | 68,8 % vs. 52,9 % |
| Tool-Aufrufe (Toolathlon) | GPT-5.4 | Weniger Schritte, bessere Genauigkeit |
| Wissensarbeit (GDPval) | GPT-5.4 | 83 % |
| Preisgestaltung | GPT-5.4 | ~50 % günstiger |
| Nutzerzufriedenheit | Claude Opus 4.6 | Platz 1 Chatbot Arena |
So greifen Sie auf GPT-5.4 zu
GPT-5.4 ist verfügbar über:
- ChatGPT — GPT-5.4 Thinking ist das Standardmodell für Plus-, Pro- und Team-Nutzer. Mini ist für Free-Tier-Nutzer verfügbar.
- OpenAI API — Alle fünf Varianten sind über die Standard-Endpoints für Completions und Chat zugänglich.
- Codex App — Volle Fähigkeiten zur Computernutzung mit dem Desktop-Agenten.
- OpenRouter — Drittanbieter-Zugang zu wettbewerbsfähigen Tarifen.
computer_use aktivieren und Screenshots als Bildeingaben bereitstellen. Das Modell gibt strukturierte Aktionen (click, type, scroll) zurück, die Ihre Anwendung in Systemereignisse übersetzt.
FAQ
Ist GPT-5.4 besser als Claude Opus 4.6?
Das hängt von der Aufgabe ab. GPT-5.4 gewinnt bei der Computernutzung, beim Tool-Calling und bei der Kosteneffizienz. Claude Opus 4.6 gewinnt bei komplexem Coding, abstrakter Argumentation und Schreibqualität. Für die meisten Teams hängt die Wahl davon ab, ob der primäre Workload Desktop-Automatisierung (GPT-5.4) oder tiefgehendes Software-Engineering (Opus 4.6) ist.
Wie viel kostet GPT-5.4?
Das Standardmodell kostet 2,50 $ pro Million Input-Token und 15,00 $ pro Million Output-Token. Die Pro-Variante liegt bei 30 $/180 $ pro MTok. Mini kostet 0,75 $/4,50 $ pro MTok. Prompts, die 272K Token überschreiten, werden mit dem doppelten Input-Tarif berechnet.
Kann GPT-5.4 einen Computer wirklich besser bedienen als Menschen?
Im OSWorld-Verified-Benchmark ja — 75,0 % gegenüber der menschlichen Experten-Baseline von 72,4 %. Benchmarks messen jedoch spezifische Aufgabenkategorien. Die reale Computernutzung erfordert Urteilsvermögen, Kontext und Anpassungsfähigkeit, die Benchmarks nicht vollständig erfassen. Man sollte es eher als "superhuman" bei strukturierten Desktop-Aufgaben betrachten, nicht als vollständigen Ersatz für die menschliche Computernutzung.
Wie groß ist das Kontextfenster von GPT-5.4?
Bis zu 1,05 Millionen Token. Die Standard-Stufe liegt bei 272K Token. Eine Erweiterung über 272K hinaus verdoppelt die Input-Token-Kosten. Der volle 1M-Kontext ist entscheidend für agentenbasierte Workflows, die lange Interaktionshistorien ansammeln.
Sollte ich von GPT-5.3 Codex upgraden?
Wenn Ihr Workload Computernutzung oder die Orchestrierung mehrerer Tools umfasst: Ja. Der Sprung von 64,7 % auf 75,0 % bei OSWorld ist substanziell. Für reine Coding-Aufgaben ist die Verbesserung gegenüber GPT-5.3 Codex eher inkrementell — SWE-bench Pro stieg von 56,8 % auf 57,7 %. Entscheiden Sie basierend auf Ihrem spezifischen Anwendungsfall.
Welche Modellvarianten sind verfügbar?
Fünf: Standard, Thinking, Pro, Mini und Nano. Standard und Thinking haben die gleiche Preisgestaltung und sind die Hauptmodelle für die meisten Anwendungsfälle. Pro ist die Premium-Stufe für maximale Genauigkeit. Mini zielt auf kostensensible Produktionsumgebungen ab. Nano ist für Edge- und Embedded-Anwendungen konzipiert.
Fazit
GPT-5.4 markiert einen echten Wendepunkt für autonome KI-Agenten. Es ist das erste Allzweckmodell, das menschliche Experten bei der Desktop-Computernutzung schlägt, und das bei Kosten, die 50 % niedriger sind als beim Hauptkonkurrenten. Mit der Auswahl aus fünf Varianten gibt es ein GPT-5.4 für jedes Budget und jede Latenzanforderung.
Dennoch ist es nicht in allem das Beste. Claude Opus 4.6 bleibt die stärkere Wahl für komplexes Software-Engineering und abstrakte Argumentation. Gemini 3.1 Pro führt weiterhin bei mehreren Reasoning-Benchmarks. Die richtige Antwort für die meisten Teams lautet nicht „welches Modell ist das beste“, sondern „welches Modell ist das beste für diese spezifische Aufgabe“.
Wenn Sie KI-gestützte Produkte entwickeln und Modelle wie GPT-5.4 und Claude Opus 4.6 nutzen möchten, ohne sich mit der Infrastruktur aufzuhalten, hilft Ihnen Y Build dabei, schneller zu veröffentlichen. Wir bieten die Werkzeuge und die Plattform, um KI-Anwendungen zu erstellen, bereitzustellen und zu iterieren – damit Sie sich auf das Produkt konzentrieren können, nicht auf den technischen Unterbau.
Quellen: OpenAI GPT-5.4 Announcement, OpenAI API Pricing, NxCode GPT-5.4 Complete Guide, NxCode GPT-5.4 vs Claude Opus 4.6, DataCamp GPT-5.4 Overview, Artificial Analysis GPT-5.4, MindStudio Benchmark Comparison, Nerd Level Tech: GPT-5.4 Beats Humans