- Das neueste Frontier-Modell für ChatGPT, API und Codex, das die Leistung bei Reasoning, Coding und Agent-Workflows vereint
- Mit integrierter nativer computer-use-Funktion können Agenten Websites und Software direkt bedienen und komplexe Workflows ausführen
- Unterstützt ein 1M-Token-Context-Window und senkt dank Tool Search und effizienter Tokennutzung Geschwindigkeit und Kosten
- Im Thinking-Modus von ChatGPT kann der Gedankengang während der Antwort angepasst werden; außerdem wurden tiefe Web-Recherche und Kontexttreue verbessert
- Übernimmt die Coding-Leistung von GPT-5.3-Codex und verbessert Genauigkeit und Effizienz bei Tabellenkalkulationen, Präsentationen und Dokumentenarbeit deutlich
Überblick über GPT‑5.4
- GPT‑5.4 ist das leistungsstärkste und effizienteste Modell, das gleichzeitig in ChatGPT (Thinking-Modus), API und Codex ausgerollt wurde
- Die Version GPT‑5.4 Pro liefert maximale Leistung bei komplexen Aufgaben
- Integriert die Coding-Fähigkeiten von GPT‑5.3‑Codex und erhöht Genauigkeit sowie Effizienz in professionellen Arbeitsumgebungen wie Tabellenkalkulationen, Präsentationen und Dokumentenarbeit
- Die Interoperabilität zwischen Tools und Software-Umgebungen wurde verbessert, wodurch sich bei realen Aufgaben die Zahl der Rückfragen verringert
Verbesserungen am Thinking-Modus von ChatGPT
- GPT-5.4 Thinking zeigt zu Beginn einer Aufgabe eine Vorabplanung (preamble) des Gedankengangs an, sodass Nutzer die Richtung während der Antworterstellung anpassen können
- Entwickelt, damit die Endausgabe auch ohne zusätzliche Turns genauer der Nutzerabsicht entspricht
- Verbesserte Leistung bei Deep Web Research, besonders wirksam bei sehr spezifischen Suchanfragen
- Bei Fragen, die längeres Nachdenken erfordern, wurde die Fähigkeit zur Beibehaltung des vorherigen Kontexts verbessert, was schnellere Antworten mit höherer Qualität ermöglicht
- Sofort verfügbar auf chatgpt.com und in der Android-App; Unterstützung für die iOS-App folgt später
Computer-Nutzung und Vision-Funktionen
- GPT-5.4 ist das erste allgemeine Modell mit nativer computer-use-Funktion
- Unterstützt sowohl codebasierte Computersteuerung über Bibliotheken wie Playwright als auch screenshotbasierte Maus- und Tastaturbefehle
- Verhalten kann über Developer-Messages gesteuert werden; mit einer benutzerdefinierten Bestätigungsrichtlinie (confirmation policy) lässt sich das individuelle Risikoniveau festlegen
- Erreicht auf OSWorld-Verified 75,0 %, übertrifft damit die menschliche Leistung von 72,4 % und verbessert sich deutlich gegenüber 47,3 % bei GPT-5.2
- Erreicht auf WebArena-Verified 67,3 % mit DOM- plus screenshotbasierter Interaktion (GPT-5.2: 65,4 %)
- Erreicht auf Online-Mind2Web 92,8 % allein mit screenshotbasierter Beobachtung (ChatGPT Atlas Agent Mode: 70,9 %)
Verbesserungen bei visueller Erkennung und Dokument-Parsing
- Die verbesserte allgemeine visuelle Erkennungsfähigkeit bildet die Grundlage der computer-use-Funktion
- Auf MMMU-Pro ohne Tools 81,2 % (GPT-5.2: 79,5 %), mit Tools 82,1 % (GPT-5.2: 80,4 %)
- Auf OmniDocBench ohne Reasoning ein durchschnittlicher Fehlerwert (normalisierte Edit-Distanz) von 0,109 (GPT-5.2: 0,140)
- Einführung der neuen Bild-Eingabe-Detailstufe
original: vollständige Erkennung in voller Qualität bis zu 10,24 M Pixel oder 6000 px maximaler Kantenlänge
- Die Stufe
high wurde auf bis zu 2,56 M Pixel oder 2048 px maximale Kantenlänge erweitert
- Erste Tests mit API-Nutzern zeigten starke Verbesserungen bei Lokalisierung, Bildverständnis und Klickgenauigkeit
Coding-Leistung
- Kombiniert die Coding-Stärken von GPT-5.3-Codex mit professionellen Arbeitsfunktionen und computer-use-Fähigkeiten
- Erreicht auf SWE-Bench Pro 57,7 % (GPT-5.3-Codex: 56,8 %, GPT-5.2: 55,6 %)
- Bietet auf allen Reasoning-Stufen geringere Latenz als GPT-5.3-Codex
- Bei aktiviertem /fast-Modus in Codex bis zu 1,5-fach höhere Token-Geschwindigkeit bei gleichem Modell und gleichem Intelligenzniveau
- In der API ist dieselbe hohe Geschwindigkeit über Priority Processing verfügbar
- Erzeugt bei komplexen Frontend-Aufgaben sichtbar ästhetischere und funktionalere Ergebnisse als frühere Modelle
- Veröffentlichung der experimentellen Codex-Fähigkeit "Playwright (Interactive)": unterstützt visuelles Debugging für Web- und Electron-Apps und ermöglicht Live-Tests während des Builds
Tool-Search-Funktion
- Bisher wurden alle Tool-Definitionen vorab in den Prompt aufgenommen und verbrauchten Tausende bis Zehntausende Tokens; mit Tool Search wird nur eine schlanke Tool-Liste bereitgestellt und Definitionen bei Bedarf dynamisch nachgeladen
- Reduziert den Token-Verbrauch in tool-intensiven Workflows dramatisch und verbessert durch Cache-Erhalt sowohl Geschwindigkeit als auch Kosten
- Besonders effizient bei MCP-Server-Tooldefinitionen im Umfang von Zehntausenden Tokens
- Im MCP Atlas-Benchmark von Scale mit 250 Aufgaben sank bei Umstellung aller 36 MCP-Server auf Tool Search der gesamte Token-Verbrauch um 47 %, bei unveränderter Genauigkeit
Tool-Aufrufe und Agent-Leistung
- GPT-5.4 verbessert Genauigkeit und Effizienz bei Zeitpunkt und Art der Tool-Nutzung während des Reasonings
- Erreicht auf Toolathlon 54,6 % (GPT-5.2: 45,7 %) mit höherer Genauigkeit bei weniger Turns
- Bewertet werden mehrstufige reale Tool-Aufgaben wie E-Mails lesen, Anhänge zu Aufgaben extrahieren, hochladen, bewerten und Ergebnisse in Tabellen eintragen
- Auch in latenzarmen Szenarien ohne Reasoning erreicht es auf τ2-bench Telecom 64,3 % (GPT-5.2: 57,2 %, GPT-4.1: 43,6 %)
- Auf BrowseComp 82,7 %, GPT-5.4 Pro erreicht 89,3 % und setzt damit einen neuen Bestwert (GPT-5.2: 65,8 %)
- Verbesserte Fähigkeit, bei schwieriger Informationssuche vom Typ „Nadel im Heuhaufen“ über mehrere Runden hinweg beharrlich weiterzusuchen
Leistung bei professioneller Arbeit und Wissensarbeit
- Auf GDPval Bewertung realer Arbeitsergebnisse aus den neun größten US-BIP-Branchen und 44 Berufen, darunter Vertriebspräsentationen, Buchhaltungs-Tabellen, Notfallpläne, Fertigungsdiagramme und kurze Videos
- GPT-5.4: 83,0 % auf Expertenniveau oder darüber (GPT-5.2: 70,9 %)
- Im internen Benchmark für Investmentbanking-Spreadsheet-Modellierung durchschnittlich 87,3 % (GPT-5.2: 68,4 %)
- Bei Präsentationsbewertungen bevorzugten menschliche Bewerter die Ergebnisse von GPT-5.4 zu 68,0 % (stärker bei ästhetischer Ausarbeitung, visueller Vielfalt und Nutzung der Bildgenerierung)
- Weniger Halluzinationen und Fehler: Bei Prompts, zu denen Nutzer sachliche Fehler gemeldet hatten, sank die Wahrscheinlichkeit falscher Einzelbehauptungen um 33 % und die Wahrscheinlichkeit, dass eine Gesamtantwort Fehler enthält, um 18 % gegenüber GPT-5.2
1M-Context-Window und Leistung bei langen Kontexten
- Unterstützt bis zu 1M Tokens Kontext, sodass Agenten umfangreiche Aufgaben planen, ausführen und verifizieren können
- In Codex experimentelle Unterstützung für ein 1M-Context-Window, konfigurierbar über
model_context_window und model_auto_compact_token_limit
- Anfragen oberhalb des Standard-Context-Windows von 272K werden zum doppelten Preis abgerechnet
- Graphwalks BFS 0K–128K: 93,0 %, 256K–1M: 21,4 %
- OpenAI MRCR v2 8-needle: 97,3 % bei 4K–8K, 79,3 % bei 128K–256K, 36,6 % bei 512K–1M
Abstraktes Reasoning und akademische Benchmarks
- ARC-AGI-1 (Verified): 93,7 % (GPT-5.2: 86,2 %), ARC-AGI-2 (Verified): 73,3 % (GPT-5.2: 52,9 %)
- GPT-5.4 Pro erreicht auf ARC-AGI-2 83,3 %
- Frontier Science Research: 33,0 % (GPT-5.2: 25,2 %), FrontierMath Tier 1–3: 47,6 % (GPT-5.2: 40,7 %)
- FrontierMath Tier 4: 27,1 % (GPT-5.2: 18,8 %), GPT-5.4 Pro 38,0 %
- GPQA Diamond: 92,8 % (GPT-5.2: 92,4 %)
- Humanity's Last Exam: ohne Tools 39,8 %, mit Tools 52,1 % (GPT-5.2: jeweils 34,5 % und 45,5 %)
- GPT-5.4 Pro erreicht mit Tools 58,7 %
Sicherheit und Security
- Die in GPT-5.3-Codex eingeführten Schutzmaßnahmen wurden kontinuierlich verbessert; im Preparedness Framework wird das Modell als High cyber capability eingestuft
- Erweiterter Cyber-Safety-Stack: Monitoring-Systeme, vertrauensbasierte Zugriffskontrolle und asynchrone Sperrung auf Zero Data Retention (ZDR)-Oberflächen
- Proaktiver Bereitstellungsansatz unter Berücksichtigung der Dual-Use-Eigenschaften von Cyber-Fähigkeiten; die Genauigkeit der Klassifikatoren wird weiter verbessert, wobei einige False Positives möglich sind
- Ziel ist es, unnötige Ablehnungen und übermäßige Andeutungsantworten zu verringern und gleichzeitig den Schutz vor Missbrauch aufrechtzuerhalten
- Fortlaufende Forschung zum Chain-of-Thought(CoT)-Monitoring; neues Open-Source-Evaluierungstool CoT controllability veröffentlicht
- Die CoT-Steuerbarkeit von GPT-5.4 Thinking ist gering, was aus Sicherheitssicht positiv ist, da das Modell sein Reasoning schwerer verbergen kann
Preise und Verfügbarkeit
- API-Modellname:
gpt-5.4, Pro-Version: gpt-5.4-pro
- API-Preise (pro M Tokens):
- gpt-5.4: Input $2.50, Cache-Input $0.25, Output $15
- gpt-5.4-pro: Input $30, Output $180
- gpt-5.2: Input $1.75, Cache-Input $0.175, Output $14
- Der Preis pro Token ist höher als bei GPT-5.2, aber durch die verbesserte Token-Effizienz sinkt der gesamte Token-Verbrauch pro Aufgabe
- Batch- und Flex-Preise liegen bei der Hälfte des Standardpreises, Priority Processing beim Doppelten
- In ChatGPT ist GPT-5.4 Thinking sofort für Plus-, Team- und Pro-Nutzer verfügbar und ersetzt GPT-5.2 Thinking
- GPT-5.2 Thinking bleibt für zahlende Nutzer im Bereich Legacy Models noch drei Monate erhalten und wird am 5. Juni 2026 eingestellt
- Bei Enterprise- und Edu-Plänen kann der Frühzugang in den Admin-Einstellungen aktiviert werden
- GPT-5.4 Pro ist für Pro- und Enterprise-Pläne verfügbar
- GPT-5.4 ist das erste Mainline-Reasoning-Modell, das die Frontier-Coding-Fähigkeiten von GPT-5.3-Codex integriert; Instant- und Thinking-Modelle sollen sich künftig mit unterschiedlicher Geschwindigkeit weiterentwickeln
2 Kommentare
> Bei Aktivierung des /fast-Modus in Codex bis zu 1,5-fach schnellere Token-Geschwindigkeit bei gleichem Modell und unverändertem Intelligenzniveau. In der API entspricht dies Priority Processing.
> Priority Processing kostet das Doppelte des Standardpreises
> Anfragen, die das standardmäßige Kontextfenster von 272K überschreiten, werden zum doppelten Preis abgerechnet
Hacker-News-Kommentare
Die „Ask ChatGPT“-Box am Ende des Blogposts war schon lustig.
Wenn man eingibt, dass der Inhalt des Artikels zusammengefasst werden soll, öffnet sich ein neues Fenster, aber zurück kommt nur die Antwort: „Ich kann nicht auf externe URLs zugreifen.“
Ich frage mich, ob OpenAI weiß, dass diese Funktion in der Praxis gar nicht funktioniert.
Im eingeloggten Zustand lief es normal, und ich habe dem Team einen Bug-Report geschickt.
Siehe den geteilten Beispiellink.
Ich war ebenfalls eingeloggt.
Vermutlich hängt der Zugriff auf externe URLs davon ab, ob man eingeloggt ist.
Anthropic scheint auf solche UX-Details mehr zu achten.
Ich habe das Gefühl, dass OpenAIs Modellportfolio viel zu kompliziert geworden ist.
GPT‑5.1, 5.2, 5.4, dazu Codex 5.3 und Instant 5.3 – alles durcheinander.
Anthropic trennt dagegen klar nur drei Modelle, und bei Google gibt es immer noch nur Preview-Modelle.
Als Entwickler ist es frustrierend, stabile Versionen zu verwenden.
Man ist immer wieder in der Situation, nur eines von beiden wählen zu können.
Als Engineer versteht man doch problemlos, dass 5.4 > 5.2 > 5.1 ist.
3.x ist aber weiterhin Preview, was die Sache noch verwirrender macht.
Die Versionen von Opus, Sonnet und Haiku laufen auseinander, und auch die Preisstruktur ist kompliziert.
Letztlich kämpfen alle Unternehmen mit ähnlichen Problemen.
Wir leben in einer Zeit, in der man durch bloßes Austauschen der API leicht wechseln kann.
Der Kern von GPT‑5.4 ist das 1M-Token-Kontextfenster.
Laut der offiziellen Preisliste gibt es auch oberhalb von 200k keine Zusatzkosten.
Es ist deutlich günstiger als Opus 4.6, aber ob 1M Kontext in der Praxis wirklich einen spürbaren Nutzen bringt, ist fraglich.
Laut der aktualisierten Dokumentation ersetzt es GPT‑5.3‑Codex.
werden ab 272K Tokens doppelte Eingabekosten und 1,5-fache Ausgabekosten berechnet.
Je mehr Tokens, desto höher die Kosten und desto größer die Latenz.
In internen OpenAI-Tests war ein kurzer Kontext in den meisten Fällen effizienter.
(Mitarbeiterkommentar)
deshalb sollte man nach Kosten pro Aufgabe vergleichen.
In der Praxis liegen die Kosten von GPT‑5.x und Opus auf ähnlichem Niveau.
Wichtiger als Benchmarks sind reale Arbeitsergebnisse.
aber tatsächlich ist die Entwicklerdokumentation genauer.
Der Basistarif gilt nur bis 272k.
aber Anthropic plant, es mit RL für lange Aufgaben abzumildern.
Ich habe GPT‑5.4 ein paarmal benutzt, und die Klarheit des Schreibens und die Analysefähigkeit waren beeindruckend.
Es schreibt viel natürlicher und menschlicher als 5.3‑Codex.
Vielleicht liegt das auch daran, dass meine AGENTS.md einfache Sprache verlangt.
Es wirkt, als würde sich dieses Muster ständig wiederholen.
Claude wirkt im Vergleich etwas lockerer.
OpenAI hat acht Monate lang die Verwirrung um Versionsnummern vermieden, und jetzt ist es doch wieder kompliziert geworden.
Namen wie GPT‑5.3 Instant und GPT‑5.4 Thinking sind durcheinandergeraten.
Man sollte sie passend zum Einsatzzweck verwenden.
Die RPG-Spiel-Demo im Blog war beeindruckend.
Sie war auf einem ähnlichen Niveau wie „Battle Brothers“ und ein gutes Beispiel für autonomes Engineering.
Bei diesem Tempo könnte der Markt für Low-Code-Tools unter Druck geraten.
Dadurch kann Codex Web-Apps visuell debuggen und testen.
Wahrscheinlich wird dieses Modell auch im Militär- und Sicherheitsbereich eingesetzt werden.
GPT‑5.4 hat demonstriert, wie es Browser-Screenshots interpretiert, in der Gmail-Oberfläche klickt und E-Mails verschickt.
Ich denke aber, dass es effizienter wäre, dafür die Gmail API zu verwenden.
Screenshots liefern Dokumentation, API und Navigationsmöglichkeit in einem.
Wenn es funktioniert, ist es universeller, aber ein API-basierter Ansatz bleibt trotzdem sinnvoll.
Dieser Ansatz kann solche Einschränkungen umgehen.
ein Modell, das nur mit APIs umgehen kann, nicht.
Für die wirtschaftliche Verbreitung ist Ersteres wertvoller.
Am Ende zählt die Bequemlichkeit.
Für mein tägliches Coding reichen die Top 3 Coding-Agenten aus.
Laut SWE‑bench Verified erreicht GPT‑5.2 Codex 72,8 Punkte, GPT‑5.4 liegt etwa 2 Punkte höher.
Es ist kein großer Sprung, aber eine Verbesserung.
Bei SWE‑bench liegt Claude 4.6 Opus mit 75,6 Punkten weiterhin vorne.
Allerdings haben sich die Agentenfunktionen von Codex CLI stark verbessert und nähern sich dem Niveau von Claude Code an.
Es ist verwirrend, dass OpenAI erst Modelle vereinheitlicht und dann wieder stärker ausdifferenzierte Versionen herausbringt.
GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro – das sind einfach zu viele.
Trotzdem ist die Unterstützung für das 1M-Kontextfenster erfreulich.
Man kann je nach Bedarf wählen, und normale Nutzer können weiterhin den Auto-Modus verwenden.