11 Punkte von GN⁺ 2026-03-06 | 2 Kommentare | Auf WhatsApp teilen
  • Das neueste Frontier-Modell für ChatGPT, API und Codex, das die Leistung bei Reasoning, Coding und Agent-Workflows vereint
  • Mit integrierter nativer computer-use-Funktion können Agenten Websites und Software direkt bedienen und komplexe Workflows ausführen
  • Unterstützt ein 1M-Token-Context-Window und senkt dank Tool Search und effizienter Tokennutzung Geschwindigkeit und Kosten
  • Im Thinking-Modus von ChatGPT kann der Gedankengang während der Antwort angepasst werden; außerdem wurden tiefe Web-Recherche und Kontexttreue verbessert
  • Übernimmt die Coding-Leistung von GPT-5.3-Codex und verbessert Genauigkeit und Effizienz bei Tabellenkalkulationen, Präsentationen und Dokumentenarbeit deutlich

Überblick über GPT‑5.4

  • GPT‑5.4 ist das leistungsstärkste und effizienteste Modell, das gleichzeitig in ChatGPT (Thinking-Modus), API und Codex ausgerollt wurde
    • Die Version GPT‑5.4 Pro liefert maximale Leistung bei komplexen Aufgaben
  • Integriert die Coding-Fähigkeiten von GPT‑5.3‑Codex und erhöht Genauigkeit sowie Effizienz in professionellen Arbeitsumgebungen wie Tabellenkalkulationen, Präsentationen und Dokumentenarbeit
  • Die Interoperabilität zwischen Tools und Software-Umgebungen wurde verbessert, wodurch sich bei realen Aufgaben die Zahl der Rückfragen verringert

Verbesserungen am Thinking-Modus von ChatGPT

  • GPT-5.4 Thinking zeigt zu Beginn einer Aufgabe eine Vorabplanung (preamble) des Gedankengangs an, sodass Nutzer die Richtung während der Antworterstellung anpassen können
  • Entwickelt, damit die Endausgabe auch ohne zusätzliche Turns genauer der Nutzerabsicht entspricht
  • Verbesserte Leistung bei Deep Web Research, besonders wirksam bei sehr spezifischen Suchanfragen
  • Bei Fragen, die längeres Nachdenken erfordern, wurde die Fähigkeit zur Beibehaltung des vorherigen Kontexts verbessert, was schnellere Antworten mit höherer Qualität ermöglicht
  • Sofort verfügbar auf chatgpt.com und in der Android-App; Unterstützung für die iOS-App folgt später

Computer-Nutzung und Vision-Funktionen

  • GPT-5.4 ist das erste allgemeine Modell mit nativer computer-use-Funktion
  • Unterstützt sowohl codebasierte Computersteuerung über Bibliotheken wie Playwright als auch screenshotbasierte Maus- und Tastaturbefehle
  • Verhalten kann über Developer-Messages gesteuert werden; mit einer benutzerdefinierten Bestätigungsrichtlinie (confirmation policy) lässt sich das individuelle Risikoniveau festlegen
  • Erreicht auf OSWorld-Verified 75,0 %, übertrifft damit die menschliche Leistung von 72,4 % und verbessert sich deutlich gegenüber 47,3 % bei GPT-5.2
  • Erreicht auf WebArena-Verified 67,3 % mit DOM- plus screenshotbasierter Interaktion (GPT-5.2: 65,4 %)
  • Erreicht auf Online-Mind2Web 92,8 % allein mit screenshotbasierter Beobachtung (ChatGPT Atlas Agent Mode: 70,9 %)

Verbesserungen bei visueller Erkennung und Dokument-Parsing

  • Die verbesserte allgemeine visuelle Erkennungsfähigkeit bildet die Grundlage der computer-use-Funktion
  • Auf MMMU-Pro ohne Tools 81,2 % (GPT-5.2: 79,5 %), mit Tools 82,1 % (GPT-5.2: 80,4 %)
  • Auf OmniDocBench ohne Reasoning ein durchschnittlicher Fehlerwert (normalisierte Edit-Distanz) von 0,109 (GPT-5.2: 0,140)
  • Einführung der neuen Bild-Eingabe-Detailstufe original: vollständige Erkennung in voller Qualität bis zu 10,24 M Pixel oder 6000 px maximaler Kantenlänge
    • Die Stufe high wurde auf bis zu 2,56 M Pixel oder 2048 px maximale Kantenlänge erweitert
    • Erste Tests mit API-Nutzern zeigten starke Verbesserungen bei Lokalisierung, Bildverständnis und Klickgenauigkeit

Coding-Leistung

  • Kombiniert die Coding-Stärken von GPT-5.3-Codex mit professionellen Arbeitsfunktionen und computer-use-Fähigkeiten
  • Erreicht auf SWE-Bench Pro 57,7 % (GPT-5.3-Codex: 56,8 %, GPT-5.2: 55,6 %)
  • Bietet auf allen Reasoning-Stufen geringere Latenz als GPT-5.3-Codex
  • Bei aktiviertem /fast-Modus in Codex bis zu 1,5-fach höhere Token-Geschwindigkeit bei gleichem Modell und gleichem Intelligenzniveau
    • In der API ist dieselbe hohe Geschwindigkeit über Priority Processing verfügbar
  • Erzeugt bei komplexen Frontend-Aufgaben sichtbar ästhetischere und funktionalere Ergebnisse als frühere Modelle
  • Veröffentlichung der experimentellen Codex-Fähigkeit "Playwright (Interactive)": unterstützt visuelles Debugging für Web- und Electron-Apps und ermöglicht Live-Tests während des Builds

Tool-Search-Funktion

  • Bisher wurden alle Tool-Definitionen vorab in den Prompt aufgenommen und verbrauchten Tausende bis Zehntausende Tokens; mit Tool Search wird nur eine schlanke Tool-Liste bereitgestellt und Definitionen bei Bedarf dynamisch nachgeladen
  • Reduziert den Token-Verbrauch in tool-intensiven Workflows dramatisch und verbessert durch Cache-Erhalt sowohl Geschwindigkeit als auch Kosten
  • Besonders effizient bei MCP-Server-Tooldefinitionen im Umfang von Zehntausenden Tokens
  • Im MCP Atlas-Benchmark von Scale mit 250 Aufgaben sank bei Umstellung aller 36 MCP-Server auf Tool Search der gesamte Token-Verbrauch um 47 %, bei unveränderter Genauigkeit

Tool-Aufrufe und Agent-Leistung

  • GPT-5.4 verbessert Genauigkeit und Effizienz bei Zeitpunkt und Art der Tool-Nutzung während des Reasonings
  • Erreicht auf Toolathlon 54,6 % (GPT-5.2: 45,7 %) mit höherer Genauigkeit bei weniger Turns
    • Bewertet werden mehrstufige reale Tool-Aufgaben wie E-Mails lesen, Anhänge zu Aufgaben extrahieren, hochladen, bewerten und Ergebnisse in Tabellen eintragen
  • Auch in latenzarmen Szenarien ohne Reasoning erreicht es auf τ2-bench Telecom 64,3 % (GPT-5.2: 57,2 %, GPT-4.1: 43,6 %)
  • Auf BrowseComp 82,7 %, GPT-5.4 Pro erreicht 89,3 % und setzt damit einen neuen Bestwert (GPT-5.2: 65,8 %)
    • Verbesserte Fähigkeit, bei schwieriger Informationssuche vom Typ „Nadel im Heuhaufen“ über mehrere Runden hinweg beharrlich weiterzusuchen

Leistung bei professioneller Arbeit und Wissensarbeit

  • Auf GDPval Bewertung realer Arbeitsergebnisse aus den neun größten US-BIP-Branchen und 44 Berufen, darunter Vertriebspräsentationen, Buchhaltungs-Tabellen, Notfallpläne, Fertigungsdiagramme und kurze Videos
    • GPT-5.4: 83,0 % auf Expertenniveau oder darüber (GPT-5.2: 70,9 %)
  • Im internen Benchmark für Investmentbanking-Spreadsheet-Modellierung durchschnittlich 87,3 % (GPT-5.2: 68,4 %)
  • Bei Präsentationsbewertungen bevorzugten menschliche Bewerter die Ergebnisse von GPT-5.4 zu 68,0 % (stärker bei ästhetischer Ausarbeitung, visueller Vielfalt und Nutzung der Bildgenerierung)
  • Weniger Halluzinationen und Fehler: Bei Prompts, zu denen Nutzer sachliche Fehler gemeldet hatten, sank die Wahrscheinlichkeit falscher Einzelbehauptungen um 33 % und die Wahrscheinlichkeit, dass eine Gesamtantwort Fehler enthält, um 18 % gegenüber GPT-5.2

1M-Context-Window und Leistung bei langen Kontexten

  • Unterstützt bis zu 1M Tokens Kontext, sodass Agenten umfangreiche Aufgaben planen, ausführen und verifizieren können
  • In Codex experimentelle Unterstützung für ein 1M-Context-Window, konfigurierbar über model_context_window und model_auto_compact_token_limit
    • Anfragen oberhalb des Standard-Context-Windows von 272K werden zum doppelten Preis abgerechnet
  • Graphwalks BFS 0K–128K: 93,0 %, 256K–1M: 21,4 %
  • OpenAI MRCR v2 8-needle: 97,3 % bei 4K–8K, 79,3 % bei 128K–256K, 36,6 % bei 512K–1M

Abstraktes Reasoning und akademische Benchmarks

  • ARC-AGI-1 (Verified): 93,7 % (GPT-5.2: 86,2 %), ARC-AGI-2 (Verified): 73,3 % (GPT-5.2: 52,9 %)
  • GPT-5.4 Pro erreicht auf ARC-AGI-2 83,3 %
  • Frontier Science Research: 33,0 % (GPT-5.2: 25,2 %), FrontierMath Tier 1–3: 47,6 % (GPT-5.2: 40,7 %)
  • FrontierMath Tier 4: 27,1 % (GPT-5.2: 18,8 %), GPT-5.4 Pro 38,0 %
  • GPQA Diamond: 92,8 % (GPT-5.2: 92,4 %)
  • Humanity's Last Exam: ohne Tools 39,8 %, mit Tools 52,1 % (GPT-5.2: jeweils 34,5 % und 45,5 %)
    • GPT-5.4 Pro erreicht mit Tools 58,7 %

Sicherheit und Security

  • Die in GPT-5.3-Codex eingeführten Schutzmaßnahmen wurden kontinuierlich verbessert; im Preparedness Framework wird das Modell als High cyber capability eingestuft
  • Erweiterter Cyber-Safety-Stack: Monitoring-Systeme, vertrauensbasierte Zugriffskontrolle und asynchrone Sperrung auf Zero Data Retention (ZDR)-Oberflächen
  • Proaktiver Bereitstellungsansatz unter Berücksichtigung der Dual-Use-Eigenschaften von Cyber-Fähigkeiten; die Genauigkeit der Klassifikatoren wird weiter verbessert, wobei einige False Positives möglich sind
  • Ziel ist es, unnötige Ablehnungen und übermäßige Andeutungsantworten zu verringern und gleichzeitig den Schutz vor Missbrauch aufrechtzuerhalten
  • Fortlaufende Forschung zum Chain-of-Thought(CoT)-Monitoring; neues Open-Source-Evaluierungstool CoT controllability veröffentlicht
    • Die CoT-Steuerbarkeit von GPT-5.4 Thinking ist gering, was aus Sicherheitssicht positiv ist, da das Modell sein Reasoning schwerer verbergen kann

Preise und Verfügbarkeit

  • API-Modellname: gpt-5.4, Pro-Version: gpt-5.4-pro
  • API-Preise (pro M Tokens):
    • gpt-5.4: Input $2.50, Cache-Input $0.25, Output $15
    • gpt-5.4-pro: Input $30, Output $180
    • gpt-5.2: Input $1.75, Cache-Input $0.175, Output $14
  • Der Preis pro Token ist höher als bei GPT-5.2, aber durch die verbesserte Token-Effizienz sinkt der gesamte Token-Verbrauch pro Aufgabe
  • Batch- und Flex-Preise liegen bei der Hälfte des Standardpreises, Priority Processing beim Doppelten
  • In ChatGPT ist GPT-5.4 Thinking sofort für Plus-, Team- und Pro-Nutzer verfügbar und ersetzt GPT-5.2 Thinking
    • GPT-5.2 Thinking bleibt für zahlende Nutzer im Bereich Legacy Models noch drei Monate erhalten und wird am 5. Juni 2026 eingestellt
    • Bei Enterprise- und Edu-Plänen kann der Frühzugang in den Admin-Einstellungen aktiviert werden
    • GPT-5.4 Pro ist für Pro- und Enterprise-Pläne verfügbar
  • GPT-5.4 ist das erste Mainline-Reasoning-Modell, das die Frontier-Coding-Fähigkeiten von GPT-5.3-Codex integriert; Instant- und Thinking-Modelle sollen sich künftig mit unterschiedlicher Geschwindigkeit weiterentwickeln

2 Kommentare

 
helio 2026-03-06

> Bei Aktivierung des /fast-Modus in Codex bis zu 1,5-fach schnellere Token-Geschwindigkeit bei gleichem Modell und unverändertem Intelligenzniveau. In der API entspricht dies Priority Processing.
> Priority Processing kostet das Doppelte des Standardpreises
> Anfragen, die das standardmäßige Kontextfenster von 272K überschreiten, werden zum doppelten Preis abgerechnet

 
GN⁺ 2026-03-06
Hacker-News-Kommentare
  • Die „Ask ChatGPT“-Box am Ende des Blogposts war schon lustig.
    Wenn man eingibt, dass der Inhalt des Artikels zusammengefasst werden soll, öffnet sich ein neues Fenster, aber zurück kommt nur die Antwort: „Ich kann nicht auf externe URLs zugreifen.“
    Ich frage mich, ob OpenAI weiß, dass diese Funktion in der Praxis gar nicht funktioniert.

    • Es scheint nur für nicht eingeloggte Nutzer nicht zu funktionieren.
      Im eingeloggten Zustand lief es normal, und ich habe dem Team einen Bug-Report geschickt.
    • Bei meinem Versuch wurde ganz normal zusammengefasst.
      Siehe den geteilten Beispiellink.
      Ich war ebenfalls eingeloggt.
    • Bei mir hat die Zusammenfassung im eingeloggten Zustand auch problemlos funktioniert.
      Vermutlich hängt der Zugriff auf externe URLs davon ab, ob man eingeloggt ist.
    • Ich habe nach langer Zeit mal wieder Claude benutzt, und die UX hatte sich ziemlich verbessert.
      Anthropic scheint auf solche UX-Details mehr zu achten.
    • Ich frage mich, ob diese Meldung vielleicht wegen eines Urheberrechtsproblems erschien.
  • Ich habe das Gefühl, dass OpenAIs Modellportfolio viel zu kompliziert geworden ist.
    GPT‑5.1, 5.2, 5.4, dazu Codex 5.3 und Instant 5.3 – alles durcheinander.
    Anthropic trennt dagegen klar nur drei Modelle, und bei Google gibt es immer noch nur Preview-Modelle.
    Als Entwickler ist es frustrierend, stabile Versionen zu verwenden.

    • Das erinnert mich an das Meme über Googles alte Tools vs. neue Beta-Tools.
      Man ist immer wieder in der Situation, nur eines von beiden wählen zu können.
    • Sich über die Versionsnummerierung zu beschweren wirkt wie reine Erbsenzählerei.
      Als Engineer versteht man doch problemlos, dass 5.4 > 5.2 > 5.1 ist.
    • Google hat angekündigt, das 2.5-Modell bald einzustellen (deprecate).
      3.x ist aber weiterhin Preview, was die Sache noch verwirrender macht.
    • Auch bei Anthropic ist das Versionssystem chaotisch.
      Die Versionen von Opus, Sonnet und Haiku laufen auseinander, und auch die Preisstruktur ist kompliziert.
      Letztlich kämpfen alle Unternehmen mit ähnlichen Problemen.
    • Jeden Monat erscheinen bessere Modelle, also gibt es keinen Grund, stur beim gleichen Modell zu bleiben.
      Wir leben in einer Zeit, in der man durch bloßes Austauschen der API leicht wechseln kann.
  • Der Kern von GPT‑5.4 ist das 1M-Token-Kontextfenster.
    Laut der offiziellen Preisliste gibt es auch oberhalb von 200k keine Zusatzkosten.
    Es ist deutlich günstiger als Opus 4.6, aber ob 1M Kontext in der Praxis wirklich einen spürbaren Nutzen bringt, ist fraglich.
    Laut der aktualisierten Dokumentation ersetzt es GPT‑5.3‑Codex.

    • Laut der Modelldokumentation
      werden ab 272K Tokens doppelte Eingabekosten und 1,5-fache Ausgabekosten berechnet.
    • Langer Kontext vs. Komprimierung (compaction) ist immer ein Abwägen.
      Je mehr Tokens, desto höher die Kosten und desto größer die Latenz.
      In internen OpenAI-Tests war ein kurzer Kontext in den meisten Fällen effizienter.
      (Mitarbeiterkommentar)
    • Claude braucht für dieselbe Aufgabe weniger Tokens,
      deshalb sollte man nach Kosten pro Aufgabe vergleichen.
      In der Praxis liegen die Kosten von GPT‑5.x und Opus auf ähnlichem Niveau.
      Wichtiger als Benchmarks sind reale Arbeitsergebnisse.
    • Die meisten schauen nur auf die offizielle Preisliste,
      aber tatsächlich ist die Entwicklerdokumentation genauer.
      Der Basistarif gilt nur bis 272k.
    • Das Problem der Context Rot besteht weiterhin,
      aber Anthropic plant, es mit RL für lange Aufgaben abzumildern.
  • Ich habe GPT‑5.4 ein paarmal benutzt, und die Klarheit des Schreibens und die Analysefähigkeit waren beeindruckend.
    Es schreibt viel natürlicher und menschlicher als 5.3‑Codex.
    Vielleicht liegt das auch daran, dass meine AGENTS.md einfache Sprache verlangt.

    • In meiner Codebase hat es allerdings einen wichtigen Bug mit Datenverlust übersehen.
    • Jedes Mal, wenn ein neues Modell erscheint, kommen Beiträge hoch nach dem Motto „Das vorige Modell war primitiv“.
      Es wirkt, als würde sich dieses Muster ständig wiederholen.
    • Ich bin ebenfalls von Opus zu Codex gewechselt, und das Reasoning ist zwar langsamer, aber die Genauigkeit ist höher geworden.
      Claude wirkt im Vergleich etwas lockerer.
    • Ich frage mich, ob man mit derselben AGENTS.md-Datei zum gleichen Ergebnis käme.
    • Laut neuerer Forschung verschlechtert das Einbinden von AGENTS.md die Leistung eher.
  • OpenAI hat acht Monate lang die Verwirrung um Versionsnummern vermieden, und jetzt ist es doch wieder kompliziert geworden.
    Namen wie GPT‑5.3 Instant und GPT‑5.4 Thinking sind durcheinandergeraten.

    • Der Unterschied zwischen GPT‑5.3 Instant und gpt‑5.3‑chat ist verwirrend.
    • Tatsächlich gab es auch 5.3 Codex.
    • Instant-Modelle sind gut für Zusammenfassungen oder Suche, verlieren aber bei komplexen Gesprächen leicht den Kontext.
      Man sollte sie passend zum Einsatzzweck verwenden.
  • Die RPG-Spiel-Demo im Blog war beeindruckend.
    Sie war auf einem ähnlichen Niveau wie „Battle Brothers“ und ein gutes Beispiel für autonomes Engineering.

    • Erstaunlich, dass die AI in einem Durchgang einen RollerCoaster-Tycoon-Klon gebaut hat.
      Bei diesem Tempo könnte der Markt für Low-Code-Tools unter Druck geraten.
    • Aber tatsächlich wirkte es eher wie ein einfaches Demo.
    • Vermutlich liegt das an der Playwright-Integration.
      Dadurch kann Codex Web-Apps visuell debuggen und testen.
  • Wahrscheinlich wird dieses Modell auch im Militär- und Sicherheitsbereich eingesetzt werden.

    • Die Sicherheitsbewertung für Gewaltinhalte soll von 91 % auf 83 % gefallen sein.
    • Ich frage mich, ob auch Ergebnisse für militärische Benchmarks (ArtificialSuperSoldier usw.) veröffentlicht wurden.
    • Ich frage mich, ob es sich wie Claude-Modelle auch im Anthropic-Stil einsetzen ließe.
    • Auch die Werbebranche dürfte scharf auf diese Technik sein.
    • Beim Militär wird offenbar immer noch Version 4.1 verwendet, daher dürfte ein Upgrade Zeit brauchen.
  • GPT‑5.4 hat demonstriert, wie es Browser-Screenshots interpretiert, in der Gmail-Oberfläche klickt und E-Mails verschickt.
    Ich denke aber, dass es effizienter wäre, dafür die Gmail API zu verwenden.

    • Die meisten Websites haben keine API oder nur schlecht dokumentierte APIs.
      Screenshots liefern Dokumentation, API und Navigationsmöglichkeit in einem.
    • Das fühlt sich an, als würde man einen humanoiden Roboter bauen, nur um Werkzeuge zu benutzen, die für menschliche Hände gemacht sind.
      Wenn es funktioniert, ist es universeller, aber ein API-basierter Ansatz bleibt trotzdem sinnvoll.
    • Viele Dienste haben gar kein Interesse daran, eine API offenzulegen.
      Dieser Ansatz kann solche Einschränkungen umgehen.
    • Ein Modell, das Computer-Nutzung beherrscht, kann überall eingesetzt werden,
      ein Modell, das nur mit APIs umgehen kann, nicht.
      Für die wirtschaftliche Verbreitung ist Ersteres wertvoller.
    • Das ist ähnlich wie bei Wikipedia, das stärker per Web-Scraping als per API genutzt wird.
      Am Ende zählt die Bequemlichkeit.
  • Für mein tägliches Coding reichen die Top 3 Coding-Agenten aus.
    Laut SWE‑bench Verified erreicht GPT‑5.2 Codex 72,8 Punkte, GPT‑5.4 liegt etwa 2 Punkte höher.
    Es ist kein großer Sprung, aber eine Verbesserung.
    Bei SWE‑bench liegt Claude 4.6 Opus mit 75,6 Punkten weiterhin vorne.
    Allerdings haben sich die Agentenfunktionen von Codex CLI stark verbessert und nähern sich dem Niveau von Claude Code an.

  • Es ist verwirrend, dass OpenAI erst Modelle vereinheitlicht und dann wieder stärker ausdifferenzierte Versionen herausbringt.
    GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro – das sind einfach zu viele.
    Trotzdem ist die Unterstützung für das 1M-Kontextfenster erfreulich.

    • Ich finde es gut, solche Auswahlmöglichkeiten zu haben.
      Man kann je nach Bedarf wählen, und normale Nutzer können weiterhin den Auto-Modus verwenden.
    • Da die Auto-Option weiterhin existiert, ist das kein großes Problem.
    • Vermutlich ist GPT‑5 im Backend so aufgebaut, dass mehrere Modelle automatisch geroutet werden.