3 Punkte von GN⁺ 2026-03-18 | 1 Kommentare | Auf WhatsApp teilen
  • Die Leistung von GPT‑5.4 wird in einer schnellen und effizienten Form umgesetzt
  • GPT‑5.4 mini ist bei Coding, Schlussfolgern, multimodalem Verständnis und Tool-Nutzung gegenüber GPT‑5 mini deutlich verbessert und mehr als doppelt so schnell
  • GPT‑5.4 nano ist das kleinste und günstigste Modell und eignet sich für Klassifizierung, Datenextraktion, Ranking und unterstützende Coding-Aufgaben
  • Beide Modelle sind für Workloads ausgelegt, bei denen Latenz entscheidend ist, und sind daher vorteilhaft für reaktionsschnelle Coding-Assistenten oder multimodale Echtzeit-Anwendungen
  • Mit diesen Modellen wird der Aufbau leichtgewichtiger KI-Systeme mit optimierter Balance aus Geschwindigkeit, Kosten und Leistung möglich

Überblick über GPT‑5.4 mini und nano

  • GPT‑5.4 mini und nano sind kleine, hocheffiziente Versionen von GPT‑5.4, die auf schnelle Antworten in Umgebungen mit hohem Durchsatz ausgelegt sind
    • mini verbessert sich gegenüber GPT‑5 mini bei Coding, Schlussfolgern, multimodalem Verständnis und Tool-Nutzung
    • nano ist das kleinste und günstigste Modell mit verbesserter Leistung gegenüber GPT‑5 nano
  • Beide Modelle sind für Umgebungen optimiert, in denen sich Latenz direkt auf das Produkterlebnis auswirkt (Coding-Assistenten, Sub-Agenten, Screenshot-Interpretation, Bildschlussfolgerung in Echtzeit usw.)
  • OpenAI betont mit der Aussage „Das beste Modell ist nicht immer das größte Modell“ die Bedeutung von schneller Reaktionsfähigkeit und stabiler Tool-Nutzung

Leistungsvergleich

  • In wichtigen Benchmarks erzielt GPT‑5.4 mini höhere Werte als GPT‑5 mini und zeigt eine Leistung nahe an GPT‑5.4
    • SWE‑Bench Pro: GPT‑5.4 57.7%, mini 54.4%, nano 52.4%, GPT‑5 mini 45.7%
    • OSWorld‑Verified: GPT‑5.4 75.0%, mini 72.1%, nano 39.0%, GPT‑5 mini 42.0%
  • Auch bei Terminal‑Bench 2.0, Toolathlon und GPQA Diamond zeigt mini eine hohe Geschwindigkeitseffizienz im Verhältnis zur Leistung
  • nano bietet in Umgebungen, in denen Geschwindigkeit und Kosten wichtig sind, optimale Kosteneffizienz

Coding-Workflow

  • Beide Modelle eignen sich für Coding-Umgebungen, in denen schnelle Iteration erforderlich ist
    • Sie arbeiten mit niedriger Latenz bei Code-Editing, Navigation durch Codebasen, Frontend-Generierung und Debugging-Schleifen
  • GPT‑5.4 mini erreicht gegenüber GPT‑5 mini eine höhere Pass Rate bei ähnlicher Latenz und nähert sich dem Niveau von GPT‑5.4
  • In Codex-Umgebungen übernimmt das große Modell Planung und Beurteilung, während mini als Sub-Agent detaillierte Aufgaben parallel bearbeitet
    • Zum Beispiel Codesuche, Prüfung großer Dateien und Dokumentverarbeitung
  • Diese Struktur wird umso nützlicher, je stärker sich Geschwindigkeit und Leistung kleiner Modelle verbessern

Computernutzung und multimodale Verarbeitung

  • GPT‑5.4 mini zeigt auch bei multimodalen Aufgaben rund um die Computernutzung starke Leistung
    • Es interpretiert Screenshots komplexer Benutzeroberflächen schnell und führt darauf basierende Aufgaben aus
    • In OSWorld‑Verified liegt es nahe an GPT‑5.4 und deutlich über GPT‑5 mini

Bereitstellung und Preise

  • GPT‑5.4 mini
    • Verfügbar in API, Codex und ChatGPT
    • Unterstützte Funktionen: Text- und Bildeingabe, Tool-Nutzung, Function Calling, Web- und Dateisuche, Computernutzung, Skills
    • 400k Kontextfenster, $0.75 pro 1 Million Input-Token, $4.50 pro 1 Million Output-Token
    • In Codex verbraucht es nur 30% des GPT‑5.4-Kontingents und kann einfache Coding-Aufgaben zu etwa einem Drittel der Kosten bearbeiten
    • In ChatGPT wird es Free- und Go-Nutzern mit der Funktion „Thinking“ angeboten; für andere Nutzer dient es als Fallback-Modell für GPT‑5.4 Thinking
  • GPT‑5.4 nano
    • Nur über die API verfügbar
    • $0.20 pro 1 Million Input-Token, $1.25 pro 1 Million Output-Token

Zusätzliche Benchmark-Details

  • Coding
    • SWE‑Bench Pro: GPT‑5.4 mini 54.4%, nano 52.4%
    • Terminal‑Bench 2.0: mini 60.0%, nano 46.3%
  • Tool-Aufrufe
    • MCP Atlas: mini 57.7%, nano 56.1%
    • Toolathlon: mini 42.9%, nano 35.5%
    • τ2‑bench (Kommunikation): mini 93.4%, nano 92.5%
  • Intelligenzbewertung
    • GPQA Diamond: mini 88.0%, nano 82.8%
    • HLE w/ tool: mini 41.5%, nano 37.7%
  • Multimodalität und Vision
    • MMMUPro w/ Python: mini 78.0%, nano 69.5%
    • OmniDocBench 1.5(no tools): mini 0.1263, nano 0.2419 (niedriger ist besser)
  • Langer Kontext
    • Graphwalks BFS 0K–128K: mini 76.3%, nano 73.4%
    • MRCR v2 8‑needle 64K–128K: mini 47.7%, nano 44.2%

Gesamtbewertung

  • GPT‑5.4 mini und nano sind leichtgewichtige Modelle, die die Balance aus Geschwindigkeit, Kosten und Leistung maximieren, und eignen sich für groß angelegte Echtzeit-Anwendungen
  • mini kann in Sub-Agenten-Architekturen oder multimodalen Systemen eine zentrale Rolle spielen, während nano für einfache Aufgaben mit hoher Stückzahl effizient ist
  • Mit diesen beiden Modellen bietet OpenAI eine Grundlage für den flexiblen Aufbau von KI-Systemen unterschiedlicher Größenordnungen

1 Kommentare

 
GN⁺ 2026-03-18
Hacker-News-Kommentare
  • Ich habe die aktuelle Geschwindigkeit über die API geprüft und fand sie ziemlich beeindruckend
    GPT-5 Mini lag meist bei 55–60 tokens/s, im Priority-Modus bei etwa 115–120 t/s, GPT-5.4 Mini im Schnitt bei 180–190 t/s und GPT-5.4 Nano bei rund 200 t/s
    Zum Vergleich: Gemini 3 Flash lag bei etwa 130 t/s (Gemini API), auf Vertex bei ungefähr 120 t/s
    Wenn man auch die Preise betrachtet, liegt Claude Opus 4.6 bei $5/$25, GPT-5.4 bei $2.5/$15, Gemini 3.1 Pro bei $2/$12 usw.

    • token/s allein reicht nicht aus. Man muss auch TTFT (Time to First Token) und die gesamte Latenz betrachten, um die tatsächliche API-Performance zu verstehen
    • Wenn nur die Geschwindigkeit hoch ist, aber der Reasoning-Schritt lang dauert, kann es am Ende sogar langsamer sein. Auch bei niedrigerem token/s kann fokussiertes Denken effizienter sein
    • Mich würde interessieren, warum Leute sich für GPT oder Claude entscheiden, obwohl Google bei Ressourcen oder Kosten im Vorteil zu sein scheint
    • Es wäre gut, wenn auch die Prompt-Verarbeitungsgeschwindigkeit der wichtigsten Anbieter gemessen würde
    • Die Preise der günstigen Modelle sind deutlich gestiegen. Früher war das bequem, jetzt ist es eher belastend
  • Jemand teilt ein Grid, das Pelikan-Bilder mehrerer Modelle vergleicht

    • Inzwischen ist so etwas vermutlich bereits in den Trainingsdaten enthalten
    • Manche Bilder haben einen albtraumhaften Eindruck, aber gerade deshalb gefallen sie mir noch mehr
    • Persönlich gefällt mir der Pelikan der Nano-xhigh-Version am besten
    • Nano medium wirkt, als wäre es genau in dem Moment erzeugt worden, als der Server in Flammen stand
  • GPT-Modelle sind für Gespräche gut, aber bei agentischen Aufgaben (agentic work) waren meine Erfahrungen schlecht
    Sie sind langsam und verstehen Anweisungen nicht besonders gut. Mit demselben Prompt funktionieren andere Modelle gut

    • 5.4 Mini ist schnell genug für Sprachanwendungen, aber bei der Befolgung von Anweisungen schwach. Ich überlege, Qwen 3.5 9B feinzujustieren
    • Gemini 3.1 und Claude Opus 4.6 haben die Anforderungen erfüllt, aber die ChatGPT-Reihe ist zu stark auf Konversation ausgerichtet. Die Kontexttreue ist schwach, daher braucht es Ergebnisvalidierung
    • GPT 5.2 Codex verliert oft den Kontext, während Claude in GitHub Copilot deutlich natürlicher arbeitet. GPT braucht selbst für einfaches Refactoring 20 Minuten
    • Ich habe mit 5.4 Pro Datenanalyse gemacht, aber es war viel zu langsam. Sonnet 4.6 war deutlich schneller. Für die meisten Aufgaben reicht Haiku aus
    • Umgekehrt finde ich Codex am besten. Allerdings ist der nüchterne Stil zu ausgeprägt, sodass Gespräche kurz ausfallen und Eingriffe schwierig sind
      Opus ist kooperativer, macht aber gelegentlich seltsame Vorschläge. Der Codex-Prompt steht im OpenCode-Repository
  • Ich halte Releases kleiner (mini) Modelle für bedeutender als SOTA
    Große Modelle sind bereits so gut, dass Unterschiede schwer spürbar sind, aber bei kleinen Modellen gibt es beim Versionswechsel oft einen Qualitätssprung
    Außerdem sind sie deutlich günstiger und lassen sich daher leichter in reale Services integrieren

    • Die Gemini-Web-App schaltet automatisch auf Flash um, und wenn Antworten seltsam werden oder die Logik bricht, merkt man das sofort. Für den Alltag reicht es noch nicht, aber für einfache Automatisierung ist es gut genug
    • GPT 5.4 ist schwach bei Svelte-UI-Arbeit, Gemini will eher direkt implementieren als diskutieren, und Claude missbraucht in TypeScript den Typ any
    • Laut Vergleichsergebnis ist der Unterschied zwischen 5 mini und 5.4 mini klein, aber 5.4 mini ist instabiler und trifft zugleich häufiger die richtige Antwort
    • Tatsächlich steigen die Preise. GPT 5.4 mini ist etwa dreimal so teuer wie 5.0 mini. Auch Gemini 3.1 Flash Lite ist teurer als früher
    • Im Vergleich zu offenen Modellen ist es auch nicht so billig und die Intelligenz niedriger. Wenn man Latenz nicht unbedingt minimieren muss, gibt es wenig Grund, es zu verwenden
  • Ich frage mich, warum LLM-Bewertungen per Bauchgefühl („vibe check“) erfolgen
    Die meisten Vergleiche beruhen nicht auf systematischen Experimenten, sondern auf spontanen Tests

    • Es ist nicht nur ein einfaches Engineering-Problem. Die Definition von Intelligenz und Fähigkeit selbst ist unvollständig. Bestehende Benchmarks haben viele Mängel
    • Sobald man einen Benchmark erstellt, heißt es, er sei „bedeutungslos“, aber nach Bauchgefühl zu bewerten ist noch viel schlechter
    • Veröffentlichte Evaluationssets werden schnell durch das Dark-Forest-Problem entwertet. Da ihre Vorhersagekraft ohnehin schwach ist, halte ich es eher für sinnvoll, informelle Ansätze wissenschaftlich zu behandeln
    • Es gibt sogar den Witz: „Wir bewerten nach Gefühl und coden nach Gefühl“
  • Laut den Benchmarks ist GPT 5.4 Nano in den meisten Bereichen besser als GPT-5 Mini, aber der Preis steigt trotzdem
    GPT 5 mini: Eingabe $0.25 / Ausgabe $2.00 → GPT 5.4 mini: Eingabe $0.75 / Ausgabe $4.50

    • Das Modell ist teurer geworden, aber die Preis-Leistungs-Effizienz hat sich verbessert. Vielleicht gibt es weniger Gründe, schwächere Modelle weiter beizubehalten
    • Da es ein größeres Modell ist, können die Serving-Kosten nicht niedriger sein. Wenn die Leistung besser geworden ist, ist ein höherer Preis nur logisch
  • Der OSWorld-Score ist interessant. Mini liegt bei 72.1 %, der menschliche Referenzwert bei 72.4 %, also fast gleichauf
    Daher kann man Mini standardmäßig verwenden, solange es nicht gerade um bestimmte Fehlerszenarien geht
    Allerdings verliert in einer Multimodell-Pipeline ein Nano-Subagent seinen Preisvorteil, wenn er den kompletten Nachrichtenverlauf unverändert weiterreicht
    Mich würde interessieren, ob jemand gemessen hat, ab welcher Kontextlänge Nano nicht mehr schneller ist

    • (Das wirkt wie ein Bot)
  • Auch in meinem Benchmark schneidet Nano besser ab als Mini
    5.4 mini hat Konsistenzprobleme, und selbst bei Temperature 0 kommen richtige und falsche Antworten gemischt heraus
    Siehe Vergleichslink

  • Der OSWorld-Score von 5.4 Mini ist erstaunlich. Früher waren Modelle zu langsam und ungenau für Echtzeit-Agenten, jetzt scheint das möglich zu werden

    • Manche tun OSWorld als „OpenClaw“ ab, aber als sichere Bewertung kompletter Interaktionen ist es sehr stark
      Man könnte zum Beispiel automatisierte Tests erstellen, indem man das Verhalten von Win32-Apps und Web-Versionen vergleicht. Auch bei großem Maßstab wäre das kosteneffizient
  • Nach SWE-Bench hat 5.4 mini high eine ähnliche Genauigkeit und einen ähnlichen Preis wie GPT 5.4 low, aber eine höhere Latenz (254 Sekunden vs. 171 Sekunden)
    Für einfache Aufgaben ist es kostengünstiger, mit niedrigerem Effort-Level zu arbeiten. Allerdings bleibt die Leistung bei langen Kontexten weiterhin schwach