- Die Leistung von GPT‑5.4 wird in einer schnellen und effizienten Form umgesetzt
- GPT‑5.4 mini ist bei Coding, Schlussfolgern, multimodalem Verständnis und Tool-Nutzung gegenüber GPT‑5 mini deutlich verbessert und mehr als doppelt so schnell
- GPT‑5.4 nano ist das kleinste und günstigste Modell und eignet sich für Klassifizierung, Datenextraktion, Ranking und unterstützende Coding-Aufgaben
- Beide Modelle sind für Workloads ausgelegt, bei denen Latenz entscheidend ist, und sind daher vorteilhaft für reaktionsschnelle Coding-Assistenten oder multimodale Echtzeit-Anwendungen
- Mit diesen Modellen wird der Aufbau leichtgewichtiger KI-Systeme mit optimierter Balance aus Geschwindigkeit, Kosten und Leistung möglich
Überblick über GPT‑5.4 mini und nano
- GPT‑5.4 mini und nano sind kleine, hocheffiziente Versionen von GPT‑5.4, die auf schnelle Antworten in Umgebungen mit hohem Durchsatz ausgelegt sind
- mini verbessert sich gegenüber GPT‑5 mini bei Coding, Schlussfolgern, multimodalem Verständnis und Tool-Nutzung
- nano ist das kleinste und günstigste Modell mit verbesserter Leistung gegenüber GPT‑5 nano
- Beide Modelle sind für Umgebungen optimiert, in denen sich Latenz direkt auf das Produkterlebnis auswirkt (Coding-Assistenten, Sub-Agenten, Screenshot-Interpretation, Bildschlussfolgerung in Echtzeit usw.)
- OpenAI betont mit der Aussage „Das beste Modell ist nicht immer das größte Modell“ die Bedeutung von schneller Reaktionsfähigkeit und stabiler Tool-Nutzung
Leistungsvergleich
- In wichtigen Benchmarks erzielt GPT‑5.4 mini höhere Werte als GPT‑5 mini und zeigt eine Leistung nahe an GPT‑5.4
- SWE‑Bench Pro: GPT‑5.4 57.7%, mini 54.4%, nano 52.4%, GPT‑5 mini 45.7%
- OSWorld‑Verified: GPT‑5.4 75.0%, mini 72.1%, nano 39.0%, GPT‑5 mini 42.0%
- Auch bei Terminal‑Bench 2.0, Toolathlon und GPQA Diamond zeigt mini eine hohe Geschwindigkeitseffizienz im Verhältnis zur Leistung
- nano bietet in Umgebungen, in denen Geschwindigkeit und Kosten wichtig sind, optimale Kosteneffizienz
Coding-Workflow
- Beide Modelle eignen sich für Coding-Umgebungen, in denen schnelle Iteration erforderlich ist
- Sie arbeiten mit niedriger Latenz bei Code-Editing, Navigation durch Codebasen, Frontend-Generierung und Debugging-Schleifen
- GPT‑5.4 mini erreicht gegenüber GPT‑5 mini eine höhere Pass Rate bei ähnlicher Latenz und nähert sich dem Niveau von GPT‑5.4
- In Codex-Umgebungen übernimmt das große Modell Planung und Beurteilung, während mini als Sub-Agent detaillierte Aufgaben parallel bearbeitet
- Zum Beispiel Codesuche, Prüfung großer Dateien und Dokumentverarbeitung
- Diese Struktur wird umso nützlicher, je stärker sich Geschwindigkeit und Leistung kleiner Modelle verbessern
Computernutzung und multimodale Verarbeitung
- GPT‑5.4 mini zeigt auch bei multimodalen Aufgaben rund um die Computernutzung starke Leistung
- Es interpretiert Screenshots komplexer Benutzeroberflächen schnell und führt darauf basierende Aufgaben aus
- In OSWorld‑Verified liegt es nahe an GPT‑5.4 und deutlich über GPT‑5 mini
Bereitstellung und Preise
- GPT‑5.4 mini
- Verfügbar in API, Codex und ChatGPT
- Unterstützte Funktionen: Text- und Bildeingabe, Tool-Nutzung, Function Calling, Web- und Dateisuche, Computernutzung, Skills
- 400k Kontextfenster, $0.75 pro 1 Million Input-Token, $4.50 pro 1 Million Output-Token
- In Codex verbraucht es nur 30% des GPT‑5.4-Kontingents und kann einfache Coding-Aufgaben zu etwa einem Drittel der Kosten bearbeiten
- In ChatGPT wird es Free- und Go-Nutzern mit der Funktion „Thinking“ angeboten; für andere Nutzer dient es als Fallback-Modell für GPT‑5.4 Thinking
- GPT‑5.4 nano
- Nur über die API verfügbar
- $0.20 pro 1 Million Input-Token, $1.25 pro 1 Million Output-Token
Zusätzliche Benchmark-Details
- Coding
- SWE‑Bench Pro: GPT‑5.4 mini 54.4%, nano 52.4%
- Terminal‑Bench 2.0: mini 60.0%, nano 46.3%
- Tool-Aufrufe
- MCP Atlas: mini 57.7%, nano 56.1%
- Toolathlon: mini 42.9%, nano 35.5%
- τ2‑bench (Kommunikation): mini 93.4%, nano 92.5%
- Intelligenzbewertung
- GPQA Diamond: mini 88.0%, nano 82.8%
- HLE w/ tool: mini 41.5%, nano 37.7%
- Multimodalität und Vision
- MMMUPro w/ Python: mini 78.0%, nano 69.5%
- OmniDocBench 1.5(no tools): mini 0.1263, nano 0.2419 (niedriger ist besser)
- Langer Kontext
- Graphwalks BFS 0K–128K: mini 76.3%, nano 73.4%
- MRCR v2 8‑needle 64K–128K: mini 47.7%, nano 44.2%
Gesamtbewertung
- GPT‑5.4 mini und nano sind leichtgewichtige Modelle, die die Balance aus Geschwindigkeit, Kosten und Leistung maximieren, und eignen sich für groß angelegte Echtzeit-Anwendungen
- mini kann in Sub-Agenten-Architekturen oder multimodalen Systemen eine zentrale Rolle spielen, während nano für einfache Aufgaben mit hoher Stückzahl effizient ist
- Mit diesen beiden Modellen bietet OpenAI eine Grundlage für den flexiblen Aufbau von KI-Systemen unterschiedlicher Größenordnungen
1 Kommentare
Hacker-News-Kommentare
Ich habe die aktuelle Geschwindigkeit über die API geprüft und fand sie ziemlich beeindruckend
GPT-5 Mini lag meist bei 55–60 tokens/s, im Priority-Modus bei etwa 115–120 t/s, GPT-5.4 Mini im Schnitt bei 180–190 t/s und GPT-5.4 Nano bei rund 200 t/s
Zum Vergleich: Gemini 3 Flash lag bei etwa 130 t/s (Gemini API), auf Vertex bei ungefähr 120 t/s
Wenn man auch die Preise betrachtet, liegt Claude Opus 4.6 bei $5/$25, GPT-5.4 bei $2.5/$15, Gemini 3.1 Pro bei $2/$12 usw.
Jemand teilt ein Grid, das Pelikan-Bilder mehrerer Modelle vergleicht
GPT-Modelle sind für Gespräche gut, aber bei agentischen Aufgaben (agentic work) waren meine Erfahrungen schlecht
Sie sind langsam und verstehen Anweisungen nicht besonders gut. Mit demselben Prompt funktionieren andere Modelle gut
Opus ist kooperativer, macht aber gelegentlich seltsame Vorschläge. Der Codex-Prompt steht im OpenCode-Repository
Ich halte Releases kleiner (mini) Modelle für bedeutender als SOTA
Große Modelle sind bereits so gut, dass Unterschiede schwer spürbar sind, aber bei kleinen Modellen gibt es beim Versionswechsel oft einen Qualitätssprung
Außerdem sind sie deutlich günstiger und lassen sich daher leichter in reale Services integrieren
anyIch frage mich, warum LLM-Bewertungen per Bauchgefühl („vibe check“) erfolgen
Die meisten Vergleiche beruhen nicht auf systematischen Experimenten, sondern auf spontanen Tests
Laut den Benchmarks ist GPT 5.4 Nano in den meisten Bereichen besser als GPT-5 Mini, aber der Preis steigt trotzdem
GPT 5 mini: Eingabe $0.25 / Ausgabe $2.00 → GPT 5.4 mini: Eingabe $0.75 / Ausgabe $4.50
Der OSWorld-Score ist interessant. Mini liegt bei 72.1 %, der menschliche Referenzwert bei 72.4 %, also fast gleichauf
Daher kann man Mini standardmäßig verwenden, solange es nicht gerade um bestimmte Fehlerszenarien geht
Allerdings verliert in einer Multimodell-Pipeline ein Nano-Subagent seinen Preisvorteil, wenn er den kompletten Nachrichtenverlauf unverändert weiterreicht
Mich würde interessieren, ob jemand gemessen hat, ab welcher Kontextlänge Nano nicht mehr schneller ist
Auch in meinem Benchmark schneidet Nano besser ab als Mini
5.4 mini hat Konsistenzprobleme, und selbst bei Temperature 0 kommen richtige und falsche Antworten gemischt heraus
Siehe Vergleichslink
Der OSWorld-Score von 5.4 Mini ist erstaunlich. Früher waren Modelle zu langsam und ungenau für Echtzeit-Agenten, jetzt scheint das möglich zu werden
Man könnte zum Beispiel automatisierte Tests erstellen, indem man das Verhalten von Win32-Apps und Web-Versionen vergleicht. Auch bei großem Maßstab wäre das kosteneffizient
Nach SWE-Bench hat 5.4 mini high eine ähnliche Genauigkeit und einen ähnlichen Preis wie GPT 5.4 low, aber eine höhere Latenz (254 Sekunden vs. 171 Sekunden)
Für einfache Aufgaben ist es kostengünstiger, mit niedrigerem Effort-Level zu arbeiten. Allerdings bleibt die Leistung bei langen Kontexten weiterhin schwach