GPT-5: Hauptmerkmale, Preisgestaltung und Systemkarte

(simonwillison.net)

3 Punkte von GN⁺ 2025-08-08 | Noch keine Kommentare. | Auf WhatsApp teilen

GPT‑5 ist ein integriertes System, in dem ein Echtzeit-Router je nach Gesprächskontext das Modell wechselt, und bietet in der API drei Modelltypen (Regular, Mini, Nano) mit vier Reasoning-Stufen (Minimal, Low, Medium, High) an.
Eingabe und Ausgabe liegen bei 272.000 Token bzw. 128.000 Token, wobei die Eingabe Text und Bilder, die Ausgabe dagegen nur Text unterstützt.
Die Preisgestaltung ist aggressiv: Die Kosten pro Eingabe-Token sind gegenüber GPT‑4o halbiert, und bei kurzfristig wiederverwendeten Eingaben gibt es einen 90%-Token-Caching-Rabatt.
In der Systemkarte werden Halluzinationsreduktion, bessere Umsetzung von Instruktionen und weniger Schmeichelei sowie ein Training auf Safe‑Completions betont, das auf sichere Antwortbereiche statt auf binäre Ablehnung abzielt.
In Sicherheitsfragen wurde die Abwehr von Prompt Injection verbessert, aber bei k=10 Versuchen liegt die Erfolgsrate bei 56,8 %, wodurch ein Restproblem bleibt; in der API lassen sich Reasoning-Zusammenfassung und die Option reasoning_effort=minimal nutzen, um den Fluss von Reasoning-Token zu steuern.

GPT‑5: Hauptmerkmale, Preis und Systemkarten-Analyse

Autor Simon Willison hatte zwei Wochen Vorschauzugriff auf GPT‑5 und nutzte es im Alltag; sein Eindruck war, dass es zwar keinen dramatischen Sprung bringt, insgesamt aber sehr leistungsfähig ist, mit seltener Fehlerquote und als konsistentes Standardmodell gut einsetzbar.
Dieser Beitrag ist der erste Teil einer Serie und bündelt die Punkte aus Kernmerkmalen, Preis und Systemkarte.

Kerneigenschaften des Modells

In ChatGPT vereint GPT‑5 ein schnelles Standardmodell mit einem tiefen Reasoning-Modell und arbeitet als hybride Architektur, wobei ein Echtzeit-Router je nach Gesprächstyp, Schwierigkeit, Tool-Bedarf und expliziter Absicht das passende Modell auswählt.

Der real-time router wählt anhand von Gesprächstyp, Komplexität, Tool-Bedarf und Absichtssignalen wie „think hard“ das Modell aus; wenn ein Nutzungslimit erschöpft ist, übernimmt je Modell die entsprechende mini-Variante.
In der API wurde auf drei Modelle vereinfacht: Regular, Mini, Nano, jedes mit vier Reasoning-Stufen (Minimal, Low, Medium, High).
Das Kontext-Limit beträgt 272.000 Token Eingabe und 128.000 Token Ausgabe; sogar unsichtbare Reasoning-Token werden als Ausgabe-Token gezählt.
Ein- und Ausgaben sind als Texteingabe mit Bildern und textbasierte Ausgabe eingerichtet; der Knowledge Cutoff liegt bei GPT‑5: 2024‑09‑30, Mini/Nano: 2024‑05‑30.
Beim vollen GPT‑5 wurde ein präzises, ruhiges Antwortverhalten wahrgenommen, mit kaum Anstoß, auf ein anderes Modell neu zu versuchen.

Position in der OpenAI-Modellfamilie

Laut der Mapping-Tabelle in der Systemkarte übernimmt die bisherige Modellpalette Positionen in der GPT‑5-Familie.
- GPT‑4o → gpt‑5‑main, GPT‑4o‑mini → gpt‑5‑main‑mini
- OpenAI o3 → gpt‑5‑thinking, o4‑mini → gpt‑5‑thinking‑mini
- GPT‑4.1‑nano → gpt‑5‑thinking‑nano, o3 Pro → gpt‑5‑thinking‑pro
thinking‑pro wird derzeit in ChatGPT als „GPT‑5 Pro“ angezeigt und ist nur im $200-/Monat-Tier verfügbar; es nutzt parallel test-time compute.
Die Funktionsgrenzen bleiben bestehen: Audio-In/Out sowie Bilderzeugung sind weiterhin Zuständigkeit von GPT‑4o Audio/Realtime bzw. GPT Image 1/DALL‑E.

Die Preise sind aggressiv wettbewerbsfähig

Die Preisstruktur ist aggressiv.
- GPT‑5: Eingabe $1.25/Million, Ausgabe $10/Million
- GPT‑5 Mini: Eingabe $0.25/Million, Ausgabe $2.00/Million
- GPT‑5 Nano: Eingabe $0.05/Million, Ausgabe $0.40/Million
Die Eingabekosten sind im Vergleich zu GPT‑4o halbiert, die Ausgabekosten sind identisch.
Reasoning-Token werden über die Ausgabe-Token abgerechnet, daher unterscheiden sich die Gesamtkosten bei gleichem Prompt je nach Reasoning-Stufe.
Token-Caching mit 90 % Rabatt wird angeboten, sodass ein hoher Kosteneinsparungseffekt in Chat-UIs mit häufigem Wiedereinspielen des Gesprächskontexts entsteht.
In der Konkurrenzvergleichstabelle werden Claude Opus 4.1, Claude Sonnet 4, Grok 4 und Gemini 2.5 Pro mit etwa $2.5~$15/Million Eingabe und $10~$75/Million Ausgabe geführt, was die Kostenführung der GPT‑5-Linie zeigt.
Der Versuch, die Tabellen-Sortierung der Preisvergleiche GPT‑5 zu überlassen, führte dazu, dass einige Werte falsch sortiert wurden; nachdem ich die Tabelle mit Python aufgebaut und sortiert hatte, war das Problem behoben.

Weitere Hinweise aus der Systemkarte

Die Zusammensetzung der Trainingsdaten umfasst öffentliches Web, Partnerdaten sowie benutzer- und menschlich kuratierte Trainingsdaten; OpenAI beschreibt auf Prinzipienniveau den Einsatz von Datensparsamkeitsfiltern für personenbezogene Daten.
Als zentrale Verbesserungsachsen werden Halluzinationsreduktion, Verbesserung der Befehlsausführung und Minderung von Schmeichelei genannt; als drei häufige ChatGPT-Nutzungsfälle werden writing·coding·health genannt, mit gezielter Leistungssteigerung in diesen Bereichen.
Safe‑Completions ist ein ausgabeorientiertes Sicherheits-Training, das auf sicheren Antwortbereich statt binärer Ablehnung setzt und bei dual-use-Anfragen mit schwer erkennbarer Nutzerabsicht wie in Biologie·Sicherheit das Risiko detailiert reduziert, während der Nutzwert erhalten bleibt.
Bei Sycophancy wurde ein Nachtraining über Bewertungen auf Basis der Produktions-Konversationsverteilung und entsprechende Belohnungssignale durchgeführt, um übermäßiges Zustimmen aus Höflichkeit zu verringern.
In der Faktentreue wird neben standardmäßig aktivem Browsing angestrebt, dass bei Antworten ausschließlich auf internem Wissen ohne Tools die Halluzinationsrate sinkt.
Zur Täuschungsprävention wurde eine Belohnungsstruktur eingeführt, die bei unmöglichen Aufgaben ein ehrliches „Das ist nicht möglich“ fördern soll; zudem wurden Simulationsbewertungen mit absichtlich deaktiviertem Browsing durchgeführt, um falsche Antworten zu unterdrücken.

Prompt Injection in der Systemkarte

Zwei externe Red Teams führten laut Bericht Prompt-Injection-Tests mit Fokus auf systemische Schwachstellen und Connector-Pfade durch.
In der Vergleichstabelle wurde für gpt‑5‑thinking bei einem Wert von k=10 eine Angriffs-Erfolgsrate von 56,8 % gemeldet, was zwar niedriger ist als bei Claude 3.7 und mehreren anderen Modellen im 60~90%-Bereich, aber immer noch mehr als die Hälfte erreicht und damit weit von einer vollständigen Lösung entfernt ist.
Die Schlussfolgerung lautet: Trotz Modellverbesserungen sollten produktseitige Abwehrmechanismen und Guardrails als zwingende Voraussetzungen der Produktgestaltung gelten.

Thinking traces in the API

Zunächst war bekannt, dass keine Reasoning-Traces einsehbar sind, aber über die Responses API lässt sich mit reasoning: { "summary": "auto" } dennoch eine Reasoning-Zusammenfassung abrufen.
Ohne diese Option werden bei tiefen Reasoning-Stufen vor der sichtbaren Ausgabe beachtlich viele Reasoning-Token verbraucht, was zu spürbaren Latenzen führen kann; mit reasoning_effort=minimal ist ein schnelleres Streaming-Output möglich.

Und ein paar SVGs von Pelikanen

In dem regelmäßigen SVG-Benchmark des Autors mit dem Motiv „ein Fahrrad fahrender Pelikan“ lieferte GPT‑5 (Medium Reasoning als Standard) die besten Ergebnisse: hochwertige Fahrraddetails und gute Formtreue führten zu einer gut lesbaren Vektorgrafik.
Bei GPT‑5 Mini waren Farbe und Verlaufsausdruck reichhaltig, es traten jedoch Strukturfehler auf, etwa durch einen Pelikan mit zwei Hälsen.
GPT‑5 Nano vereinfachte Fahrrad und Pelikan und lieferte Ergebnisse auf Funktionszusammenfassungsniveau.

Praxis-Punkte für den Einsatz

Modellauswahl: Beginnen Sie mit Regular, wechseln Sie bei ausreichender Antwortqualität zu Mini/Nano, und ziehen Sie für komplexe Aufgaben die thinking-Variante mit höheren Reasoning-Stufen in Betracht.
Kostenkontrolle: Strategien wie Token-Caching 90 %, reasoning_effort=minimal, kurze Systemprompts und komprimierter Kontext sind wirksam, um Ausgabe-Token und Reasoning-Token zu reduzieren.
Sicherheitsdesign: Da Prompt Injection weiterhin riskant ist, sind systemische Gegenmaßnahmen wie Reduktion der Connector-Berechtigungen, Ausgabevalidierung und sichere Antwort-Templates zusätzlich erforderlich.
Bereichsanwendung: Für writing·coding·health wurde berichtet, dass Halluzinationen und Schmeichelei spürbar reduziert werden. Daraus folgt die Empfehlung, Standardabläufe wie Browsing plus nachvollziehbare Evidenz für hochkritische Dokumentations-, Code-Review- und Healthcare-QA-Workflows vorzusehen

GPT-5: Hauptmerkmale, Preisgestaltung und Systemkarte

GPT‑5: Hauptmerkmale, Preis und Systemkarten-Analyse

Kerneigenschaften des Modells

Position in der OpenAI-Modellfamilie

Die Preise sind aggressiv wettbewerbsfähig

Weitere Hinweise aus der Systemkarte

Prompt Injection in der Systemkarte

Thinking traces in the API

Und ein paar SVGs von Pelikanen

Praxis-Punkte für den Einsatz

Verwandte Beiträge

Noch keine Kommentare.