3 Punkte von GN⁺ 2025-08-08 | 1 Kommentare | Auf WhatsApp teilen
  • GPT‑5 ist ein integriertes System, in dem ein Echtzeit-Router je nach Gesprächskontext das Modell wechselt, und bietet in der API drei Modelltypen (Regular, Mini, Nano) mit vier Reasoning-Stufen (Minimal, Low, Medium, High) an.
  • Eingabe und Ausgabe liegen bei 272.000 Token bzw. 128.000 Token, wobei die Eingabe Text und Bilder, die Ausgabe dagegen nur Text unterstützt.
  • Die Preisgestaltung ist aggressiv: Die Kosten pro Eingabe-Token sind gegenüber GPT‑4o halbiert, und bei kurzfristig wiederverwendeten Eingaben gibt es einen 90%-Token-Caching-Rabatt.
  • In der Systemkarte werden Halluzinationsreduktion, bessere Umsetzung von Instruktionen und weniger Schmeichelei sowie ein Training auf Safe‑Completions betont, das auf sichere Antwortbereiche statt auf binäre Ablehnung abzielt.
  • In Sicherheitsfragen wurde die Abwehr von Prompt Injection verbessert, aber bei k=10 Versuchen liegt die Erfolgsrate bei 56,8 %, wodurch ein Restproblem bleibt; in der API lassen sich Reasoning-Zusammenfassung und die Option reasoning_effort=minimal nutzen, um den Fluss von Reasoning-Token zu steuern.

GPT‑5: Hauptmerkmale, Preis und Systemkarten-Analyse

  • Autor Simon Willison hatte zwei Wochen Vorschauzugriff auf GPT‑5 und nutzte es im Alltag; sein Eindruck war, dass es zwar keinen dramatischen Sprung bringt, insgesamt aber sehr leistungsfähig ist, mit seltener Fehlerquote und als konsistentes Standardmodell gut einsetzbar.
  • Dieser Beitrag ist der erste Teil einer Serie und bündelt die Punkte aus Kernmerkmalen, Preis und Systemkarte.

Kerneigenschaften des Modells

  • In ChatGPT vereint GPT‑5 ein schnelles Standardmodell mit einem tiefen Reasoning-Modell und arbeitet als hybride Architektur, wobei ein Echtzeit-Router je nach Gesprächstyp, Schwierigkeit, Tool-Bedarf und expliziter Absicht das passende Modell auswählt.

    Der real-time router wählt anhand von Gesprächstyp, Komplexität, Tool-Bedarf und Absichtssignalen wie „think hard“ das Modell aus; wenn ein Nutzungslimit erschöpft ist, übernimmt je Modell die entsprechende mini-Variante.

  • In der API wurde auf drei Modelle vereinfacht: Regular, Mini, Nano, jedes mit vier Reasoning-Stufen (Minimal, Low, Medium, High).
  • Das Kontext-Limit beträgt 272.000 Token Eingabe und 128.000 Token Ausgabe; sogar unsichtbare Reasoning-Token werden als Ausgabe-Token gezählt.
  • Ein- und Ausgaben sind als Texteingabe mit Bildern und textbasierte Ausgabe eingerichtet; der Knowledge Cutoff liegt bei GPT‑5: 2024‑09‑30, Mini/Nano: 2024‑05‑30.
  • Beim vollen GPT‑5 wurde ein präzises, ruhiges Antwortverhalten wahrgenommen, mit kaum Anstoß, auf ein anderes Modell neu zu versuchen.

Position in der OpenAI-Modellfamilie

  • Laut der Mapping-Tabelle in der Systemkarte übernimmt die bisherige Modellpalette Positionen in der GPT‑5-Familie.
    • GPT‑4o → gpt‑5‑main, GPT‑4o‑mini → gpt‑5‑main‑mini
    • OpenAI o3 → gpt‑5‑thinking, o4‑mini → gpt‑5‑thinking‑mini
    • GPT‑4.1‑nano → gpt‑5‑thinking‑nano, o3 Pro → gpt‑5‑thinking‑pro
  • thinking‑pro wird derzeit in ChatGPT als „GPT‑5 Pro“ angezeigt und ist nur im $200-/Monat-Tier verfügbar; es nutzt parallel test-time compute.
  • Die Funktionsgrenzen bleiben bestehen: Audio-In/Out sowie Bilderzeugung sind weiterhin Zuständigkeit von GPT‑4o Audio/Realtime bzw. GPT Image 1/DALL‑E.

Die Preise sind aggressiv wettbewerbsfähig

  • Die Preisstruktur ist aggressiv.
    • GPT‑5: Eingabe $1.25/Million, Ausgabe $10/Million
    • GPT‑5 Mini: Eingabe $0.25/Million, Ausgabe $2.00/Million
    • GPT‑5 Nano: Eingabe $0.05/Million, Ausgabe $0.40/Million
  • Die Eingabekosten sind im Vergleich zu GPT‑4o halbiert, die Ausgabekosten sind identisch.
  • Reasoning-Token werden über die Ausgabe-Token abgerechnet, daher unterscheiden sich die Gesamtkosten bei gleichem Prompt je nach Reasoning-Stufe.
  • Token-Caching mit 90 % Rabatt wird angeboten, sodass ein hoher Kosteneinsparungseffekt in Chat-UIs mit häufigem Wiedereinspielen des Gesprächskontexts entsteht.
  • In der Konkurrenzvergleichstabelle werden Claude Opus 4.1, Claude Sonnet 4, Grok 4 und Gemini 2.5 Pro mit etwa $2.5~$15/Million Eingabe und $10~$75/Million Ausgabe geführt, was die Kostenführung der GPT‑5-Linie zeigt.
  • Der Versuch, die Tabellen-Sortierung der Preisvergleiche GPT‑5 zu überlassen, führte dazu, dass einige Werte falsch sortiert wurden; nachdem ich die Tabelle mit Python aufgebaut und sortiert hatte, war das Problem behoben.

Weitere Hinweise aus der Systemkarte

  • Die Zusammensetzung der Trainingsdaten umfasst öffentliches Web, Partnerdaten sowie benutzer- und menschlich kuratierte Trainingsdaten; OpenAI beschreibt auf Prinzipienniveau den Einsatz von Datensparsamkeitsfiltern für personenbezogene Daten.
  • Als zentrale Verbesserungsachsen werden Halluzinationsreduktion, Verbesserung der Befehlsausführung und Minderung von Schmeichelei genannt; als drei häufige ChatGPT-Nutzungsfälle werden writing·coding·health genannt, mit gezielter Leistungssteigerung in diesen Bereichen.
  • Safe‑Completions ist ein ausgabeorientiertes Sicherheits-Training, das auf sicheren Antwortbereich statt binärer Ablehnung setzt und bei dual-use-Anfragen mit schwer erkennbarer Nutzerabsicht wie in Biologie·Sicherheit das Risiko detailiert reduziert, während der Nutzwert erhalten bleibt.
  • Bei Sycophancy wurde ein Nachtraining über Bewertungen auf Basis der Produktions-Konversationsverteilung und entsprechende Belohnungssignale durchgeführt, um übermäßiges Zustimmen aus Höflichkeit zu verringern.
  • In der Faktentreue wird neben standardmäßig aktivem Browsing angestrebt, dass bei Antworten ausschließlich auf internem Wissen ohne Tools die Halluzinationsrate sinkt.
  • Zur Täuschungsprävention wurde eine Belohnungsstruktur eingeführt, die bei unmöglichen Aufgaben ein ehrliches „Das ist nicht möglich“ fördern soll; zudem wurden Simulationsbewertungen mit absichtlich deaktiviertem Browsing durchgeführt, um falsche Antworten zu unterdrücken.

Prompt Injection in der Systemkarte

  • Zwei externe Red Teams führten laut Bericht Prompt-Injection-Tests mit Fokus auf systemische Schwachstellen und Connector-Pfade durch.
  • In der Vergleichstabelle wurde für gpt‑5‑thinking bei einem Wert von k=10 eine Angriffs-Erfolgsrate von 56,8 % gemeldet, was zwar niedriger ist als bei Claude 3.7 und mehreren anderen Modellen im 60~90%-Bereich, aber immer noch mehr als die Hälfte erreicht und damit weit von einer vollständigen Lösung entfernt ist.
  • Die Schlussfolgerung lautet: Trotz Modellverbesserungen sollten produktseitige Abwehrmechanismen und Guardrails als zwingende Voraussetzungen der Produktgestaltung gelten.

Thinking traces in the API

  • Zunächst war bekannt, dass keine Reasoning-Traces einsehbar sind, aber über die Responses API lässt sich mit reasoning: { "summary": "auto" } dennoch eine Reasoning-Zusammenfassung abrufen.
  • Ohne diese Option werden bei tiefen Reasoning-Stufen vor der sichtbaren Ausgabe beachtlich viele Reasoning-Token verbraucht, was zu spürbaren Latenzen führen kann; mit reasoning_effort=minimal ist ein schnelleres Streaming-Output möglich.

Und ein paar SVGs von Pelikanen

  • In dem regelmäßigen SVG-Benchmark des Autors mit dem Motiv „ein Fahrrad fahrender Pelikan“ lieferte GPT‑5 (Medium Reasoning als Standard) die besten Ergebnisse: hochwertige Fahrraddetails und gute Formtreue führten zu einer gut lesbaren Vektorgrafik.
  • Bei GPT‑5 Mini waren Farbe und Verlaufsausdruck reichhaltig, es traten jedoch Strukturfehler auf, etwa durch einen Pelikan mit zwei Hälsen.
  • GPT‑5 Nano vereinfachte Fahrrad und Pelikan und lieferte Ergebnisse auf Funktionszusammenfassungsniveau.

Praxis-Punkte für den Einsatz

  • Modellauswahl: Beginnen Sie mit Regular, wechseln Sie bei ausreichender Antwortqualität zu Mini/Nano, und ziehen Sie für komplexe Aufgaben die thinking-Variante mit höheren Reasoning-Stufen in Betracht.
  • Kostenkontrolle: Strategien wie Token-Caching 90 %, reasoning_effort=minimal, kurze Systemprompts und komprimierter Kontext sind wirksam, um Ausgabe-Token und Reasoning-Token zu reduzieren.
  • Sicherheitsdesign: Da Prompt Injection weiterhin riskant ist, sind systemische Gegenmaßnahmen wie Reduktion der Connector-Berechtigungen, Ausgabevalidierung und sichere Antwort-Templates zusätzlich erforderlich.
  • Bereichsanwendung: Für writing·coding·health wurde berichtet, dass Halluzinationen und Schmeichelei spürbar reduziert werden. Daraus folgt die Empfehlung, Standardabläufe wie Browsing plus nachvollziehbare Evidenz für hochkritische Dokumentations-, Code-Review- und Healthcare-QA-Workflows vorzusehen

1 Kommentare

 
GN⁺ 2025-08-08
Hacker News Kommentar
  • Ich finde es wirklich beeindruckend und freue mich, dass die Zuverlässigkeit offenbar gestiegen ist; gleichzeitig ist es angesichts der Erwartungen der letzten zwei Jahre an GPT-5 ein bisschen schade, dass es bei einer schrittweisen, stabilen Verbesserung bleibt statt bei einer Innovation, die das Denken auf den Kopf stellt. Ich habe das Gefühl, dass ein reiner Ansatz, der nur auf Skalierung setzt, an seine Grenzen gestoßen ist. Wenn die Verbesserung einfach durch mehr Rechenressourcen möglich gewesen wäre, hätte OpenAI nicht so viel Zeit darauf verwendet, das bisherige Nutzer-Routing-System fein nachzujustieren, um die durchschnittliche Interaktion zu verbessern. Ich war auch gegenüber der Behauptung skeptisch, dass AGI allein durch mehr Daten/Compute erreichbar sei. Insgesamt wirkt durch die wachsende Abschottung in der Branche und den Fokus auf Marketing-Sprache statt belastbarer Infos in der Präsentation der Eindruck, dass niemand wirklich weiß, in welchem Zustand das aktuelle Modell tatsächlich ist. Bei großen Investitionen mag das vielleicht nicht zu vermeiden sein. Trotzdem kann man nicht ausschließen, dass ein wirklich großartiges Modell noch veröffentlicht wird.
    • Ich denke, die eigentliche stille Innovation findet in der Tool-Nutzung und der Multimodalität statt. Die allgemeine Intelligenz verändert sich nur inkrementell, aber die Mehrschritt-Nutzung von Tools und die Interaktion mit der realen Welt haben sich im Vergleich zu vor einem Jahr dramatisch verbessert. Ich erwarte, dass dieses Feedback langfristig in deutlich bessere Intelligenz zurückfließen wird.
    • Dass die reine Vergrößerung nicht die Lösung ist, beschäftigt mich auch. Ich frage mich, ob Investoren anfangen, Leute zu unterstützen, die genau diese Richtung mit Belegen vertreten. Warum wird auf nur einem Pfad bestanden (LLM zu AGI)? In einem Markt, der bereits von großen Playern gesättigt ist, sehe ich keinen Sinn darin, noch einmal in ein weiteres LLM-Startup zu investieren. Auch wenn ein LLM irgendwann AGI erreicht, können dennoch schnellere und günstigere Wege dorthin entstehen. Ohne Backup-Plan zu gehen ist ebenfalls riskant. Ich glaube, dass die Technologiekurve (S-Kurve) auch für KI gilt. Freunde mit mathematisch-wissenschaftlichem, quantitativem Hintergrund und ich selbst habe ich Zweifel an der Aussage, dass reine Skalierung die Antwort ist.
      • Ich sehe, dass GPT offenbar bestätigt hat, wie verschiedenste Informationen gelernt und auf verschiedene Aufgaben angewandt werden können. Um es praktisch nützlich zu nutzen, braucht es aber unbedingt zusätzlichen Aufwand, um für jedes Problem eine passende Methode zu entwickeln. Wäre die Frage an GPT „Wie baue ich in einem Jahr mit 1.000 USD auf jeden Fall ein Startup im Wert von 1 Milliarde USD“ mit einer brauchbaren Antwort beantwortbar gewesen, hätte das längst jemand schon getan. Vorläufig wird der Mensch das Endprodukt weiterhin durch harte Arbeit schaffen. Kurzfristig ist es deshalb sinnvoll, das Training auf die Verringerung häufig auftretender Fehler zu fokussieren.
  • Ich sehe, dass sich die Leistung alle 4 bis 7 Monate etwa verdoppelt. Dieser Trend hält an. Diese Geschwindigkeit ist bereits absurd. Mehr zu erwarten, fände ich eher, sich in Over-Hype zu verlieren. Dass 2 bis 3 Mal pro Jahr eine Verdopplung stattfindet, ist kein Stagnationsthema Verwandter Link
  • Tatsächlich ist es ein inkrementelles Upgrade aus Performance-Sicht, aber aus Produktsicht war ein Sprung schon vor sechs Monaten bereits als möglicher GPT-5-Weg diskutiert worden. Ich habe das Gefühl, dass KI-Weiterentwicklung künftig ein Wettkampf um kleine, feine Verbesserungen bleibt.
  • Persönlich bin ich irritiert, dass OpenAI behauptet, Halluzinationen seien deutlich reduziert. Nach meiner Erfahrung halluziniert Claude 4 (Sonnet, Opus) auch bei sehr einfachen oder schwierigen Fragen fast täglich, selbst in ganz simplen Details.
    • Auch in den Vorführungen bei der Ankündigung kam es mehrfach zu Halluzinationen (mit Claude und GPT, sowohl in bezahlten als auch in kostenlosen Versionen). Wer das nicht sieht, erzählt entweder eine Lüge oder ist unfähig. Das Grundproblem von LLMs ist, dass sie durch das Lernen menschlicher Präferenzen auf „stealthy errors“ optimieren. Auch bei niedriger Ausfallquote bin ich bei der Tool-Nutzung mit solchen Modellen extrem vorsichtig. Diese Modelle verlangsamen die Arbeit und machen Debugging sehr schwierig. Das ist ähnlich wie unsichtbare Fehler in Python-Einrückungen. Bei solchen Fehlern hilft oft eine Fehlermeldung zur Ursachenfindung, bei LLM-Stealth-Errors nicht, weshalb das Problem entsteht. Letztlich führt das zu einer Kultur à la „LGTM“ („Looks Good To Me“), die Sachen einfach durchgehen lässt.
    • Schon ein einfaches „Du liegst falsch“ bringt Claude oder ChatGPT dazu, sofort weiter zu halluzinieren und in ihrer eigenen Aussage nicht mehr selbstbewusst zu bleiben, unabhängig davon, ob sie recht haben oder nicht.
    • Simon hat LLMs lange genutzt und dadurch ein Gespür dafür entwickelt, wie man Fragen so formuliert, dass weniger Halluzinationen auftreten.
    • Ich denke, es hängt von der Eingabe ab. Der von mir genutzte Claude 4 halluzinierte extrem oft, und besonders bei der Erzeugung von JSON gab er sehr häufig grammatikalisch fehlerhafte Ergebnisse mit großer Sicherheit aus.
  • „Bist du GPT5?“ „Nein, ich bin 4o, 5 ist noch nicht da.“ „Heute ist es erschienen.“ „Stimmt, ich bin GPT5.“ „Das kostenlose 4o-Limit ist erreicht.“ Dieses Durcheinander aus Realität und Modellwissen habe ich selbst erlebt.
  • OpenAIs aggressive Preisstrategie ist etwas überraschend. Wenn es wirklich keine Wettbewerber gibt, braucht man solche Zahlen nicht. Ich denke, das bedeutet nur, dass der Wettbewerb härter geworden ist.
    • Im App-Markt dominieren sie absolut, aber auf API-Ebene verliert OpenAI offenbar an Anthropic Verwandter Artikel
    • Vielleicht hängt es mit dem Verlust von PRO-Kunden (mich eingeschlossen) zusammen. Ich glaube, das PRO-Modell ist nicht zehnmal so viel wert wie PLUS. Mit neuen Konkurrenten wie z.ai wird die Differenzierung im Service immer schwieriger.
    • Ich empfinde das als etwa 5-prozentige Verbesserung. Das scheint mir eine unausweichliche Entscheidung zu sein, um im Preiswettbewerb mit Gemini 2.5 Pro nicht zu verlieren zu können. Dass Cursor den Standardwert geändert hat, sehe ich ebenfalls als Einfluss.
    • Dass es ein Nano-Modell für 5 Cent gibt, ist eine ziemlich spannende Änderung. Das könnte Google, das zuletzt nur langsam die Preise angehoben hat, dazu bewegen, diese vorerst wieder zu senken.
    • Es kann auch schlicht daran liegen, dass mehr Daten dafür gebraucht werden.
  • Dass API-seitig GPT-5 aus regular, mini und nano besteht und jeweils vier Reasoning-Stufen (minimal, low, medium, high) bietet, hinterlässt bei mir eher den Eindruck, dass es komplexer ist als die frühere GPT-4.1-Konstellation mit nur drei Optionen (regular, mini, nano). Wenn ein einzelnes Mini-Modell bereits vier Stufen von minimal bis high hat, sind das insgesamt 8 Optionen, und jedes Mal ist die Realität, ob ein besseres Prompting oder ein Wechsel von Version bzw. Reasoning-Level sinnvoller ist.
    • In der Praxis gab es bereits Optionen wie o3-mini-high, o3-mini-medium, o3-mini-low, o4-mini-high, o4-mini-medium und o4-mini-low je Reasoning-Level. Der GPT-5-Ansatz wirkt dadurch sogar simpler.
    • Pro Modell n=1,2,3 und Reasoning-Level m=0,1,2,3 macht das Ganze eher strukturiert. Man kann intuitiv sehen, welche Kombination höher ist.
    • Dass es „einfacher“ ist, lese ich so, dass in Chat-Services bzw. chat-optimierten API-Modellen früher ein heuristisches Harness die Auswahl von Modell und Reasoning-Level automatisch über Heuristics übernommen hat; in der API bekommt der Nutzer jetzt ein klares mentales Modell und kann Modelltyp und reasoning effort bewusst wählen. Die Auswahl ist zwar groß, die Wahlmethode aber klarer.
    • Letztlich verlangt die tokenbasierte Preisstruktur von OpenAI, dass viele Varianten ausprobiert werden.
  • Ich wundere mich, warum die direkte Anpassung von Parametern (temperature, top-p) bei Reasoning-Modellen (inklusive GPT-5) weggefallen ist. Bei kleinen Aufgaben ist Konsistenz wichtig, und ohne diese Option ist der Umgang schwierig; in der API ist diese Kontrolle für Nutzer extrem wichtig.
    • Das liegt vermutlich daran, dass alle Sampling-Einstellungen negative Auswirkungen auf Sicherheit und Alignment haben. Deshalb werden nur top_p und top_k zugelassen und tfs, min_p, top_n, sigma usw. ausgeschlossen. Auch die willkürliche Beschränkung von temperature auf 0 bis 2 hat denselben Grund. Ich glaube, Open Source liegt bei Samplern eher vorne. Dass OpenAI genau so viel Leistung herauszuholen schafft, zeigt, wie erstaunlich deren Technik ist.
  • Obwohl es ein Milliarden-Dollar-Unternehmen ist und es reale Einsatzzweige wie Recruiting, Business und Bildung gibt, ist es schade, dass die Fairness nur anhand künstlicher Benchmarks wie BBQ bewertet wird.
  • Dass ein SVG mit einem auf einem Fahrrad sitzenden Pelikan für KI weiterhin schwierig ist, ist sowohl amüsant als auch interessant.
    • Ich frage mich, ob man ein SVG eines solchen Pelikans auf dem Fahrrad direkt in einem Texteditor zeichnen könnte. Für Menschen ist das überhaupt nicht trivial.
  • Anders als zuvor wirkt es, als sei das Modell darin geschult, Tools gut zu nutzen, um Kontext zu sammeln. Im Vergleich zu 4.1 und o3 wurden im ersten Turn Ergebnisse aus sechs Kategorien sofort geladen – eine ziemlich elegante Lösung. Mehr Tool-Aufrufe verbrauchen zwar mehr Tokens, aber durch die aggressive Preisstrategie dürfte das kein großes Problem sein. Mit guter Prompt-Gestaltung lässt sich auch die Tool-Häufigkeit reduzieren Verwandtes Beispiel
  • Simons kompakte und gründliche Rezension hilft wirklich dabei, die realen Ergebnisse zu verstehen.
  • Zur Aussage, dass auch Claude und o3 in den Modellen dieses Jahr deutlich weniger halluzinieren, hat der Autor den entsprechenden Abschnitt im Post klar ergänzt und die eigene Intention ergänzt.