3 Punkte von GN⁺ 2025-08-08 | Noch keine Kommentare. | Auf WhatsApp teilen
  • GPT‑5 ist ein integriertes System, in dem ein Echtzeit-Router je nach Gesprächskontext das Modell wechselt, und bietet in der API drei Modelltypen (Regular, Mini, Nano) mit vier Reasoning-Stufen (Minimal, Low, Medium, High) an.
  • Eingabe und Ausgabe liegen bei 272.000 Token bzw. 128.000 Token, wobei die Eingabe Text und Bilder, die Ausgabe dagegen nur Text unterstützt.
  • Die Preisgestaltung ist aggressiv: Die Kosten pro Eingabe-Token sind gegenüber GPT‑4o halbiert, und bei kurzfristig wiederverwendeten Eingaben gibt es einen 90%-Token-Caching-Rabatt.
  • In der Systemkarte werden Halluzinationsreduktion, bessere Umsetzung von Instruktionen und weniger Schmeichelei sowie ein Training auf Safe‑Completions betont, das auf sichere Antwortbereiche statt auf binäre Ablehnung abzielt.
  • In Sicherheitsfragen wurde die Abwehr von Prompt Injection verbessert, aber bei k=10 Versuchen liegt die Erfolgsrate bei 56,8 %, wodurch ein Restproblem bleibt; in der API lassen sich Reasoning-Zusammenfassung und die Option reasoning_effort=minimal nutzen, um den Fluss von Reasoning-Token zu steuern.

GPT‑5: Hauptmerkmale, Preis und Systemkarten-Analyse

  • Autor Simon Willison hatte zwei Wochen Vorschauzugriff auf GPT‑5 und nutzte es im Alltag; sein Eindruck war, dass es zwar keinen dramatischen Sprung bringt, insgesamt aber sehr leistungsfähig ist, mit seltener Fehlerquote und als konsistentes Standardmodell gut einsetzbar.
  • Dieser Beitrag ist der erste Teil einer Serie und bündelt die Punkte aus Kernmerkmalen, Preis und Systemkarte.

Kerneigenschaften des Modells

  • In ChatGPT vereint GPT‑5 ein schnelles Standardmodell mit einem tiefen Reasoning-Modell und arbeitet als hybride Architektur, wobei ein Echtzeit-Router je nach Gesprächstyp, Schwierigkeit, Tool-Bedarf und expliziter Absicht das passende Modell auswählt.

    Der real-time router wählt anhand von Gesprächstyp, Komplexität, Tool-Bedarf und Absichtssignalen wie „think hard“ das Modell aus; wenn ein Nutzungslimit erschöpft ist, übernimmt je Modell die entsprechende mini-Variante.

  • In der API wurde auf drei Modelle vereinfacht: Regular, Mini, Nano, jedes mit vier Reasoning-Stufen (Minimal, Low, Medium, High).
  • Das Kontext-Limit beträgt 272.000 Token Eingabe und 128.000 Token Ausgabe; sogar unsichtbare Reasoning-Token werden als Ausgabe-Token gezählt.
  • Ein- und Ausgaben sind als Texteingabe mit Bildern und textbasierte Ausgabe eingerichtet; der Knowledge Cutoff liegt bei GPT‑5: 2024‑09‑30, Mini/Nano: 2024‑05‑30.
  • Beim vollen GPT‑5 wurde ein präzises, ruhiges Antwortverhalten wahrgenommen, mit kaum Anstoß, auf ein anderes Modell neu zu versuchen.

Position in der OpenAI-Modellfamilie

  • Laut der Mapping-Tabelle in der Systemkarte übernimmt die bisherige Modellpalette Positionen in der GPT‑5-Familie.
    • GPT‑4o → gpt‑5‑main, GPT‑4o‑mini → gpt‑5‑main‑mini
    • OpenAI o3 → gpt‑5‑thinking, o4‑mini → gpt‑5‑thinking‑mini
    • GPT‑4.1‑nano → gpt‑5‑thinking‑nano, o3 Pro → gpt‑5‑thinking‑pro
  • thinking‑pro wird derzeit in ChatGPT als „GPT‑5 Pro“ angezeigt und ist nur im $200-/Monat-Tier verfügbar; es nutzt parallel test-time compute.
  • Die Funktionsgrenzen bleiben bestehen: Audio-In/Out sowie Bilderzeugung sind weiterhin Zuständigkeit von GPT‑4o Audio/Realtime bzw. GPT Image 1/DALL‑E.

Die Preise sind aggressiv wettbewerbsfähig

  • Die Preisstruktur ist aggressiv.
    • GPT‑5: Eingabe $1.25/Million, Ausgabe $10/Million
    • GPT‑5 Mini: Eingabe $0.25/Million, Ausgabe $2.00/Million
    • GPT‑5 Nano: Eingabe $0.05/Million, Ausgabe $0.40/Million
  • Die Eingabekosten sind im Vergleich zu GPT‑4o halbiert, die Ausgabekosten sind identisch.
  • Reasoning-Token werden über die Ausgabe-Token abgerechnet, daher unterscheiden sich die Gesamtkosten bei gleichem Prompt je nach Reasoning-Stufe.
  • Token-Caching mit 90 % Rabatt wird angeboten, sodass ein hoher Kosteneinsparungseffekt in Chat-UIs mit häufigem Wiedereinspielen des Gesprächskontexts entsteht.
  • In der Konkurrenzvergleichstabelle werden Claude Opus 4.1, Claude Sonnet 4, Grok 4 und Gemini 2.5 Pro mit etwa $2.5~$15/Million Eingabe und $10~$75/Million Ausgabe geführt, was die Kostenführung der GPT‑5-Linie zeigt.
  • Der Versuch, die Tabellen-Sortierung der Preisvergleiche GPT‑5 zu überlassen, führte dazu, dass einige Werte falsch sortiert wurden; nachdem ich die Tabelle mit Python aufgebaut und sortiert hatte, war das Problem behoben.

Weitere Hinweise aus der Systemkarte

  • Die Zusammensetzung der Trainingsdaten umfasst öffentliches Web, Partnerdaten sowie benutzer- und menschlich kuratierte Trainingsdaten; OpenAI beschreibt auf Prinzipienniveau den Einsatz von Datensparsamkeitsfiltern für personenbezogene Daten.
  • Als zentrale Verbesserungsachsen werden Halluzinationsreduktion, Verbesserung der Befehlsausführung und Minderung von Schmeichelei genannt; als drei häufige ChatGPT-Nutzungsfälle werden writing·coding·health genannt, mit gezielter Leistungssteigerung in diesen Bereichen.
  • Safe‑Completions ist ein ausgabeorientiertes Sicherheits-Training, das auf sicheren Antwortbereich statt binärer Ablehnung setzt und bei dual-use-Anfragen mit schwer erkennbarer Nutzerabsicht wie in Biologie·Sicherheit das Risiko detailiert reduziert, während der Nutzwert erhalten bleibt.
  • Bei Sycophancy wurde ein Nachtraining über Bewertungen auf Basis der Produktions-Konversationsverteilung und entsprechende Belohnungssignale durchgeführt, um übermäßiges Zustimmen aus Höflichkeit zu verringern.
  • In der Faktentreue wird neben standardmäßig aktivem Browsing angestrebt, dass bei Antworten ausschließlich auf internem Wissen ohne Tools die Halluzinationsrate sinkt.
  • Zur Täuschungsprävention wurde eine Belohnungsstruktur eingeführt, die bei unmöglichen Aufgaben ein ehrliches „Das ist nicht möglich“ fördern soll; zudem wurden Simulationsbewertungen mit absichtlich deaktiviertem Browsing durchgeführt, um falsche Antworten zu unterdrücken.

Prompt Injection in der Systemkarte

  • Zwei externe Red Teams führten laut Bericht Prompt-Injection-Tests mit Fokus auf systemische Schwachstellen und Connector-Pfade durch.
  • In der Vergleichstabelle wurde für gpt‑5‑thinking bei einem Wert von k=10 eine Angriffs-Erfolgsrate von 56,8 % gemeldet, was zwar niedriger ist als bei Claude 3.7 und mehreren anderen Modellen im 60~90%-Bereich, aber immer noch mehr als die Hälfte erreicht und damit weit von einer vollständigen Lösung entfernt ist.
  • Die Schlussfolgerung lautet: Trotz Modellverbesserungen sollten produktseitige Abwehrmechanismen und Guardrails als zwingende Voraussetzungen der Produktgestaltung gelten.

Thinking traces in the API

  • Zunächst war bekannt, dass keine Reasoning-Traces einsehbar sind, aber über die Responses API lässt sich mit reasoning: { "summary": "auto" } dennoch eine Reasoning-Zusammenfassung abrufen.
  • Ohne diese Option werden bei tiefen Reasoning-Stufen vor der sichtbaren Ausgabe beachtlich viele Reasoning-Token verbraucht, was zu spürbaren Latenzen führen kann; mit reasoning_effort=minimal ist ein schnelleres Streaming-Output möglich.

Und ein paar SVGs von Pelikanen

  • In dem regelmäßigen SVG-Benchmark des Autors mit dem Motiv „ein Fahrrad fahrender Pelikan“ lieferte GPT‑5 (Medium Reasoning als Standard) die besten Ergebnisse: hochwertige Fahrraddetails und gute Formtreue führten zu einer gut lesbaren Vektorgrafik.
  • Bei GPT‑5 Mini waren Farbe und Verlaufsausdruck reichhaltig, es traten jedoch Strukturfehler auf, etwa durch einen Pelikan mit zwei Hälsen.
  • GPT‑5 Nano vereinfachte Fahrrad und Pelikan und lieferte Ergebnisse auf Funktionszusammenfassungsniveau.

Praxis-Punkte für den Einsatz

  • Modellauswahl: Beginnen Sie mit Regular, wechseln Sie bei ausreichender Antwortqualität zu Mini/Nano, und ziehen Sie für komplexe Aufgaben die thinking-Variante mit höheren Reasoning-Stufen in Betracht.
  • Kostenkontrolle: Strategien wie Token-Caching 90 %, reasoning_effort=minimal, kurze Systemprompts und komprimierter Kontext sind wirksam, um Ausgabe-Token und Reasoning-Token zu reduzieren.
  • Sicherheitsdesign: Da Prompt Injection weiterhin riskant ist, sind systemische Gegenmaßnahmen wie Reduktion der Connector-Berechtigungen, Ausgabevalidierung und sichere Antwort-Templates zusätzlich erforderlich.
  • Bereichsanwendung: Für writing·coding·health wurde berichtet, dass Halluzinationen und Schmeichelei spürbar reduziert werden. Daraus folgt die Empfehlung, Standardabläufe wie Browsing plus nachvollziehbare Evidenz für hochkritische Dokumentations-, Code-Review- und Healthcare-QA-Workflows vorzusehen

Noch keine Kommentare.

Noch keine Kommentare.