GPT-5 vorgestellt
(openai.com)- GPT-5 bietet in allen Bereichen – darunter Coding, Mathematik, Schreiben, Gesundheit und visuelle Erkennung – eine Leistung, die bisherige Modelle übertrifft, und stellt ein integriertes System bereit, das schnelle Antworten und tiefes Reasoning situationsgerecht kombiniert
- „GPT-5 Thinking“ wendet bei komplexen Problemen längeres Reasoning an, um die Genauigkeit zu erhöhen; Nutzer des Pro-Tarifs können mit dem erweiterten GPT-5 Pro Leistung auf höchstem Niveau nutzen
- Im praktischen Einsatz wurde die Quote von Halluzinationen (Erzeugung falscher Fakten) deutlich gesenkt, außerdem wurden Fähigkeiten beim multimodalen Verständnis, bei der Befolgung von Anweisungen und bei komplexen, werkzeuggestützten Aufgaben verbessert
- Die Unterstützung für Entwickler wurde etwa bei der Erstellung von Frontend-UIs und beim Debugging großer Codebasen ausgebaut; im Gesundheitsbereich erzielt das Modell den Höchstwert auf HealthBench und übernimmt die Rolle eines aktiven Gesundheitspartners
- Im Bereich Sicherheit wurde ein Training für „safe completion“ eingeführt, das unnötige Verweigerungen reduziert, und für Bio- und Chemie-Themen gibt es ein hochentwickeltes System mit mehreren Verteidigungsebenen
GPT-5 Überblick
Integriertes System
- Innerhalb eines Systems sind ein smartes, effizientes Modell, ein tief schlussfolgerndes Modell (GPT-5 Thinking) sowie ein Echtzeit-Router enthalten, der je nach Situation, Komplexität, Werkzeugbedarf und Nutzerabsicht auswählt
- Wird das Nutzungslimit überschritten, bearbeiten die „mini“-Versionen der jeweiligen Modelle die verbleibenden Anfragen
- Künftig sollen diese Funktionen in einem einzigen Modell zusammengeführt werden
Verbesserte Leistung und Nutzbarkeit
- In Benchmarks insgesamt deutlich bessere Leistung als GPT-4o
- Weniger Halluzinationen, bessere Befolgung von Anweisungen, minimierte einschmeichelnde Antworten (Sykophanz)
- Verbesserungen in drei Kernbereichen
- Coding: Ausgebaut bei komplexer Frontend-Erzeugung, Debugging großer Repositories und der Generierung von UI/UX mit ästhetischem Gespür
- Schreiben: Kann strukturelle Mehrdeutigkeit verarbeiten und Formulierungen mit literarischer Tiefe und Rhythmus erzeugen; stärkere Unterstützung beim Schreiben und Bearbeiten alltäglicher Dokumente
- Gesundheit: Bestwert auf HealthBench, liefert sichere und präzise Antworten abgestimmt auf Situation, Wissensstand und Region
Bewertungsergebnisse
- Mathematik 94.6% (AIME 2025), Coding SWE-bench Verified 74.9%, Multimodal MMMU 84.2%, Gesundheit HealthBench Hard 46.2% und damit SOTA erreicht
- Bei GPQA erzielt GPT-5 Pro mit 88.4% den Bestwert
- Fähigkeiten bei multimodalen Aufgaben, Tool-Nutzung und mehrstufiger Aufgabenbearbeitung wurden deutlich verbessert
Effizientes Reasoning
- Bei gleicher Leistung 50~80% weniger Tokenverbrauch
- Bei komplexen und sehr schwierigen Aufgaben senkt GPT-5 Thinking Fehler- und Halluzinationsrate im Vergleich zu o3 deutlich
Stärkere Zuverlässigkeit und Faktentreue
- In offenen Faktizitätstests sechsmal geringere Halluzinationsrate
- Erklärt Grenzen klar, wenn Aufgaben unmöglich sind oder Informationen fehlen
- Sykophanz-Quote von 14.5% auf unter 6% gesenkt
Verbesserte Sicherheit
- Durch Training mit „safe completion“ werden auch bei potenziell riskanten Anfragen sichere und hilfreiche Antworten bereitgestellt
- Für Hochrisikoszenarien in Biologie und Chemie wird ein mehrschichtiges Abwehrsystem eingesetzt
GPT-5 Pro
- Ein Modell mit erweitertem Reasoning für Aufgaben mit höchstem Schwierigkeitsgrad
- In Expertenbewertungen gegenüber GPT-5 Thinking zu 67.8% bevorzugt, wesentliche Fehler um 22% reduziert
- Höchstleistung in Gesundheit, Wissenschaft, Mathematik und Coding
Nutzung und Zugriff
- GPT-5 wird als Standardmodell in ChatGPT eingesetzt und ersetzt frühere Modelle (GPT-4o, o3 usw.)
- Mit der Eingabe „think hard about this“ kann der Reasoning-Modus erzwungen werden
- Schrittweise Bereitstellung für Plus, Pro, Team und Free, Enterprise und Edu folgen eine Woche später
- Kostenlose Nutzer werden bei Überschreitung des Limits auf GPT-5 mini umgestellt
Wichtige Punkte zu GPT-5 für Entwickler
Leistung und Merkmale
-
Coding-Leistung:
- SWE-bench Verified 74.9% (o3: 69.1%), 22% weniger Tokenverbrauch, 45% weniger Tool-Aufrufe
- Aider polyglot 88%, Fehlerquote bei Code-Änderungen auf ein Drittel reduziert
- Bei der Erzeugung von Frontend-Code gegenüber o3 zu 70% bevorzugt
-
Agentenaufgaben:
- τ 2-bench telecom 96.7%, höhere Stabilität bei mehreren Tool-Aufrufen und parallelen Aufrufen
- Kann Preamble-Nachrichten ausgeben, die Fortschritt und Plan für den Nutzer sichtbar machen
-
Langer Kontext:
- OpenAI-MRCR(2 needle 128k) 95.2%, BrowseComp Long Context(256k) 88.8%
- Verarbeitet bis zu 400.000 Token Kontext
Neue API-Funktionen
reasoning_effort: steuert die Reasoning-Zeit im Bereichminimal~highverbosity: setzt die Standardlänge der Antwort vonlow~high- Custom Tools: können statt JSON mit Plaintext aufgerufen werden, mit Unterstützung für Regex-/Grammatik-Beschränkungen
- Integrierte Standard-Tools wie parallele Tool-Aufrufe, Websuche, Dateisuche und Bilderzeugung
- Kostenreduzierende Funktionen wie Prompt Caching und Batch API werden unterstützt
Stabilität und Zuverlässigkeit
- In den Benchmarks LongFact und FactScore ist die Halluzinationsrate gegenüber o3 um ~80% gesunken
- Besseres Bewusstsein für eigene Grenzen und stärker im Umgang mit unerwarteten Situationen
- Geeignet für Hochrisiko- und präzisionskritische Aufgaben (Code, Daten, Entscheidungsfindung)
Availability & pricing
Verfügbare Größen und Endpunkte
- Verfügbare Größen:
gpt-5,gpt-5-mini,gpt-5-nano - Unterstützte Schnittstellen: Responses API, Chat Completions API und als Standard in Codex CLI
- Modelleigenschaft: Die GPT‑5-Familie in der API sind Reasoning-Modelle, während das Non‑Reasoning-Modell von ChatGPT unter einer separaten ID bereitgestellt wird
Preistabelle und Abrechnungseinheiten
gpt-5: Eingabe $1.25/Million Token, Ausgabe $10/Million Tokengpt-5-mini: Eingabe $0.25/Million, Ausgabe $2/Milliongpt-5-nano: Eingabe $0.05/Million, Ausgabe $0.40/Milliongpt-5-chat-latest(ohne Reasoning): Eingabe $1.25/Million, Ausgabe $10/Million und damit identisch zugpt-5
Zusammenfassung der unterstützten Funktionen
- Reasoning-Steuerung: Mit
reasoning_effortaufminimal,low,mediumoderhighlässt sich der Trade-off zwischen Geschwindigkeit und Genauigkeit steuern - Antwortlänge: Über
verbositylässt sich die Grundtendenz auf kurz/standard/lang setzen - Tooling: Custom Tools unterstützen Plaintext-Argumente und können mit Regex-/CFG-Beschränkungen versehen werden
- Ausführungsfunktionen: Unterstützt parallele Tool-Aufrufe, integrierte Tools (Web Search, File Search, Image Generation usw.), Streaming und Structured Outputs
- Kostenoptimierung: Prompt Caching und Batch API senken Token- und Latenzkosten
- Bereitstellungskanäle: GPT‑5 wird in Microsoft 365 Copilot, Copilot, GitHub Copilot und Azure AI Foundry eingesetzt
Einfaches Kostenbeispiel
- Bei
gpt-5ergeben 50k Eingabe- + 5k Ausgabe-Token Gesamtkosten von ≈ $0.1125- Rechenweg: Eingabe 0.05M × $1.25 = $0.0625, Ausgabe 0.005M × $10 = $0.05, Summe $0.1125
- Für dieselbe Aufgabe mit
gpt-5-miniergeben sich Gesamtkosten von ≈ $0.0175- 0.05M Eingabe × $0.25 = $0.0125, 0.005M Ausgabe × $2 = $0.01, korrekt wäre insgesamt $0.0225; unter Berücksichtigung des Ausgabepreises ist der Unterschied bei eingabelastigen Workloads noch größer
- Für Pipelines mit viel generativer Ausgabe in großem Umfang lohnt sich eher ein Modell mit niedrigerem Ausgabepreis
Hinweise zur Auswahl
- Wenn Genauigkeit oberste Priorität hat und ein Backend-Agent komplexe Tool-Ketten benötigt, ist
gpt-5eine Überlegung wert - Für alltägliches Code-Editing, leichtgewichtige Agenten und große Batch-Verarbeitung bietet
gpt-5-miniein gutes Gleichgewicht aus Kosten und Qualität - Für ultraniedrige Latenz und ultraniedrige Kosten bei Vorverarbeitung, Regelprüfung und einfachen Zusammenfassungen eignet sich
gpt-5-nano
Hinweis
- Wenn Sie das standardmäßige Non‑Reasoning-Modell von ChatGPT unverändert verwenden möchten, wählen Sie in der API
gpt-5-chat-latest - Für die Antwortlänge gilt: Explizite Anweisungen haben Vorrang; auch unabhängig von
verbosityfolgt das Modell konkreten Längenvorgaben wie etwa „Essay in 5 Absätzen“
5 Kommentare
Ich persönlich finde, dass
claude-codebeim Refactoring besser ist.Wenn ich mit cursor + GPT5 Refactoring-Aufgaben wie das Entfernen unnötiger Methoden erledigen ließ, hat
claude-codesie zuverlässig erkannt und gelöscht, während ich bei GPT5 den Eindruck hatte, dass es das gesamte Projekt nicht richtig erfasst.Man merkt deutlich, dass die Nutzbarkeit sprunghaft gestiegen ist, aber die Reaktion, es sei dem AGI, um das so viel Aufhebens gemacht wurde, wirklich näher gekommen, war erwartungsgemäß auch wieder übertrieben.
Wenn man nur den Coding-Bereich (SWE-bench) betrachtet, sind es 74,9 % (thinking) bzw. 52,8 % (without thinking); bei Claude waren es 74,5 % (Opus 4.1), 72,5 % (Opus 4.0) und 62,3 % (Sonnet 3.7).
Ohne Thinking-Modus ist es schlechter als Sonnet, und selbst mit ihm nur ganz leicht besser als Opus 4.1.
Offizielles Ankündigungsvideo von OpenAI (1 Stunde 17 Minuten) https://www.youtube.com/watch?v=0Uu_VJeVVfo
Hacker-News-Kommentare
Viele haben behauptet, dass eines der AI-Unternehmen, sobald es die Schwelle zu AGI (Artificial General Intelligence) überschreitet, allein davonziehen würde. Interessant ist aber, dass sich die Leistung aller Modelle in Wirklichkeit immer stärker angleicht. Derzeit liefern GPT-5, Claude Opus, Grok 4 und Gemini 2.5 Pro insgesamt alle gute Leistungen, und aus Nutzersicht wirkt der Wettbewerb härter denn je. Ich bin gespannt, ob die Dienste der AI-Konkurrenten in Zukunft noch ähnlicher werden oder ob sie sich stärker differenzieren werden.
Bemerkenswert ist, dass es ab einer gewissen Schwelle für Nutzer schwierig werden könnte zu unterscheiden, welches Modell besser ist. So wie ein Schachspieler mit ELO 1000 vermutlich nicht leicht erkennen kann, ob Magnus Carlsen oder ein anderer Großmeister stärker ist, wenn er gegen beide spielt, könnte dieser Clustering-Effekt in menschlichen Bewertungen letztlich eine Täuschung sein.
Der Grund, warum AGI als Singularität betrachtet wird, ist die Annahme, dass es sich selbst weiterlernen kann. Davon sind wir derzeit aber noch sehr weit entfernt, und ich persönlich glaube fast nicht, dass ich AGI noch zu meinen Lebzeiten sehen werde. Die Distanz zwischen Mainframes der 1970er und heutigen LLMs erscheint mir ungefähr so groß wie die heutige Distanz zu AGI.
Ich halte es für gut möglich, dass es grundsätzlich unmöglich ist, mit probabilistischen Textvorhersagemodellen höhere Formen von Intelligenz zu simulieren. Auch befreundete AI-Forscher sorgen sich wegen abnehmender Erträge pro zusätzlichem Trainingsdatum nicht besonders über LLM-basierte AGI. Menschliche Intelligenz kann mit wenigen Beispielen hervorragend generalisieren, während LLMs meist Lösungen reproduzieren, die in den Trainingsdaten häufig vorkamen. Aber auch ohne AGI wird es einen Punkt geben, an dem heutige AI/ML/SL-Technik die Welt verändert, besonders in Bereichen wie Suche, in denen die Reproduktion breiten Wissens wichtig ist.
Früher war ich bei AI pessimistisch, aber inzwischen bin ich zu etwa 70 % erleichtert, dass das aktuelle Technologieparadigma wohl nicht in kurzer Zeit zum Untergang durch AI führen wird. Dass die heutige AI vor allem darauf spezialisiert ist, „uns nachzuahmen“ und den durchschnittlichen menschlichen Output nicht zu übertreffen, ist im Moment eher ein Segen. Trotzdem finde ich, dass die grundsätzlichen Argumente der „AI-Doomer“ nachvollziehbar sind und die Bedrohung ernst genommen werden sollte.
Ich kann der Behauptung nicht zustimmen, dass man AGI näherkommt, wenn man einfach eine komplexere Enzyklopädie baut und ihr über ein interessantes Suchinterface einen menschenähnlichen Eindruck verleiht. Woher allgemeine Intelligenz (GI) eigentlich kommt, versteht niemand wirklich und dafür gibt es keine Belege. Das wirkt eher wie unbegründete Übertreibung und Investor-Pitch-Geschwätz, und ich halte Leute, die AGI als realistisch umsetzbar vermarkten, für Scharlatane. Es überrascht mich, wie viele Ingenieure in der Branche diese Logik vollständig übernommen haben, und ich zweifle an der geistigen Gesundheit der Branche.
Wissens-Cutoff von GPT-5: 30. September 2024 (etwa 10 Monate vor Veröffentlichung), Gemini 2.5 Pro: Januar 2025 (vor 3 Monaten), Claude Opus 4.1: März 2025 (vor 4 Monaten). Relevante Links: OpenAI Modellvergleich, DeepMind Gemini Pro, Anthropic Claude Modellüberblick
Jetzt, wo Websuche möglich ist, frage ich mich, ob der Wissens-Cutoff überhaupt noch viel Bedeutung hat. Vielleicht ist er eher ein Indikator dafür, wie lange das Post-Training gedauert hat.
Gemini versucht bei fast allen Queries, die Informationslücke nach dem Wissens-Cutoff mit einer kurzen Websuche zu schließen.
GPT-5 nano und mini haben einen früheren Cutoff, nämlich den 30. Mai 2024.
Da das Modell Websuche nutzen kann, ist der Wissens-Cutoff selbst wohl nicht besonders wichtig.
Es könnte eher bedeuten, dass OpenAI bei der Sicherheit keinerlei Abkürzungen zulässt.
Laut der GPT-5 System Card ist GPT-5 ein integriertes System aus mehreren Modellen (für schnelle Antworten, für tiefes Reasoning) und einem Router. Während des Chats wählt der Router je nach Prompt wie „Denk da mal ernsthaft drüber nach“ das Modell aus. Nach außen wirkt es wie ein einziges System, tatsächlich ist es aber eine Struktur aus mehreren Submodellen. Vermutlich hat man sich dafür entschieden, weil das Training eines einzigen riesigen End-to-End-Modells zu teuer geworden ist.
Das mag ein semantischer Unterschied sein, aber wenn die Komponenten automatisch zusammenarbeiten und der Nutzer nur eine einzige Oberfläche verwendet, kann man es durchaus ein „integriertes System“ nennen. Ein „integriertes Modell“ ist es natürlich nicht.
Das bestätigt erneut eine entsprechende Theorie zur „bitter lesson“: Innerhalb eines bestimmten Budgets liefern manuell entworfene spezialisierte Systeme deutlich bessere Leistung als ein riesiges Allzwecksystem.
Laut GPT-5 für Entwickler ist GPT-5 in ChatGPT ein System aus mehreren Modellen (Reasoning, Nicht-Reasoning, Router usw.). Das GPT-5 in der API wird dagegen nur als einzelnes Reasoning-Modell mit maximaler Leistung angeboten. Einige der Nicht-Reasoning-Modelle aus ChatGPT werden als
gpt-5-chat-latestbereitgestellt und sind auf Entwickler zugeschnitten.Falls die Kombination vieler kleiner spezialisierter Modelle tatsächlich die richtige Richtung ist, dann ist diese Strategie sinnvoll.
Vielleicht liegt es nicht an den Kosten, sondern daran, dass die verfügbaren Trainingsdaten erschöpft sind und effektives Lernen schwierig geworden ist, oder dass neue Daten durch AI-generierte Inhalte kontaminiert sind und deshalb nicht mehr taugen.
Es gab auch große Benchmark-Fehler, und die Demos waren nicht so beeindruckend wie erwartet, was sogar die Wettmärkte dafür verändert hat, wer Ende des Jahres die beste AI haben wird. Ich erwarte eher Gemini 3.0 oder ein neues Google-Modell, und im LLM-Wettbewerb könnte die Seite im Vorteil sein, die „zuletzt erscheint“.
Ich habe Aufgaben, an denen Opus 4.1 gescheitert ist, direkt mit GPT-5 ausprobiert, und es hat sie nicht nur geschafft, sondern sogar die Fehler korrigiert, die Opus gemacht hatte. Da merkt man: Das ist echt etwas Besonderes.
Ich will nicht in einer Welt leben, in der ein Monopolunternehmen mit bereits Billionen an Marktkapitalisierung am Ende alles besitzt.
In realen Tests wirkt es wie ein sehr starkes Modell. Besonders auffällig ist, dass es bei Antworten viel aktiver als 4.1 oder o3 versucht, Tools maximal auszunutzen. In der ersten Antwort hat es zum Beispiel gleich 6 Tool-Aufrufe nur zur Informationsbeschaffung gemacht. Beispiel: Beispiel für Tool-Nutzung
Die Marketingbotschaften und die Logik im Livestream waren ziemlich selbstreferenziell, nach dem Muster „es ist besser, weil es besser ist“. Es fehlt weiterhin eine klare Begründung, warum GPT-5 wirklich ein Major-Upgrade sein soll. Wie immer wird letztlich der Gesamteindruck der Resultate, der „Vibe Check“, darüber entscheiden, wie vertrauenswürdig das Modell wirkt.
In den letzten 6 Monaten wurden populäre JS-Bibliotheken in die neuesten Trainingssets aufgenommen, und nun heißt es, das Modell sei „stärker im Coding“. Ich frage mich, ob dieser Ansatz nachhaltig ist.
Es gab viel Promotion, aber wenig echte Daten oder Benchmarks, daher warte ich lieber auf kurze Eindrücke von praxisnahen Nutzern wie simonw.
Ich habe auch anspruchsvolle Dinge wie komplexes Code-Refactoring bis an die Grenzen von LLMs ausprobiert, aber im Vergleich zu früheren Modellen konnte ich keine grundlegende Qualitätsverbesserung erkennen. Im Moment scheint die Qualitätssteigerung an eine Grenze gestoßen zu sein, an den abflachenden Bereich der S-Kurve. Es ist sinnvoll, dieselbe Qualität günstiger anzubieten, aber im alltäglichen Einsatz ist der Qualitätsunterschied kaum spürbar.
Auf der GPT-5-Einführungsseite sind verschiedene Benchmark-Ergebnisse enthalten (AIME 2025, SWE-bench usw.). Wirklich bahnbrechend wirken sie nicht.
Es fühlt sich an, als wären wir jetzt in der Phase angekommen, in der man das neueste Modell haben will, einfach weil es das neueste ist, wie bei Smartphones.
Gemessen am Livestream sind die Benchmark-Verbesserungen gegenüber den bestehenden Modellen sehr gering. Ich verstehe, warum man schon vor dem Release versucht hat, die Erwartungen zu senken, aber in Wirklichkeit ist die Verbesserung noch deutlich kleiner als erwartet.
Vor dem Release hatte Sam Altman mit einem Death-Star-Bild getwittert und damit Erwartungen geweckt.
Die großen AI-Tech-Konzerne konkurrieren inzwischen in sehr ähnlichen Bereichen und differenzieren sich kaum noch. OpenAI wird sich wohl eher auf Kostenoptimierung und alltägliche bzw. Business-Assistenz konzentrieren als auf superintelligente Systeme. Anthropic und Google haben beim Wachstum womöglich mehr Spielraum und können stärker in höhere Intelligenz investieren. Daher könnten am Ende etwa in der o-Serie noch intelligentere Modelle erscheinen, aber letztlich setzen Umsatz und Marktrealität Grenzen.
GPT-5 liegt in der WebDev Arena auf Platz 1, 75 Punkte vor Gemini 2.5 Pro und 100 Punkte vor Claude Opus 4. Siehe: lmarena.ai Leaderboard
Die Code-Demos wurden größtenteils mit Cursor-basiertem GPT-5 MAX gezeigt, und die meisten Nutzer werden diesen MAX-Modus nicht oft verwenden können. Es wäre besser gewesen, wenn man auch mit der Standardversion demonstriert hätte.
Ich erinnere mich daran, dass Sam vor 2 Jahren sagte, man wolle statt schockierender Einmalankündigungen lieber schrittweise Fortschritte machen. Es ist jetzt erst Tag 1, also gibt es in den kommenden Monaten vielleicht noch 10–20 % Spielraum für zusätzliche Optimierungen.
Ich bin verwirrt darüber, was bei diesen Präsentationsfolien überhaupt die y-Achse sein soll. Kontroverse um die Grafik
Im Demo-Beispiel von ChatGPT5 wurde die Funktionsweise eines Flugzeugflügels (Airfoil) falsch erklärt: Es hieß, die Luft oben müsse einen längeren Weg zurücklegen, werde deshalb schneller und der Druck sinke, während die Luft unten langsamer sei und dadurch höherer Druck entstehe, was Auftrieb erzeuge. Tatsächlich gibt es aber keine physikalische Grundlage dafür, dass die Luft oben und unten gleichzeitig ankommen muss. Verwandter Artikel: University of Cambridge. Schon in der ersten Demo so eine fehlerhafte Erklärung zu verwenden, war seltsam.
Das ist völlig falsch. Wenn diese Erklärung stimmen würde, dürfte ein Airfoil in Form einer flachen Platte keinen Auftrieb erzeugen, was in der Realität nicht der Fall ist. Ich sage das aus eigener Erfahrung mit einer Promotion im Flugzeugentwurf.
Das ist ein sehr bekannter Irrtum, die sogenannte „equals transit time fallacy“, daher kennt man diesen Fehler auch ohne Luftfahrtexperte zu sein.
Die Formulierung „PhD-level“ wirkt seltsam. Ein echter Doktorand oder eine echte Doktorandin sollte über bestehendes Wissen hinaus neue Wissenschaft hervorbringen. Ich habe bisher nicht gesehen, dass ein LLM selbstständig neue Wissenschaft erzeugt hätte. Im Kern sind LLMs nur ausgezeichnete Wort-Parser.
Auch die NASA betreibt eine eigene Erklärseite zu dieser falschen Erklärung.
Bartosz erklärt dieses Thema am besten.
GPT-5 hat ein Kontextfenster von 400.000, maximal 128.000 Output-Token, Input kostet $1.25, Output $10.00, offizielle Dokumentation. Wenn diese Leistung beim Needle-in-a-Haystack-Problem wirklich stark ist, wäre das gegenüber Gemini 2.5 Pro und Claude Opus 4.1 äußerst wettbewerbsfähig. Und wenn auch die mini-/nano-Versionen ordentlich funktionieren, wäre das eher ein enormer Sprung.
gpt-5hat einen Cutoff vom 1. Oktober 2024, während mini/nano den 31. Mai 2024 haben. Die frühere 4.1-Produktfamilie unterstützte 1M/32k Token. Die Preisstruktur ist so, dass Input-Token 37 % günstiger und Output-Token 25 % teurer geworden sind. Nur beim nano-Produkt ist der Input 50 % günstiger, während der Output-Preis gleich bleibt.Wer die API nutzen will, sollte auch die Kosten für die Identitätsverifizierung berücksichtigen, also Zeit, Verfahren usw.