- Mit der Veröffentlichung von GPT-4.5 hat OpenAI zunächst die System Card des Modells veröffentlicht
- In der ersten System Card stand der Satz "GPT-4.5 is not a frontier model" (GPT-4.5 ist kein Frontier-Modell)
- Später wurde dieser Satz aus dem offiziellen Blogbeitrag und der aktualisierten System Card entfernt
- Offenbar hielt es jemand bei OpenAI für nötig, diesen Satz hineinzuschreiben. Aber „Warum hat OpenAI das überhaupt veröffentlicht?“
- Der zentrale Widerspruch an der Behauptung, es sei kein Frontier-Modell, ist, dass GPT-4.5 das größte Modell ist, das die breite Öffentlichkeit testen kann
- Selbst eine Skalierung auf diese Größenordnung führt nicht zu einem klaren Sprung bei den Fähigkeiten, die wir messen
- Der Übergang von GPT-3.5 → GPT-4 war von okay zu gut
- Die Veränderung von GPT-4o → GPT-4.5 ist von großartig zu wirklich großartig
- Da es sehr schwierig ist, die Unterschiede zwischen den neuesten Modellen zu erkennen, könnten Menschen, die in KI investieren und Fortschritt erwarten, leicht glauben, die Modelle seien besser, als sie tatsächlich sind
- Wir sind an einem Punkt angekommen, an dem die ökonomischen Grenzen der Skalierung ohne den erwarteten großen Leistungssprung klarer werden
- Auch Anthropic hat ein ähnliches Problem und hat nach Claude 3.7 bestätigt, ein deutlich größeres Modell trainieren zu wollen
- GPT-4.5 ist ein Modell, das schrittweise Fortschritte zeigt, anders als frühere disruptive Sprünge
- Es zeigt in der KI-Forschung, dass bloßes Ausweiten des Pretrainings nicht mehr zu Innovationen auf dem bisherigen Niveau führt
- OpenAI hat GPT-4.5 intern offenbar schon lange genutzt und wahrscheinlich zum Trainieren anderer Modelle auf Basis von GPT-4.5 eingesetzt (zu urteilen am Cutoff-Datum 2023)
Was ist gut an GPT-4.5?
- (Dies sind einige Schätzungen zur Parameterzahl von GPT-4.5 und GPT-4o; sie basieren nicht auf Leaks und haben daher eine große Fehlerspanne.)
- GPT-4.5 ist ein sehr großes Modell und möglicherweise größer als Grok 3
- GPT-4 war ein Mixture-of-Experts-(MoE)-Modell mit schätzungsweise mehr als 1 Billion (1T) Gesamtparametern, davon etwa 200B aktive Parameter
- Gerüchten zufolge sind die aktiven Parameter bei Modellen wie GPT-4o oder Gemini Pro auf bis zu 60B geschrumpft
- Das heißt, aktuelle Modelle entwickeln sich vor allem in Richtung weniger aktiver Parameter und optimierter Infrastruktur, um Geschwindigkeit und Kosten zu verbessern
- Es wird geschätzt, dass GPT-4.5 etwa 10-mal mehr Rechenleistung (10X compute) als GPT-4 benötigt
- 5-mal mehr Parameter + 2-mal größerer Datensatz = 10-mal mehr Rechenaufwand
- Die Gesamtzahl der Parameter könnte 5–7 Billionen (5T–7T) erreichen, mit etwa 600B aktiven Parametern
- Dennoch ist der Leistungszuwachs selbst bei dieser Skalierung nur schwer spürbar
- Ab hier wird die Lage ziemlich seltsam. OpenAI hat in dieser Ankündigung zwei Dinge besonders hervorgehoben
- Weniger Halluzinationen: Das Modell erzeugt seltener sachlich falsche Informationen
- Bessere emotionale Intelligenz: Es kann Kontext und Emotionen besser verstehen und ausdrücken
- Allerdings sind beide Eigenschaften objektiv schwer zu bewerten
- Benchmark-Leistung (laut Daten von OpenAI)
- SimpleQA: Bei der Bewertung von Weltwissen von KI-Modellen zeigt GPT-4.5 einen großen Leistungssprung
- PersonQA: Auch bei Fragen zu einzelnen Personen erreicht es Bestwerte
- GPQA (Google-proof QA): Ebenfalls stark bei einem Benchmark, der logisches Schlussfolgern ohne Informationssuche bewertet
- Direkt nach dem Release hieß es unter KI-Experten, GPT-4.5 sei angenehmer zu benutzen und schreibe besser
- Bei Code und technischer Leistung wurde es im Vergleich zu Konkurrenzmodellen wie Claude 3.7 und R1 jedoch eher im Mittelfeld eingeordnet
- Vergleich des Schreibstils (Ergebnis einer X-/Twitter-Umfrage von Karpathy)
- GPT-4.5 vs. GPT-4o-latest: Viele Nutzer bevorzugten den Schreibstil von GPT-4o-latest
- Warum? GPT-4o-latest ist möglicherweise ein aus diesem neuen Modell, das zuvor Orion1 genannt wurde, destilliertes Modell. Es ist zudem viel kleiner, wodurch sich Iterationen drastisch schneller durchführen lassen und das Post-Training vermutlich besser ausfallen kann
- All das ist der Preis, den OpenAI offenbar zahlen muss, um im ChatBotArena-Ranking wieder Platz 1 zu erreichen
- Es wird erwartet, dass GPT-4.5 das schafft, aber das Ergebnis ist noch offen
- Nach dem Vorabtest des Autors gilt: Die Geschwindigkeit war anfangs unangenehm langsam, aber die Zuverlässigkeit ist hoch genug, dass sich die weitere Nutzung lohnt
- Trotzdem muss man nicht extra Geld ausgeben, um GPT-4.5 zu wählen; OpenAIs o1 Pro und andere Bezahlangebote bieten das bessere Preis-Leistungs-Verhältnis
Warum GPT-4.5 so teuer ist
- Schon beim Start von GPT-4 war der Preis ziemlich hoch und lag tatsächlich auf einem ähnlichen Niveau wie bei GPT-4.5
- Die anfänglichen Preise von GPT-4.5 sind wie folgt:
- Input: $75.00 / 1M Tokens
- Cached Input: $37.50 / 1M Tokens
- Output: $150.00 / 1M Tokens
- Damit startete es zu deutlich höheren Preisen als frühere Modelle
- Auch frühere Modelle von OpenAI waren anfangs teuer, wurden später aber teils deutlich im Preis gesenkt
- GPT-4 (März 2023 veröffentlicht)
- Startete zunächst mit $30 pro 1 Million Input-Tokens und $60 pro 1 Million Output-Tokens
- Die 32K-Kontextversion war teurer mit $60 Input und $120 Output
- GPT-4 Turbo (November 2023 veröffentlicht)
- Wurde deutlich günstiger, auf $10 Input und $30 Output
- GPT-4o (Mai 2024 veröffentlicht)
- Der Preis sank weiter auf $2.5 Input und $10 Output, also mehr als 10-mal günstiger als GPT-4
- Daran zeigt sich ein Muster: OpenAI senkt die Preise bei neuen Modellen jeweils deutlich
- Dass GPT-4.5 aktuell so teuer angesetzt ist, liegt offenbar daran, dass zum Start eine hohe Marge einkalkuliert wurde
- OpenAI sagt selbst, dass nicht garantiert ist, dass das Modell dauerhaft in der API bleibt, und dass die Entscheidung von der Nutzerreaktion abhängen wird
- Viele Experten erwarten, dass mit Nvidias nächster GPU-Generation Blackwell größere Modelle effizienter betrieben werden können und die Kosten dadurch sinken
- So wie die Preise von GPT-4 zu GPT-4 Turbo und dann GPT-4o gefallen sind, ist es gut möglich, dass auch GPT-4.5 später mit einer Version wie GPT-4.5 Turbo günstiger wird
Die Zukunft der Skalierung
- Die Skalierung von Sprachmodellen ist noch nicht tot
- Aber zurückzublicken, warum sich diese Ankündigung so seltsam angefühlt hat, ist wichtig, um im Tempo der KI-Entwicklung einen kühlen Kopf zu bewahren
- Wir sind in ein Zeitalter eingetreten, in dem verschiedene Arten der Skalierung jeweils eigene Vor- und Nachteile haben
- Kurz gesagt: „GPT-4.5 ist seltsam, aber seiner Zeit voraus“
- GPT-4.5 ist nicht einfach nur ein größer skaliertes Modell, sondern ein Signal dafür, dass neue Formen der Skalierung nötig sind
- Das bedeutet, dass die Weiterentwicklung von KI nicht allein durch bloßes Vergrößern von Modellen erreicht werden kann, sondern andere Wege braucht — was wir durch die schnelle Entwicklung von Reasoning-Modellen ohnehin schon gesehen haben
- Die eigentliche Wirkung von GPT-4.5 wird sich zeigen, wenn es mit mehreren schnell voranschreitenden Entwicklungslinien zusammengeführt wird
- In DeepSeeks R1-Paper und nachfolgenden RL-Studien lautet das Fazit, dass RL-Training bei größeren Modellen effektiver ist
- Auch OpenAIs o4-Modell könnte mit einem auf GPT-4.5 basierenden Reasoning-Modell trainiert worden sein
- OpenAIs heutige Modelle wären ohne GPT-4.5 vermutlich nicht annähernd so gut
- Möglicherweise werden innerhalb eines Jahres die meisten Modelle die Größenordnung von GPT-4.5 erreichen — bei deutlich höherer Geschwindigkeit
- Solche ausgewogeneren Verbesserungen werden mehr Anwendungen robuster machen
- Andere Forschende bei OpenAI und in KI-Labs versuchen derzeit, Modelle über die Grenzen der bestehenden Infrastruktur hinaus zu skalieren
- Wenn ein Frontier-Lab nicht versucht, die Grenzen aller Skalierungsrichtungen zu überschreiten, geht es nicht genug Risiko ein
- Das Modell muss nicht unbedingt veröffentlicht werden, aber es lohnt sich zu spekulieren, warum OpenAI diesen Schritt tatsächlich gehen wollte
- Da GPT-4.5 wahrscheinlich schon in anderen internen Systemen und bald auch in weiteren externen Produkten eingesetzt wird, ist diese Veröffentlichung kein Umweg, sondern ein natürlicher Schritt zur nächsten Phase
- GPT-4.5 ist zwar ein Frontier-Modell, aber seine Veröffentlichung ist nicht gerade aufregend
- Fortschritte in der KI gibt es nicht umsonst; sie erfordern viel Aufwand
- Nicht GPT-4.5 selbst ist das Entscheidende, sondern der eigentliche Wert dieses Modells wird sichtbar, wenn es mit anderen Technologien kombiniert wird
2 Kommentare
Da bereits viele Benchmarks gesättigt sind, scheint es nur natürlich zu sein, sich auf Nutzbarkeit oder Halluzinationen zu konzentrieren.
Hacker-News-Kommentare
Auch GPT-4.5 hat einen Knowledge-Cutoff bis Oktober 2023
OpenAIs Reasoning-Modelle sind möglicherweise nicht so leistungsstark wie erwartet
Der Preis ist etwas rätselhaft
Der Sprung von GPT-4o zu 4.5 ist kein großer Sprung
GPT-4.5 kann komplexe und nuancierte Gedanken sehr schnell verarbeiten
GPT-4.5 driftet nicht in seltsame Richtungen ab und bleibt in der Realität verankert
Langfristig könnte es schwierig sein, die Infrastruktur zu monetarisieren
GPT-4.5 ist bei „kreativem Schreiben“ etwas besser
Es scheint, als ob die Technologie an ihre Grenzen stößt
Es gibt die Ansicht, dass zwei Aussagen nicht widersprüchlich sind
Es ist fraglich, ob überhaupt jemand das letzte Prozent in Benchmarks tatsächlich wahrnimmt
Alle GPT4o-Modelle auf Azure sollen im Mai eingestellt werden