GPT-4.5: „Kein Frontier-Modell“?

(interconnects.ai)

2 Punkte von GN⁺ 2025-03-03 | 2 Kommentare | Auf WhatsApp teilen

Mit der Veröffentlichung von GPT-4.5 hat OpenAI zunächst die System Card des Modells veröffentlicht
In der ersten System Card stand der Satz "GPT-4.5 is not a frontier model" (GPT-4.5 ist kein Frontier-Modell)
- Später wurde dieser Satz aus dem offiziellen Blogbeitrag und der aktualisierten System Card entfernt
Offenbar hielt es jemand bei OpenAI für nötig, diesen Satz hineinzuschreiben. Aber „Warum hat OpenAI das überhaupt veröffentlicht?“
Der zentrale Widerspruch an der Behauptung, es sei kein Frontier-Modell, ist, dass GPT-4.5 das größte Modell ist, das die breite Öffentlichkeit testen kann
- Selbst eine Skalierung auf diese Größenordnung führt nicht zu einem klaren Sprung bei den Fähigkeiten, die wir messen
- Der Übergang von GPT-3.5 → GPT-4 war von okay zu gut
- Die Veränderung von GPT-4o → GPT-4.5 ist von großartig zu wirklich großartig
Da es sehr schwierig ist, die Unterschiede zwischen den neuesten Modellen zu erkennen, könnten Menschen, die in KI investieren und Fortschritt erwarten, leicht glauben, die Modelle seien besser, als sie tatsächlich sind
Wir sind an einem Punkt angekommen, an dem die ökonomischen Grenzen der Skalierung ohne den erwarteten großen Leistungssprung klarer werden
- Auch Anthropic hat ein ähnliches Problem und hat nach Claude 3.7 bestätigt, ein deutlich größeres Modell trainieren zu wollen
GPT-4.5 ist ein Modell, das schrittweise Fortschritte zeigt, anders als frühere disruptive Sprünge
- Es zeigt in der KI-Forschung, dass bloßes Ausweiten des Pretrainings nicht mehr zu Innovationen auf dem bisherigen Niveau führt
- OpenAI hat GPT-4.5 intern offenbar schon lange genutzt und wahrscheinlich zum Trainieren anderer Modelle auf Basis von GPT-4.5 eingesetzt (zu urteilen am Cutoff-Datum 2023)

Was ist gut an GPT-4.5?

(Dies sind einige Schätzungen zur Parameterzahl von GPT-4.5 und GPT-4o; sie basieren nicht auf Leaks und haben daher eine große Fehlerspanne.)
GPT-4.5 ist ein sehr großes Modell und möglicherweise größer als Grok 3
- GPT-4 war ein Mixture-of-Experts-(MoE)-Modell mit schätzungsweise mehr als 1 Billion (1T) Gesamtparametern, davon etwa 200B aktive Parameter
- Gerüchten zufolge sind die aktiven Parameter bei Modellen wie GPT-4o oder Gemini Pro auf bis zu 60B geschrumpft
- Das heißt, aktuelle Modelle entwickeln sich vor allem in Richtung weniger aktiver Parameter und optimierter Infrastruktur, um Geschwindigkeit und Kosten zu verbessern
Es wird geschätzt, dass GPT-4.5 etwa 10-mal mehr Rechenleistung (10X compute) als GPT-4 benötigt
- 5-mal mehr Parameter + 2-mal größerer Datensatz = 10-mal mehr Rechenaufwand
- Die Gesamtzahl der Parameter könnte 5–7 Billionen (5T–7T) erreichen, mit etwa 600B aktiven Parametern
Dennoch ist der Leistungszuwachs selbst bei dieser Skalierung nur schwer spürbar
Ab hier wird die Lage ziemlich seltsam. OpenAI hat in dieser Ankündigung zwei Dinge besonders hervorgehoben
- Weniger Halluzinationen: Das Modell erzeugt seltener sachlich falsche Informationen
- Bessere emotionale Intelligenz: Es kann Kontext und Emotionen besser verstehen und ausdrücken
- Allerdings sind beide Eigenschaften objektiv schwer zu bewerten
Benchmark-Leistung (laut Daten von OpenAI)
- SimpleQA: Bei der Bewertung von Weltwissen von KI-Modellen zeigt GPT-4.5 einen großen Leistungssprung
- PersonQA: Auch bei Fragen zu einzelnen Personen erreicht es Bestwerte
- GPQA (Google-proof QA): Ebenfalls stark bei einem Benchmark, der logisches Schlussfolgern ohne Informationssuche bewertet
Direkt nach dem Release hieß es unter KI-Experten, GPT-4.5 sei angenehmer zu benutzen und schreibe besser
- Bei Code und technischer Leistung wurde es im Vergleich zu Konkurrenzmodellen wie Claude 3.7 und R1 jedoch eher im Mittelfeld eingeordnet
Vergleich des Schreibstils (Ergebnis einer X-/Twitter-Umfrage von Karpathy)
- GPT-4.5 vs. GPT-4o-latest: Viele Nutzer bevorzugten den Schreibstil von GPT-4o-latest
- Warum? GPT-4o-latest ist möglicherweise ein aus diesem neuen Modell, das zuvor Orion1 genannt wurde, destilliertes Modell. Es ist zudem viel kleiner, wodurch sich Iterationen drastisch schneller durchführen lassen und das Post-Training vermutlich besser ausfallen kann
All das ist der Preis, den OpenAI offenbar zahlen muss, um im ChatBotArena-Ranking wieder Platz 1 zu erreichen
- Es wird erwartet, dass GPT-4.5 das schafft, aber das Ergebnis ist noch offen
Nach dem Vorabtest des Autors gilt: Die Geschwindigkeit war anfangs unangenehm langsam, aber die Zuverlässigkeit ist hoch genug, dass sich die weitere Nutzung lohnt
- Trotzdem muss man nicht extra Geld ausgeben, um GPT-4.5 zu wählen; OpenAIs o1 Pro und andere Bezahlangebote bieten das bessere Preis-Leistungs-Verhältnis

Warum GPT-4.5 so teuer ist

Schon beim Start von GPT-4 war der Preis ziemlich hoch und lag tatsächlich auf einem ähnlichen Niveau wie bei GPT-4.5
Die anfänglichen Preise von GPT-4.5 sind wie folgt:
- Input: $75.00 / 1M Tokens
- Cached Input: $37.50 / 1M Tokens
- Output: $150.00 / 1M Tokens
- Damit startete es zu deutlich höheren Preisen als frühere Modelle
Auch frühere Modelle von OpenAI waren anfangs teuer, wurden später aber teils deutlich im Preis gesenkt
- GPT-4 (März 2023 veröffentlicht)
  - Startete zunächst mit $30 pro 1 Million Input-Tokens und $60 pro 1 Million Output-Tokens
  - Die 32K-Kontextversion war teurer mit $60 Input und $120 Output
- GPT-4 Turbo (November 2023 veröffentlicht)
  - Wurde deutlich günstiger, auf $10 Input und $30 Output
- GPT-4o (Mai 2024 veröffentlicht)
  - Der Preis sank weiter auf $2.5 Input und $10 Output, also mehr als 10-mal günstiger als GPT-4
- Daran zeigt sich ein Muster: OpenAI senkt die Preise bei neuen Modellen jeweils deutlich
Dass GPT-4.5 aktuell so teuer angesetzt ist, liegt offenbar daran, dass zum Start eine hohe Marge einkalkuliert wurde
- OpenAI sagt selbst, dass nicht garantiert ist, dass das Modell dauerhaft in der API bleibt, und dass die Entscheidung von der Nutzerreaktion abhängen wird
Viele Experten erwarten, dass mit Nvidias nächster GPU-Generation Blackwell größere Modelle effizienter betrieben werden können und die Kosten dadurch sinken
So wie die Preise von GPT-4 zu GPT-4 Turbo und dann GPT-4o gefallen sind, ist es gut möglich, dass auch GPT-4.5 später mit einer Version wie GPT-4.5 Turbo günstiger wird

Die Zukunft der Skalierung

Die Skalierung von Sprachmodellen ist noch nicht tot
- Aber zurückzublicken, warum sich diese Ankündigung so seltsam angefühlt hat, ist wichtig, um im Tempo der KI-Entwicklung einen kühlen Kopf zu bewahren
- Wir sind in ein Zeitalter eingetreten, in dem verschiedene Arten der Skalierung jeweils eigene Vor- und Nachteile haben
Kurz gesagt: „GPT-4.5 ist seltsam, aber seiner Zeit voraus“
- GPT-4.5 ist nicht einfach nur ein größer skaliertes Modell, sondern ein Signal dafür, dass neue Formen der Skalierung nötig sind
- Das bedeutet, dass die Weiterentwicklung von KI nicht allein durch bloßes Vergrößern von Modellen erreicht werden kann, sondern andere Wege braucht — was wir durch die schnelle Entwicklung von Reasoning-Modellen ohnehin schon gesehen haben
- Die eigentliche Wirkung von GPT-4.5 wird sich zeigen, wenn es mit mehreren schnell voranschreitenden Entwicklungslinien zusammengeführt wird
In DeepSeeks R1-Paper und nachfolgenden RL-Studien lautet das Fazit, dass RL-Training bei größeren Modellen effektiver ist
- Auch OpenAIs o4-Modell könnte mit einem auf GPT-4.5 basierenden Reasoning-Modell trainiert worden sein
- OpenAIs heutige Modelle wären ohne GPT-4.5 vermutlich nicht annähernd so gut
Möglicherweise werden innerhalb eines Jahres die meisten Modelle die Größenordnung von GPT-4.5 erreichen — bei deutlich höherer Geschwindigkeit
- Solche ausgewogeneren Verbesserungen werden mehr Anwendungen robuster machen
- Andere Forschende bei OpenAI und in KI-Labs versuchen derzeit, Modelle über die Grenzen der bestehenden Infrastruktur hinaus zu skalieren
Wenn ein Frontier-Lab nicht versucht, die Grenzen aller Skalierungsrichtungen zu überschreiten, geht es nicht genug Risiko ein
- Das Modell muss nicht unbedingt veröffentlicht werden, aber es lohnt sich zu spekulieren, warum OpenAI diesen Schritt tatsächlich gehen wollte
- Da GPT-4.5 wahrscheinlich schon in anderen internen Systemen und bald auch in weiteren externen Produkten eingesetzt wird, ist diese Veröffentlichung kein Umweg, sondern ein natürlicher Schritt zur nächsten Phase
GPT-4.5 ist zwar ein Frontier-Modell, aber seine Veröffentlichung ist nicht gerade aufregend
- Fortschritte in der KI gibt es nicht umsonst; sie erfordern viel Aufwand
- Nicht GPT-4.5 selbst ist das Entscheidende, sondern der eigentliche Wert dieses Modells wird sichtbar, wenn es mit anderen Technologien kombiniert wird

2 Kommentare

doolayer 2025-03-03

Da bereits viele Benchmarks gesättigt sind, scheint es nur natürlich zu sein, sich auf Nutzbarkeit oder Halluzinationen zu konzentrieren.

GN⁺ 2025-03-03

Hacker-News-Kommentare

Auch GPT-4.5 hat einen Knowledge-Cutoff bis Oktober 2023
- Das Vortraining dieses Modells wurde möglicherweise bereits vor mindestens einem Jahr abgeschlossen
- OpenAI könnte sich auf andere Projekte wie Q-star/strawberry konzentriert haben
OpenAIs Reasoning-Modelle sind möglicherweise nicht so leistungsstark wie erwartet
- Starke Nicht-Reasoning-Modelle wie Gemini 2.0 Flash, Grok 3 und Sonnet 3.7 sind aufgetaucht
- OpenAI könnte das Bedürfnis verspürt haben, zumindest nach außen hin etwas zu veröffentlichen
Der Preis ist etwas rätselhaft
- Er könnte ein älteres Modell ohne die neuesten Effizienztricks widerspiegeln
- GPT-4.5 könnte für OpenAI ein Weg sein herauszufinden, wie viel die Leute zu zahlen bereit sind
Der Sprung von GPT-4o zu 4.5 ist kein großer Sprung
- Es wurde wie ein Luxusgut bepreist, bietet aber keine luxuriöse Gegenleistung
GPT-4.5 kann komplexe und nuancierte Gedanken sehr schnell verarbeiten
- Es ist anderen AIs deutlich überlegen
GPT-4.5 driftet nicht in seltsame Richtungen ab und bleibt in der Realität verankert
- Es reagiert gut auf Tonpräferenzen und versteht feine Nuancen gut
Langfristig könnte es schwierig sein, die Infrastruktur zu monetarisieren
- Für Coding-APIs werden wahrscheinlich eher Claude 3.5/3.7 verwendet
- Für Nicht-Coding-APIs ist Gemini 2.0 Flash günstiger und leistungsfähiger
- Bei Abo-Apps ist ChatGPT weiterhin führend, aber Grok macht Konkurrenz
GPT-4.5 ist bei „kreativem Schreiben“ etwas besser
- Anthropic hat neue Modelle veröffentlicht, die praktischere Probleme lösen
Es scheint, als ob die Technologie an ihre Grenzen stößt
Es gibt die Ansicht, dass zwei Aussagen nicht widersprüchlich sind
- Selbst eine Skalierung der Modellgröße brachte keine klare Verbesserung der Fähigkeiten
- Der Sprung von GPT-4o zu GPT-4.5 macht das Modell dennoch hervorragend
Es ist fraglich, ob überhaupt jemand das letzte Prozent in Benchmarks tatsächlich wahrnimmt
- Es könnte ein Fehler sein anzunehmen, dass Benchmarks zu 100 % korrekt sind
Alle GPT4o-Modelle auf Azure sollen im Mai eingestellt werden
- Es wird darüber nachgedacht, zu Anthropic zu wechseln
- Es werden Informationen darüber benötigt, wann ein neues „o“-Modell erscheint