2 Punkte von GN⁺ 2025-03-03 | 2 Kommentare | Auf WhatsApp teilen
  • Mit der Veröffentlichung von GPT-4.5 hat OpenAI zunächst die System Card des Modells veröffentlicht
  • In der ersten System Card stand der Satz "GPT-4.5 is not a frontier model" (GPT-4.5 ist kein Frontier-Modell)
    • Später wurde dieser Satz aus dem offiziellen Blogbeitrag und der aktualisierten System Card entfernt
  • Offenbar hielt es jemand bei OpenAI für nötig, diesen Satz hineinzuschreiben. Aber „Warum hat OpenAI das überhaupt veröffentlicht?“
  • Der zentrale Widerspruch an der Behauptung, es sei kein Frontier-Modell, ist, dass GPT-4.5 das größte Modell ist, das die breite Öffentlichkeit testen kann
    • Selbst eine Skalierung auf diese Größenordnung führt nicht zu einem klaren Sprung bei den Fähigkeiten, die wir messen
    • Der Übergang von GPT-3.5 → GPT-4 war von okay zu gut
    • Die Veränderung von GPT-4o → GPT-4.5 ist von großartig zu wirklich großartig
  • Da es sehr schwierig ist, die Unterschiede zwischen den neuesten Modellen zu erkennen, könnten Menschen, die in KI investieren und Fortschritt erwarten, leicht glauben, die Modelle seien besser, als sie tatsächlich sind
  • Wir sind an einem Punkt angekommen, an dem die ökonomischen Grenzen der Skalierung ohne den erwarteten großen Leistungssprung klarer werden
    • Auch Anthropic hat ein ähnliches Problem und hat nach Claude 3.7 bestätigt, ein deutlich größeres Modell trainieren zu wollen
  • GPT-4.5 ist ein Modell, das schrittweise Fortschritte zeigt, anders als frühere disruptive Sprünge
    • Es zeigt in der KI-Forschung, dass bloßes Ausweiten des Pretrainings nicht mehr zu Innovationen auf dem bisherigen Niveau führt
    • OpenAI hat GPT-4.5 intern offenbar schon lange genutzt und wahrscheinlich zum Trainieren anderer Modelle auf Basis von GPT-4.5 eingesetzt (zu urteilen am Cutoff-Datum 2023)

Was ist gut an GPT-4.5?

  • (Dies sind einige Schätzungen zur Parameterzahl von GPT-4.5 und GPT-4o; sie basieren nicht auf Leaks und haben daher eine große Fehlerspanne.)
  • GPT-4.5 ist ein sehr großes Modell und möglicherweise größer als Grok 3
    • GPT-4 war ein Mixture-of-Experts-(MoE)-Modell mit schätzungsweise mehr als 1 Billion (1T) Gesamtparametern, davon etwa 200B aktive Parameter
    • Gerüchten zufolge sind die aktiven Parameter bei Modellen wie GPT-4o oder Gemini Pro auf bis zu 60B geschrumpft
    • Das heißt, aktuelle Modelle entwickeln sich vor allem in Richtung weniger aktiver Parameter und optimierter Infrastruktur, um Geschwindigkeit und Kosten zu verbessern
  • Es wird geschätzt, dass GPT-4.5 etwa 10-mal mehr Rechenleistung (10X compute) als GPT-4 benötigt
    • 5-mal mehr Parameter + 2-mal größerer Datensatz = 10-mal mehr Rechenaufwand
    • Die Gesamtzahl der Parameter könnte 5–7 Billionen (5T–7T) erreichen, mit etwa 600B aktiven Parametern
  • Dennoch ist der Leistungszuwachs selbst bei dieser Skalierung nur schwer spürbar
  • Ab hier wird die Lage ziemlich seltsam. OpenAI hat in dieser Ankündigung zwei Dinge besonders hervorgehoben
    • Weniger Halluzinationen: Das Modell erzeugt seltener sachlich falsche Informationen
    • Bessere emotionale Intelligenz: Es kann Kontext und Emotionen besser verstehen und ausdrücken
    • Allerdings sind beide Eigenschaften objektiv schwer zu bewerten
  • Benchmark-Leistung (laut Daten von OpenAI)
    • SimpleQA: Bei der Bewertung von Weltwissen von KI-Modellen zeigt GPT-4.5 einen großen Leistungssprung
    • PersonQA: Auch bei Fragen zu einzelnen Personen erreicht es Bestwerte
    • GPQA (Google-proof QA): Ebenfalls stark bei einem Benchmark, der logisches Schlussfolgern ohne Informationssuche bewertet
  • Direkt nach dem Release hieß es unter KI-Experten, GPT-4.5 sei angenehmer zu benutzen und schreibe besser
    • Bei Code und technischer Leistung wurde es im Vergleich zu Konkurrenzmodellen wie Claude 3.7 und R1 jedoch eher im Mittelfeld eingeordnet
  • Vergleich des Schreibstils (Ergebnis einer X-/Twitter-Umfrage von Karpathy)
    • GPT-4.5 vs. GPT-4o-latest: Viele Nutzer bevorzugten den Schreibstil von GPT-4o-latest
    • Warum? GPT-4o-latest ist möglicherweise ein aus diesem neuen Modell, das zuvor Orion1 genannt wurde, destilliertes Modell. Es ist zudem viel kleiner, wodurch sich Iterationen drastisch schneller durchführen lassen und das Post-Training vermutlich besser ausfallen kann
  • All das ist der Preis, den OpenAI offenbar zahlen muss, um im ChatBotArena-Ranking wieder Platz 1 zu erreichen
    • Es wird erwartet, dass GPT-4.5 das schafft, aber das Ergebnis ist noch offen
  • Nach dem Vorabtest des Autors gilt: Die Geschwindigkeit war anfangs unangenehm langsam, aber die Zuverlässigkeit ist hoch genug, dass sich die weitere Nutzung lohnt
    • Trotzdem muss man nicht extra Geld ausgeben, um GPT-4.5 zu wählen; OpenAIs o1 Pro und andere Bezahlangebote bieten das bessere Preis-Leistungs-Verhältnis

Warum GPT-4.5 so teuer ist

  • Schon beim Start von GPT-4 war der Preis ziemlich hoch und lag tatsächlich auf einem ähnlichen Niveau wie bei GPT-4.5
  • Die anfänglichen Preise von GPT-4.5 sind wie folgt:
    • Input: $75.00 / 1M Tokens
    • Cached Input: $37.50 / 1M Tokens
    • Output: $150.00 / 1M Tokens
    • Damit startete es zu deutlich höheren Preisen als frühere Modelle
  • Auch frühere Modelle von OpenAI waren anfangs teuer, wurden später aber teils deutlich im Preis gesenkt
    • GPT-4 (März 2023 veröffentlicht)
      • Startete zunächst mit $30 pro 1 Million Input-Tokens und $60 pro 1 Million Output-Tokens
      • Die 32K-Kontextversion war teurer mit $60 Input und $120 Output
    • GPT-4 Turbo (November 2023 veröffentlicht)
      • Wurde deutlich günstiger, auf $10 Input und $30 Output
    • GPT-4o (Mai 2024 veröffentlicht)
      • Der Preis sank weiter auf $2.5 Input und $10 Output, also mehr als 10-mal günstiger als GPT-4
    • Daran zeigt sich ein Muster: OpenAI senkt die Preise bei neuen Modellen jeweils deutlich
  • Dass GPT-4.5 aktuell so teuer angesetzt ist, liegt offenbar daran, dass zum Start eine hohe Marge einkalkuliert wurde
    • OpenAI sagt selbst, dass nicht garantiert ist, dass das Modell dauerhaft in der API bleibt, und dass die Entscheidung von der Nutzerreaktion abhängen wird
  • Viele Experten erwarten, dass mit Nvidias nächster GPU-Generation Blackwell größere Modelle effizienter betrieben werden können und die Kosten dadurch sinken
  • So wie die Preise von GPT-4 zu GPT-4 Turbo und dann GPT-4o gefallen sind, ist es gut möglich, dass auch GPT-4.5 später mit einer Version wie GPT-4.5 Turbo günstiger wird

Die Zukunft der Skalierung

  • Die Skalierung von Sprachmodellen ist noch nicht tot
    • Aber zurückzublicken, warum sich diese Ankündigung so seltsam angefühlt hat, ist wichtig, um im Tempo der KI-Entwicklung einen kühlen Kopf zu bewahren
    • Wir sind in ein Zeitalter eingetreten, in dem verschiedene Arten der Skalierung jeweils eigene Vor- und Nachteile haben
  • Kurz gesagt: „GPT-4.5 ist seltsam, aber seiner Zeit voraus“
    • GPT-4.5 ist nicht einfach nur ein größer skaliertes Modell, sondern ein Signal dafür, dass neue Formen der Skalierung nötig sind
    • Das bedeutet, dass die Weiterentwicklung von KI nicht allein durch bloßes Vergrößern von Modellen erreicht werden kann, sondern andere Wege braucht — was wir durch die schnelle Entwicklung von Reasoning-Modellen ohnehin schon gesehen haben
    • Die eigentliche Wirkung von GPT-4.5 wird sich zeigen, wenn es mit mehreren schnell voranschreitenden Entwicklungslinien zusammengeführt wird
  • In DeepSeeks R1-Paper und nachfolgenden RL-Studien lautet das Fazit, dass RL-Training bei größeren Modellen effektiver ist
    • Auch OpenAIs o4-Modell könnte mit einem auf GPT-4.5 basierenden Reasoning-Modell trainiert worden sein
    • OpenAIs heutige Modelle wären ohne GPT-4.5 vermutlich nicht annähernd so gut
  • Möglicherweise werden innerhalb eines Jahres die meisten Modelle die Größenordnung von GPT-4.5 erreichen — bei deutlich höherer Geschwindigkeit
    • Solche ausgewogeneren Verbesserungen werden mehr Anwendungen robuster machen
    • Andere Forschende bei OpenAI und in KI-Labs versuchen derzeit, Modelle über die Grenzen der bestehenden Infrastruktur hinaus zu skalieren
  • Wenn ein Frontier-Lab nicht versucht, die Grenzen aller Skalierungsrichtungen zu überschreiten, geht es nicht genug Risiko ein
    • Das Modell muss nicht unbedingt veröffentlicht werden, aber es lohnt sich zu spekulieren, warum OpenAI diesen Schritt tatsächlich gehen wollte
    • Da GPT-4.5 wahrscheinlich schon in anderen internen Systemen und bald auch in weiteren externen Produkten eingesetzt wird, ist diese Veröffentlichung kein Umweg, sondern ein natürlicher Schritt zur nächsten Phase
  • GPT-4.5 ist zwar ein Frontier-Modell, aber seine Veröffentlichung ist nicht gerade aufregend
    • Fortschritte in der KI gibt es nicht umsonst; sie erfordern viel Aufwand
    • Nicht GPT-4.5 selbst ist das Entscheidende, sondern der eigentliche Wert dieses Modells wird sichtbar, wenn es mit anderen Technologien kombiniert wird

2 Kommentare

 
doolayer 2025-03-03

Da bereits viele Benchmarks gesättigt sind, scheint es nur natürlich zu sein, sich auf Nutzbarkeit oder Halluzinationen zu konzentrieren.

 
GN⁺ 2025-03-03
Hacker-News-Kommentare
  • Auch GPT-4.5 hat einen Knowledge-Cutoff bis Oktober 2023

    • Das Vortraining dieses Modells wurde möglicherweise bereits vor mindestens einem Jahr abgeschlossen
    • OpenAI könnte sich auf andere Projekte wie Q-star/strawberry konzentriert haben
  • OpenAIs Reasoning-Modelle sind möglicherweise nicht so leistungsstark wie erwartet

    • Starke Nicht-Reasoning-Modelle wie Gemini 2.0 Flash, Grok 3 und Sonnet 3.7 sind aufgetaucht
    • OpenAI könnte das Bedürfnis verspürt haben, zumindest nach außen hin etwas zu veröffentlichen
  • Der Preis ist etwas rätselhaft

    • Er könnte ein älteres Modell ohne die neuesten Effizienztricks widerspiegeln
    • GPT-4.5 könnte für OpenAI ein Weg sein herauszufinden, wie viel die Leute zu zahlen bereit sind
  • Der Sprung von GPT-4o zu 4.5 ist kein großer Sprung

    • Es wurde wie ein Luxusgut bepreist, bietet aber keine luxuriöse Gegenleistung
  • GPT-4.5 kann komplexe und nuancierte Gedanken sehr schnell verarbeiten

    • Es ist anderen AIs deutlich überlegen
  • GPT-4.5 driftet nicht in seltsame Richtungen ab und bleibt in der Realität verankert

    • Es reagiert gut auf Tonpräferenzen und versteht feine Nuancen gut
  • Langfristig könnte es schwierig sein, die Infrastruktur zu monetarisieren

    • Für Coding-APIs werden wahrscheinlich eher Claude 3.5/3.7 verwendet
    • Für Nicht-Coding-APIs ist Gemini 2.0 Flash günstiger und leistungsfähiger
    • Bei Abo-Apps ist ChatGPT weiterhin führend, aber Grok macht Konkurrenz
  • GPT-4.5 ist bei „kreativem Schreiben“ etwas besser

    • Anthropic hat neue Modelle veröffentlicht, die praktischere Probleme lösen
  • Es scheint, als ob die Technologie an ihre Grenzen stößt

  • Es gibt die Ansicht, dass zwei Aussagen nicht widersprüchlich sind

    • Selbst eine Skalierung der Modellgröße brachte keine klare Verbesserung der Fähigkeiten
    • Der Sprung von GPT-4o zu GPT-4.5 macht das Modell dennoch hervorragend
  • Es ist fraglich, ob überhaupt jemand das letzte Prozent in Benchmarks tatsächlich wahrnimmt

    • Es könnte ein Fehler sein anzunehmen, dass Benchmarks zu 100 % korrekt sind
  • Alle GPT4o-Modelle auf Azure sollen im Mai eingestellt werden

    • Es wird darüber nachgedacht, zu Anthropic zu wechseln
    • Es werden Informationen darüber benötigt, wann ein neues „o“-Modell erscheint