3 Punkte von GN⁺ 2025-02-21 | 3 Kommentare | Auf WhatsApp teilen

I. Das Skalierungsgesetz beherrscht den Fortschritt der KI

  • Es ist gut möglich, dass Elon Musks Bezeichnung von Grok 3 als „die intelligenteste KI der Welt“ keine Übertreibung ist
  • Gegenüber Grok 2 hat es einen sprunghaften Fortschritt gemacht und liegt auf Augenhöhe mit den Modellen etablierter Labore wie OpenAI, Google DeepMind und Anthropic oder ist ihnen in manchen Bereichen überlegen
  • In der LMSys Arena belegt es in allen Kategorien Platz 1 und zeigt auch bei Mathematik-, Coding- und Wissenschaftsaufgaben Leistungen auf hohem Niveau (o3-Niveau)
  • Bei einigen speziellen Aufgaben liegt es zwar hinter den Topmodellen zurück, nach den meisten Maßstäben gehört es jedoch zur Spitzengruppe auf gleichem Niveau (co-state-of-the-art)
  • Grok 3 ist mehr als nur ein Erfolg von xAI; es steht für einen weiteren Sieg von The Bitter Lesson, das die Bedeutung von Größe in der KI-Forschung betont
  • Anders als kritische Perspektiven oder Medienberichte nahelegen, sind Scaling Laws für den Fortschritt der KI weiterhin gültig, und ihre Bedeutung nimmt sogar noch zu

II. DeepSeek: Die Ausnahme, die das Gesetz bestätigt

  • Der Hintergrund von DeepSeeks Erfolg
    • DeepSeek konnte mit vergleichsweise geringen Rechenressourcen (rund 50K Nvidia Hopper GPUs) mit den stärksten Konkurrenten der Branche mithalten
    • Während US-Labore mehr als 100K Nvidia H100 einsetzten, erzielte DeepSeek Ergebnisse durch Optimierung des gesamten technischen Stacks
    • Dadurch warf DeepSeek Fragen zum „Bitter Lesson“ und zum „Scaling Paradigm“ auf, an die die Community geglaubt hatte
  • Falsche Schlussfolgerungen und die eigentliche Bedeutung von The Bitter Lesson
    • Manche interpretierten DeepSeeks Erfolg als Beleg dafür, dass „GPUs nicht wichtig sind und algorithmische Optimierung wichtiger ist“
    • The Bitter Lesson bedeutet jedoch nicht, dass „algorithmische Verbesserungen unnötig sind“, sondern dass es wenn möglich am besten ist, mehr Rechenressourcen zu nutzen
    • DeepSeek musste sich auf Optimierung konzentrieren, weil GPUs fehlten; mit einem Training auf 100K GPUs wären die Ergebnisse wahrscheinlich besser gewesen
    • DeepSeek hat also die Möglichkeiten von Optimierung gezeigt, nicht dass „Skalierung bedeutungslos ist“
  • Die Position des DeepSeek-CEO
    • Selbst CEO Liang Wenfeng erklärte, dass US-Exportkontrollen das größte Hindernis für die Entwicklung besserer Modelle seien
    • Dass er dies trotz 50K Hopper-GPUs sagte, bedeutet genau das Gegenteil der Deutung, „GPUs seien nicht wichtig“
    • DeepSeeks Erfolg lässt sich daher als Fall lesen, der The Bitter Lesson und das Scaling Paradigm stützt — nur eben als Ausnahmefall

III. xAI zeigt, dass „Skalierung > Optimierung“ gilt

  • Grok 3 und der Ansatz von xAI
    • Es ist fraglich, ob die Ergebnisse von xAI die Wahrnehmung der Skeptiker ändern werden, die glauben, „Skalierung sei weniger wichtig als Optimierung“
    • Unklar ist zwar, ob sich die Architektur von Grok 3 geändert hat oder wie weit die Infrastruktur optimiert wurde, sicher ist aber, dass das Modell auf dem Colossus-Supercomputer in Memphis mit 100K H100-GPUs trainiert wurde
    • Das sind deutlich mehr GPUs als DeepSeek zur Verfügung hatte
  • Eine andere Strategie als DeepSeek
    • DeepSeek musste seine begrenzten GPU-Ressourcen bis ans Limit optimieren, xAI brauchte das nicht und musste nur auf dem üblichen Standardniveau optimieren
    • Der Kern von The Bitter Lesson lautet: „Wenn du genügend Rechenressourcen hast, verschwende keine Zeit mit unnötiger Optimierung, sondern skaliere einfach“
    • xAI setzte beim Training von Grok 3 sogar mehr Rechenleistung ein als OpenAI und brachte damit ein Modell an die Spitze des Feldes
  • The Bitter Lesson ist nicht nur für KI eine allgemeine Wahrheit
    • „Wenn reichlich Hauptressourcen vorhanden sind, muss man keine Zeit damit verschwenden, Nebenressourcen bis zum Letzten auszupressen“
    • Es ist, als wäre es effizienter, auf einem Planeten mit Regen zu leben, statt wie die Fremen in der Wüste Schweiß zu recyceln
    • Algorithmische Verbesserungen und mehr Rechenleistung sind beide wichtig, aber ab einem gewissen Punkt ist es wirksamer, mehr Ressourcen einzusetzen, als weiter zu optimieren
    • Rechenleistung lässt sich mit Geld beschaffen; echte algorithmische Durchbrüche sind hingegen unvorhersehbar und bieten keine Garantie, künftig weiter skalieren zu können
  • Wichtig ist, nicht mit dem Skalieren aufzuhören
    • Wenn man an eine Grenze stößt, sollte man nicht nur optimieren, sondern das skalierte Element wechseln
    • Begrenzte Ressourcen können Innovation fördern, doch am Ende schlägt „mehr Ressourcen“ meist „bessere Optimierung“
    • DeepSeek musste sich notgedrungen auf Optimierung konzentrieren, aber xAI oder OpenAI werden kaum freiwillig unter denselben Innovationsbeschränkungen arbeiten wollen
    • Letztlich stehen xAI und DeepSeek exemplarisch für „ein Vorgehen mit enormem Ressourceneinsatz vs. ein Vorgehen, das begrenzte Ressourcen bis ans Äußerste nutzt“
    • Beide Unternehmen haben unter ihren jeweiligen Bedingungen ihr Bestes getan, doch solange DeepSeek unter einem Mangel an Rechenressourcen leidet, dürfte xAI in der vorteilhafteren Position bleiben
    • So zeigt sich, dass The Bitter Lesson trotz vieler Debatten in der Wissenschaft seit mehr als zehn Jahren in der realen KI-Entwicklung als gültiges Gesetz bestätigt wird

IV. Der Paradigmenwechsel, der xAI und DeepSeek half

  • Die Schwierigkeit von Nachzüglern im KI-Wettbewerb
    • Im KI-Wettbewerb schien ein später Start zunächst wie ein kaum überwindbarer Nachteil
    • Anfangs war nicht sicher, ob xAI zu OpenAI oder Anthropic würde aufschließen können
    • Doch zwischen Grok 2 (August 2024) und Grok 3 (Februar 2025) gab es neben dem Colossus-GPU-Cluster noch einen weiteren Faktor, der xAI in die Karten spielte
    • Nämlich der Wandel des KI-Skalierungsparadigmas
  • Das Zeitalter des Pre-Training (2019–2024)
    • Früher bedeutete KI-Fortschritt vor allem, größere Modelle mit größeren Datensätzen und stärkerer Rechenleistung zu trainieren
    • Beispiel: GPT-2 (Februar 2019) hatte 1,5 Milliarden Parameter, GPT-4 (März 2023) dagegen rund 1,76 Billionen — mehr als das 1.000-Fache
    • Dieses Vorgehen begünstigte First Mover wie OpenAI
      • Sie konnten über lange Zeit Daten sammeln, Modelle vergrößern und GPUs sichern
    • Außerdem dauerte das Training einzelner Modelle oft mehr als ein halbes Jahr, wodurch die Iterationsgeschwindigkeit zwischen Generationen sank und Nachzügler noch schwerer aufholen konnten
  • Das Zeitalter des Post-Training (2024–???)
    • Ab 2024 erkannte die Branche, dass bloßes Vergrößern von Modellen nur noch begrenzte inkrementelle Leistungssteigerungen bringt
    • In den Medien wurde das missverstanden als „Das Zeitalter der Skalierung ist vorbei“, tatsächlich hat sich aber nur das Paradigma verschoben (siehe Ilya Sutskevers Vortrag auf der NeurIPS 2024)
    • Der Fokus verlagerte sich auf:
      • „Skalierung von Test-Time Compute“ → ein Ansatz, bei dem das Modell tiefer über Antworten nachdenken kann
      • die Kombination aus Reinforcement Learning (RLHF) und Supervised Fine-Tuning (SFT)
      • Besonders in formalisierten Domänen wie Mathematik und Coding bringt die Anwendung verifizierbarer Reward Functions deutliche Leistungsgewinne
    • OpenAI führte diese Richtung mit o1-preview an, und danach gingen KI-Unternehmen dazu über, nicht mehr nur größere Modelle zu bauen, sondern „Modelle mit besseren Denkfähigkeiten“
  • Warum das neue Paradigma xAI und DeepSeek entgegenkam
    • Post-Training befindet sich noch in einem frühen Stadium und erlaubt daher mit relativ geringen Kosten schnelle Leistungssteigerungen
    • Dass OpenAI in nur drei Monaten von o1 zu o3 kam, liegt auch daran
    • Aus demselben Grund konnte DeepSeek trotz weniger und schwächerer GPUs bis auf R1-Niveau aufschließen
    • Auch Grok erreichte in nur zwei Jahren das Niveau der stärksten KI-Modelle
  • Die veränderte Wettbewerbslage
    • OpenAI hat zwar weiterhin einen gewissen Vorsprung, doch für Nachzügler ist es nicht unmöglich aufzuholen
    • OpenAI muss wegen des Betriebs von ChatGPT mit 300M wöchentlichen Nutzern Spitzenforschung und Produktbetrieb austarieren
    • xAI und DeepSeek können sich dagegen vergleichsweise flexibel auf technologische Innovation konzentrieren
    • Dass DeepSeeks App kurz stark an Beliebtheit gewann und dann wieder zurückfiel, lag auch daran, dass zu wenig Rechenressourcen für großskalige Inference vorhanden waren
    • Mit dem neuen Paradigma entsteht somit eine neue Wettbewerbsdynamik

V. Wie man die Leistungen von xAI und DeepSeek richtig einordnet

  • The Bitter Lesson und der Paradigmenwechsel schmälern diese Leistungen nicht
    • The Bitter Lesson und der Wandel des Skalierungsparadigmas haben die Erfolge von xAI und DeepSeek zwar erleichtert, aber am Ende haben sie geliefert
    • Andere Unternehmen mit ähnlichen Chancen (Mistral, Character, Inflection) sind gescheitert
    • Grok 3 ist ein Sieg von The Bitter Lesson, DeepSeek ein Ausnahmefall, der die Regel bestätigt — doch beide bedeuten mehr als das
  • Rechenressourcen sind nicht alles
    • So wie The Bitter Lesson den Wert von Algorithmik und Infrastruktur-Optimierung nicht leugnet, sind auch Personal und Strategie eines Unternehmens wichtig
    • xAI hat derzeit rund 1.000 Mitarbeitende und liegt damit in einer ähnlichen Größenordnung wie OpenAI (ca. 2.000) und Anthropic (ca. 700)
    • Dank Elon Musks Technologie- und Finanznetzwerk kann xAI zudem relativ leicht enorme Investitionen anziehen
    • Auch DeepSeek verdient hohe Anerkennung dafür, unter begrenzten Bedingungen Innovation hervorgebracht zu haben
      • Das chinesische KI-Ökosystem war vergleichsweise weniger ambitioniert und erfahren, zudem fehlte es an staatlicher Unterstützung (das könnte sich bald ändern)
  • Man muss es im historischen Kontext sehen
    • OpenAI, Google DeepMind und Anthropic mussten ihre Modelle im Pre-Training-Zeitalter entwickeln
      • KI-Skalierung war damals deutlich schwieriger, langsamer und teurer als heute
      • Es war nicht einmal sicher, ob ein Produkt wie ChatGPT erfolgreich sein würde; selbst OpenAI zögerte bei der Veröffentlichung (zunächst erschien es nur als einfache Forschungs-Preview)
      • Diese Unternehmen waren Pioniere, die trotz einer ungewissen Zukunft mit starker Überzeugung KI-Innovationen vorantrieben
    • DeepSeek und xAI hingegen starteten auf den Schultern dieser Giganten
      • Sie konnten die Irrtümer und Fehlversuche früherer Forschung vermeiden und bewährte Ansätze nutzen, um sich schnell zu entwickeln
      • Gleichzeitig wechselte das KI-Paradigma gerade in die Post-Training-Ära, was schnelle Fortschritte bei geringeren Kosten ermöglichte
      • Große Vorabinvestitionen und Unsicherheiten, wie sie die frühen KI-Pioniere tragen mussten, blieben ihnen weitgehend erspart
  • Den Sieg anerkennen, aber den Weg dorthin nicht vergessen
    • Die Leistungen von xAI und DeepSeek müssen nicht klein geredet werden, aber man sollte auch nicht vergessen, wie die KI-Entwicklung an diesen Punkt gekommen ist
    • Ohne frühe Wegbereiter wie OpenAI, DeepMind und Anthropic wären die heutigen Ergebnisse nicht möglich gewesen
    • Deshalb ist es angemessener, den Erfolg von xAI und DeepSeek nicht als „bloß Glück“, sondern als „maximale Leistung zum richtigen Zeitpunkt“ zu verstehen

VI. Post-Training ist heute billig, wird aber bald teuer

  • Die wichtigste Lehre aus Grok 3 und xAI
    • Post-Training ist derzeit vergleichsweise günstig, wird aber bald Investitionen in einer Größenordnung wie Pre-Training erfordern
    • Sobald Unternehmen Wege finden, Post-Training massiv zu skalieren, werden Geld und Rechenressourcen zum Muss, um im Wettbewerb zu überleben
    • Schon jetzt häufen KI-Unternehmen Hunderttausende GPUs an und bauen riesige Cluster auf
    • Entgegen der Behauptung, „GPUs seien nicht wichtig“, wird der Wettlauf um GPUs zu einem Kernelement des KI-Wettbewerbs
    • Deshalb betonen etwa Dario Amodei (Mitgründer von OpenAI) und andere die Bedeutung von Exportkontrollen
  • Die starke Positionierung von xAI
    • Aktuell hat xAI nicht nur gegenüber DeepSeek, sondern auch gegenüber OpenAI und Anthropic eine vorteilhaftere Position
    • Der Grund: ein Cluster aus 100K H100-GPUs, das bald auf 200K erweitert werden soll
    • Das verschafft im Wettbewerb um die nächste Generation von KI einen enormen Vorteil
    • Auch Meta verfolgt dieselbe Strategie und trainiert Llama 4 auf einem 100K+ H100-Cluster
  • DeepSeeks Grenzen und Chancen
    • Mit reiner Engineering-Stärke wird es für DeepSeek nun schwieriger, wettbewerbsfähig zu bleiben
    • Selbst bei maximaler Optimierung des Stacks lässt sich eine Lücke von 150K GPUs nicht überbrücken
    • Wenn es möglich wäre, hätte DeepSeek wie xAI ebenfalls auf Skalierung gesetzt, doch US-Exportkontrollen begrenzen das Wachstum
    • Allerdings könnte eine Zusammenarbeit mit Huawei das Problem teilweise lösen
  • Weitere Vorteile von xAI
    • Selbst OpenAI und Anthropic stehen bei der Absicherung von GPU-Clustern nicht so stabil da wie xAI
    • Dank der Unterstützung von Nvidia wird xAI bevorzugt mit KI-Hardware der nächsten Generation beliefert
    • Durch Elon Musks Netzwerk und Nvidias wohlwollende Haltung könnte xAI sich im künftigen KI-Wettbewerb einen einzigartigen Vorsprung sichern

VII. Wer wird in einem Jahr vorn liegen?

  • Der Vorsprung der etablierten Schwergewichte
    • Trotz all dessen halten OpenAI, Google DeepMind und Anthropic weiterhin einen leichten Vorsprung
    • OpenAI: plant in Kürze die Veröffentlichung von GPT-4.5/GPT-5 und entwickelt danach bereits o4
    • Anthropic: plant die Veröffentlichung von Claude 4
    • Google DeepMind: arbeitet daran, die „Thinking-model“-Version von Gemini 2.0 zu verbessern und zugleich Kosten zu senken sowie das Kontextfenster zu erweitern
  • Eine ungewisse Zukunft
    • 2024 wurde noch erwartet, dass Google im KI-Wettbewerb vorn liegen würde, doch jetzt lässt sich das nicht mehr mit Sicherheit sagen
    • Der KI-Wettbewerb ist härter denn je, und im Rennen um AGI (Artificial General Intelligence) gibt es keinen klaren Sieger
    • Das neue Paradigma spielt Nachzüglern in die Hände und verlangt schnelle Anpassungsfähigkeit
    • Ob Google diese Agilität besitzt, ist unklar
    • Oder Google schafft es schlicht nicht, die eigenen Fortschritte wirksam zu kommunizieren
  • Fazit: Skalierung setzt sich am Ende durch
    • Ziel dieses Artikels ist nicht, den Sieger im KI-Wettbewerb vorherzusagen
    • Die zentrale Lehre lautet vielmehr, dass Skalierung am Ende menschlichen Erfindungsreichtum (ingenuity) übertrumpft
      • Es ist bedauerlich, das sagen zu müssen, aber manche Dinge liegen außerhalb unserer Kontrolle
    • Der Erfolg von Grok 3 erinnert erneut daran, dass nicht „klügere Algorithmen“, sondern „größere Rechenleistung“ den Fortschritt der KI antreiben

3 Kommentare

 
kobings 2025-02-23

„OpenAI: ChatGPT hat 3 Millionen wöchentliche Nutzer“
Ich habe den Originaltext geprüft, dort stand 300M, daher bitte auf 300 Millionen korrigieren.

 
doolayer 2025-02-22

orthogonal, aber nicht orthonormal.

 
GN⁺ 2025-02-21
Hacker-News-Kommentare
  • Die Entstehung eines „co-state-of-the-art“-Modells ist kein Sieg der Skalierungsgesetze

    • Dass xAI für Grok 3 mehr Rechenleistung eingesetzt hat, bestehende Modelle aber nicht deutlich übertroffen wurden, könnte ein Beleg dafür sein, dass Hyper-Skalierung nur schrittweise Verbesserungen bringt
    • Dass mehr Rechenleistung Computer besser macht, ist eine triviale Beobachtung
    • Der Artikel versucht, die Unterschiede zwischen symbolischer KI der 70er und neuronalen Netzen der 2010er auf die Unterschiede zwischen GPT-4 und Grok 3 anzuwenden
    • Viele zweifeln an der tatsächlichen Leistung von Grok 3 und vermuten, dass es auf bestimmte Benchmarks hin trainiert wurde
    • Sabine Hossenfelder erwähnt, dass Grok 3 daran scheiterte, Bells Theorem zu erklären
    • Das zeigt, dass groß angelegte Skalierung die Intelligenz nicht verbessert
  • DeepSeek brauchte 17 Monate, um SOTA-Ergebnisse zu erreichen, und das Modell von xAI liegt nicht weit über DeepSeek R1

    • xAI will von $3 billion $2.5 billion in GPUs und $0.5 billion in Talente investieren
    • DeepSeek will $1 billion in GPUs und $2 billion in Talente investieren
    • Es wird behauptet, dass der Ansatz von DeepSeek besser skalierbar ist
  • Skepsis darüber, dass ein Nicht-Reasoning-Modell bei GPQA Diamond 75 % erreicht hat

    • xAI soll die Grok-3-API nächste Woche bereitstellen, damit man die tatsächliche Leistung durch eigene Evaluierungen prüfen kann
    • Dass DeepSeek über 50k Hopper-GPUs verfügt, könnte eine übertriebene Zahl sein
    • Eine Stellenausschreibung für Praktikanten von DeepSeek erwähnt nur „unbegrenzten Zugriff auf 10k A100s“
  • Aus den jüngsten Veränderungen werden merkwürdige Schlussfolgerungen gezogen

    • Viel Geld fließt in den AI-Boom, aber das wird bald enden
    • Menschen mit viel Erfahrung bei technologischen Verbesserungen werden langfristig am besten positioniert sein
  • Wenn Grok eine ähnliche Intelligenz wie andere führende Modelle hat, stellt sich die Frage, welches Unternehmen zu Grok wechseln würde

  • Wenn der Einsatz von mehr Rechenleistung Kosten in Milliardenhöhe verursacht, könnte sich die „bittere Lektion“ nicht mehr um Hardware, sondern um Geld drehen

    • Es könnte einen Weg geben, auf dem energieeffizientere Modelle auch ohne VC-Finanzierung praktikabel sind
  • Die Behauptung des Artikels zur „bitteren Lektion“ beruht auf einem logischen Fehlschluss

    • Skalierung und Optimierung werden als gegenseitig ausschließende Strategien dargestellt
    • Die algorithmischen Innovationen von DeepSeek ergänzen die Skalierungsbemühungen
    • Die Behauptung, dass Rechenleistung das „Post-Training-Zeitalter“ dominieren werde, ignoriert potenzielle Störfaktoren
  • Es ist interessant, wie sich die Gewinnung von Talenten entwickeln wird

    • Viele Ingenieure sind durch stark DEI-fokussierte PR enttäuscht
    • Es stellt sich die Frage, ob Menschen, die aus ethischen Gründen enge Beziehungen zu China vermieden haben, das nun auch auf die USA anwenden werden
  • Noch ein weiterer Blogeintrag zum AI-Hype

    • Es gibt nicht einmal eine Erwähnung der unterschiedlich gefärbten Balken bei den Benchmark-Ergebnissen
    • Grok-3 beweist oder widerlegt die Skalierungsgesetze nicht auf sinnvolle Weise