Grok 3: Ein weiterer Sieg für The Bitter Lesson

(thealgorithmicbridge.com)

3 Punkte von GN⁺ 2025-02-21 | 3 Kommentare | Auf WhatsApp teilen

I. Das Skalierungsgesetz beherrscht den Fortschritt der KI

Es ist gut möglich, dass Elon Musks Bezeichnung von Grok 3 als „die intelligenteste KI der Welt“ keine Übertreibung ist
Gegenüber Grok 2 hat es einen sprunghaften Fortschritt gemacht und liegt auf Augenhöhe mit den Modellen etablierter Labore wie OpenAI, Google DeepMind und Anthropic oder ist ihnen in manchen Bereichen überlegen
In der LMSys Arena belegt es in allen Kategorien Platz 1 und zeigt auch bei Mathematik-, Coding- und Wissenschaftsaufgaben Leistungen auf hohem Niveau (o3-Niveau)
Bei einigen speziellen Aufgaben liegt es zwar hinter den Topmodellen zurück, nach den meisten Maßstäben gehört es jedoch zur Spitzengruppe auf gleichem Niveau (co-state-of-the-art)
Grok 3 ist mehr als nur ein Erfolg von xAI; es steht für einen weiteren Sieg von The Bitter Lesson, das die Bedeutung von Größe in der KI-Forschung betont
Anders als kritische Perspektiven oder Medienberichte nahelegen, sind Scaling Laws für den Fortschritt der KI weiterhin gültig, und ihre Bedeutung nimmt sogar noch zu

II. DeepSeek: Die Ausnahme, die das Gesetz bestätigt

Der Hintergrund von DeepSeeks Erfolg
- DeepSeek konnte mit vergleichsweise geringen Rechenressourcen (rund 50K Nvidia Hopper GPUs) mit den stärksten Konkurrenten der Branche mithalten
- Während US-Labore mehr als 100K Nvidia H100 einsetzten, erzielte DeepSeek Ergebnisse durch Optimierung des gesamten technischen Stacks
- Dadurch warf DeepSeek Fragen zum „Bitter Lesson“ und zum „Scaling Paradigm“ auf, an die die Community geglaubt hatte
Falsche Schlussfolgerungen und die eigentliche Bedeutung von The Bitter Lesson
- Manche interpretierten DeepSeeks Erfolg als Beleg dafür, dass „GPUs nicht wichtig sind und algorithmische Optimierung wichtiger ist“
- The Bitter Lesson bedeutet jedoch nicht, dass „algorithmische Verbesserungen unnötig sind“, sondern dass es wenn möglich am besten ist, mehr Rechenressourcen zu nutzen
- DeepSeek musste sich auf Optimierung konzentrieren, weil GPUs fehlten; mit einem Training auf 100K GPUs wären die Ergebnisse wahrscheinlich besser gewesen
- DeepSeek hat also die Möglichkeiten von Optimierung gezeigt, nicht dass „Skalierung bedeutungslos ist“
Die Position des DeepSeek-CEO
- Selbst CEO Liang Wenfeng erklärte, dass US-Exportkontrollen das größte Hindernis für die Entwicklung besserer Modelle seien
- Dass er dies trotz 50K Hopper-GPUs sagte, bedeutet genau das Gegenteil der Deutung, „GPUs seien nicht wichtig“
- DeepSeeks Erfolg lässt sich daher als Fall lesen, der The Bitter Lesson und das Scaling Paradigm stützt — nur eben als Ausnahmefall

III. xAI zeigt, dass „Skalierung > Optimierung“ gilt

Grok 3 und der Ansatz von xAI
- Es ist fraglich, ob die Ergebnisse von xAI die Wahrnehmung der Skeptiker ändern werden, die glauben, „Skalierung sei weniger wichtig als Optimierung“
- Unklar ist zwar, ob sich die Architektur von Grok 3 geändert hat oder wie weit die Infrastruktur optimiert wurde, sicher ist aber, dass das Modell auf dem Colossus-Supercomputer in Memphis mit 100K H100-GPUs trainiert wurde
- Das sind deutlich mehr GPUs als DeepSeek zur Verfügung hatte
Eine andere Strategie als DeepSeek
- DeepSeek musste seine begrenzten GPU-Ressourcen bis ans Limit optimieren, xAI brauchte das nicht und musste nur auf dem üblichen Standardniveau optimieren
- Der Kern von The Bitter Lesson lautet: „Wenn du genügend Rechenressourcen hast, verschwende keine Zeit mit unnötiger Optimierung, sondern skaliere einfach“
- xAI setzte beim Training von Grok 3 sogar mehr Rechenleistung ein als OpenAI und brachte damit ein Modell an die Spitze des Feldes
The Bitter Lesson ist nicht nur für KI eine allgemeine Wahrheit
- „Wenn reichlich Hauptressourcen vorhanden sind, muss man keine Zeit damit verschwenden, Nebenressourcen bis zum Letzten auszupressen“
- Es ist, als wäre es effizienter, auf einem Planeten mit Regen zu leben, statt wie die Fremen in der Wüste Schweiß zu recyceln
- Algorithmische Verbesserungen und mehr Rechenleistung sind beide wichtig, aber ab einem gewissen Punkt ist es wirksamer, mehr Ressourcen einzusetzen, als weiter zu optimieren
- Rechenleistung lässt sich mit Geld beschaffen; echte algorithmische Durchbrüche sind hingegen unvorhersehbar und bieten keine Garantie, künftig weiter skalieren zu können
Wichtig ist, nicht mit dem Skalieren aufzuhören
- Wenn man an eine Grenze stößt, sollte man nicht nur optimieren, sondern das skalierte Element wechseln
- Begrenzte Ressourcen können Innovation fördern, doch am Ende schlägt „mehr Ressourcen“ meist „bessere Optimierung“
- DeepSeek musste sich notgedrungen auf Optimierung konzentrieren, aber xAI oder OpenAI werden kaum freiwillig unter denselben Innovationsbeschränkungen arbeiten wollen
- Letztlich stehen xAI und DeepSeek exemplarisch für „ein Vorgehen mit enormem Ressourceneinsatz vs. ein Vorgehen, das begrenzte Ressourcen bis ans Äußerste nutzt“
- Beide Unternehmen haben unter ihren jeweiligen Bedingungen ihr Bestes getan, doch solange DeepSeek unter einem Mangel an Rechenressourcen leidet, dürfte xAI in der vorteilhafteren Position bleiben
- So zeigt sich, dass The Bitter Lesson trotz vieler Debatten in der Wissenschaft seit mehr als zehn Jahren in der realen KI-Entwicklung als gültiges Gesetz bestätigt wird

IV. Der Paradigmenwechsel, der xAI und DeepSeek half

Die Schwierigkeit von Nachzüglern im KI-Wettbewerb
- Im KI-Wettbewerb schien ein später Start zunächst wie ein kaum überwindbarer Nachteil
- Anfangs war nicht sicher, ob xAI zu OpenAI oder Anthropic würde aufschließen können
- Doch zwischen Grok 2 (August 2024) und Grok 3 (Februar 2025) gab es neben dem Colossus-GPU-Cluster noch einen weiteren Faktor, der xAI in die Karten spielte
- Nämlich der Wandel des KI-Skalierungsparadigmas
Das Zeitalter des Pre-Training (2019–2024)
- Früher bedeutete KI-Fortschritt vor allem, größere Modelle mit größeren Datensätzen und stärkerer Rechenleistung zu trainieren
- Beispiel: GPT-2 (Februar 2019) hatte 1,5 Milliarden Parameter, GPT-4 (März 2023) dagegen rund 1,76 Billionen — mehr als das 1.000-Fache
- Dieses Vorgehen begünstigte First Mover wie OpenAI
  - Sie konnten über lange Zeit Daten sammeln, Modelle vergrößern und GPUs sichern
- Außerdem dauerte das Training einzelner Modelle oft mehr als ein halbes Jahr, wodurch die Iterationsgeschwindigkeit zwischen Generationen sank und Nachzügler noch schwerer aufholen konnten
Das Zeitalter des Post-Training (2024–???)
- Ab 2024 erkannte die Branche, dass bloßes Vergrößern von Modellen nur noch begrenzte inkrementelle Leistungssteigerungen bringt
- In den Medien wurde das missverstanden als „Das Zeitalter der Skalierung ist vorbei“, tatsächlich hat sich aber nur das Paradigma verschoben (siehe Ilya Sutskevers Vortrag auf der NeurIPS 2024)
- Der Fokus verlagerte sich auf:
  - „Skalierung von Test-Time Compute“ → ein Ansatz, bei dem das Modell tiefer über Antworten nachdenken kann
  - die Kombination aus Reinforcement Learning (RLHF) und Supervised Fine-Tuning (SFT)
  - Besonders in formalisierten Domänen wie Mathematik und Coding bringt die Anwendung verifizierbarer Reward Functions deutliche Leistungsgewinne
- OpenAI führte diese Richtung mit o1-preview an, und danach gingen KI-Unternehmen dazu über, nicht mehr nur größere Modelle zu bauen, sondern „Modelle mit besseren Denkfähigkeiten“
Warum das neue Paradigma xAI und DeepSeek entgegenkam
- Post-Training befindet sich noch in einem frühen Stadium und erlaubt daher mit relativ geringen Kosten schnelle Leistungssteigerungen
- Dass OpenAI in nur drei Monaten von o1 zu o3 kam, liegt auch daran
- Aus demselben Grund konnte DeepSeek trotz weniger und schwächerer GPUs bis auf R1-Niveau aufschließen
- Auch Grok erreichte in nur zwei Jahren das Niveau der stärksten KI-Modelle
Die veränderte Wettbewerbslage
- OpenAI hat zwar weiterhin einen gewissen Vorsprung, doch für Nachzügler ist es nicht unmöglich aufzuholen
- OpenAI muss wegen des Betriebs von ChatGPT mit 300M wöchentlichen Nutzern Spitzenforschung und Produktbetrieb austarieren
- xAI und DeepSeek können sich dagegen vergleichsweise flexibel auf technologische Innovation konzentrieren
- Dass DeepSeeks App kurz stark an Beliebtheit gewann und dann wieder zurückfiel, lag auch daran, dass zu wenig Rechenressourcen für großskalige Inference vorhanden waren
- Mit dem neuen Paradigma entsteht somit eine neue Wettbewerbsdynamik

V. Wie man die Leistungen von xAI und DeepSeek richtig einordnet

The Bitter Lesson und der Paradigmenwechsel schmälern diese Leistungen nicht
- The Bitter Lesson und der Wandel des Skalierungsparadigmas haben die Erfolge von xAI und DeepSeek zwar erleichtert, aber am Ende haben sie geliefert
- Andere Unternehmen mit ähnlichen Chancen (Mistral, Character, Inflection) sind gescheitert
- Grok 3 ist ein Sieg von The Bitter Lesson, DeepSeek ein Ausnahmefall, der die Regel bestätigt — doch beide bedeuten mehr als das
Rechenressourcen sind nicht alles
- So wie The Bitter Lesson den Wert von Algorithmik und Infrastruktur-Optimierung nicht leugnet, sind auch Personal und Strategie eines Unternehmens wichtig
- xAI hat derzeit rund 1.000 Mitarbeitende und liegt damit in einer ähnlichen Größenordnung wie OpenAI (ca. 2.000) und Anthropic (ca. 700)
- Dank Elon Musks Technologie- und Finanznetzwerk kann xAI zudem relativ leicht enorme Investitionen anziehen
- Auch DeepSeek verdient hohe Anerkennung dafür, unter begrenzten Bedingungen Innovation hervorgebracht zu haben
  - Das chinesische KI-Ökosystem war vergleichsweise weniger ambitioniert und erfahren, zudem fehlte es an staatlicher Unterstützung (das könnte sich bald ändern)
Man muss es im historischen Kontext sehen
- OpenAI, Google DeepMind und Anthropic mussten ihre Modelle im Pre-Training-Zeitalter entwickeln
  - KI-Skalierung war damals deutlich schwieriger, langsamer und teurer als heute
  - Es war nicht einmal sicher, ob ein Produkt wie ChatGPT erfolgreich sein würde; selbst OpenAI zögerte bei der Veröffentlichung (zunächst erschien es nur als einfache Forschungs-Preview)
  - Diese Unternehmen waren Pioniere, die trotz einer ungewissen Zukunft mit starker Überzeugung KI-Innovationen vorantrieben
- DeepSeek und xAI hingegen starteten auf den Schultern dieser Giganten
  - Sie konnten die Irrtümer und Fehlversuche früherer Forschung vermeiden und bewährte Ansätze nutzen, um sich schnell zu entwickeln
  - Gleichzeitig wechselte das KI-Paradigma gerade in die Post-Training-Ära, was schnelle Fortschritte bei geringeren Kosten ermöglichte
  - Große Vorabinvestitionen und Unsicherheiten, wie sie die frühen KI-Pioniere tragen mussten, blieben ihnen weitgehend erspart
Den Sieg anerkennen, aber den Weg dorthin nicht vergessen
- Die Leistungen von xAI und DeepSeek müssen nicht klein geredet werden, aber man sollte auch nicht vergessen, wie die KI-Entwicklung an diesen Punkt gekommen ist
- Ohne frühe Wegbereiter wie OpenAI, DeepMind und Anthropic wären die heutigen Ergebnisse nicht möglich gewesen
- Deshalb ist es angemessener, den Erfolg von xAI und DeepSeek nicht als „bloß Glück“, sondern als „maximale Leistung zum richtigen Zeitpunkt“ zu verstehen

VI. Post-Training ist heute billig, wird aber bald teuer

Die wichtigste Lehre aus Grok 3 und xAI
- Post-Training ist derzeit vergleichsweise günstig, wird aber bald Investitionen in einer Größenordnung wie Pre-Training erfordern
- Sobald Unternehmen Wege finden, Post-Training massiv zu skalieren, werden Geld und Rechenressourcen zum Muss, um im Wettbewerb zu überleben
- Schon jetzt häufen KI-Unternehmen Hunderttausende GPUs an und bauen riesige Cluster auf
- Entgegen der Behauptung, „GPUs seien nicht wichtig“, wird der Wettlauf um GPUs zu einem Kernelement des KI-Wettbewerbs
- Deshalb betonen etwa Dario Amodei (Mitgründer von OpenAI) und andere die Bedeutung von Exportkontrollen
Die starke Positionierung von xAI
- Aktuell hat xAI nicht nur gegenüber DeepSeek, sondern auch gegenüber OpenAI und Anthropic eine vorteilhaftere Position
- Der Grund: ein Cluster aus 100K H100-GPUs, das bald auf 200K erweitert werden soll
- Das verschafft im Wettbewerb um die nächste Generation von KI einen enormen Vorteil
- Auch Meta verfolgt dieselbe Strategie und trainiert Llama 4 auf einem 100K+ H100-Cluster
DeepSeeks Grenzen und Chancen
- Mit reiner Engineering-Stärke wird es für DeepSeek nun schwieriger, wettbewerbsfähig zu bleiben
- Selbst bei maximaler Optimierung des Stacks lässt sich eine Lücke von 150K GPUs nicht überbrücken
- Wenn es möglich wäre, hätte DeepSeek wie xAI ebenfalls auf Skalierung gesetzt, doch US-Exportkontrollen begrenzen das Wachstum
- Allerdings könnte eine Zusammenarbeit mit Huawei das Problem teilweise lösen
Weitere Vorteile von xAI
- Selbst OpenAI und Anthropic stehen bei der Absicherung von GPU-Clustern nicht so stabil da wie xAI
- Dank der Unterstützung von Nvidia wird xAI bevorzugt mit KI-Hardware der nächsten Generation beliefert
- Durch Elon Musks Netzwerk und Nvidias wohlwollende Haltung könnte xAI sich im künftigen KI-Wettbewerb einen einzigartigen Vorsprung sichern

VII. Wer wird in einem Jahr vorn liegen?

Der Vorsprung der etablierten Schwergewichte
- Trotz all dessen halten OpenAI, Google DeepMind und Anthropic weiterhin einen leichten Vorsprung
- OpenAI: plant in Kürze die Veröffentlichung von GPT-4.5/GPT-5 und entwickelt danach bereits o4
- Anthropic: plant die Veröffentlichung von Claude 4
- Google DeepMind: arbeitet daran, die „Thinking-model“-Version von Gemini 2.0 zu verbessern und zugleich Kosten zu senken sowie das Kontextfenster zu erweitern
Eine ungewisse Zukunft
- 2024 wurde noch erwartet, dass Google im KI-Wettbewerb vorn liegen würde, doch jetzt lässt sich das nicht mehr mit Sicherheit sagen
- Der KI-Wettbewerb ist härter denn je, und im Rennen um AGI (Artificial General Intelligence) gibt es keinen klaren Sieger
- Das neue Paradigma spielt Nachzüglern in die Hände und verlangt schnelle Anpassungsfähigkeit
- Ob Google diese Agilität besitzt, ist unklar
- Oder Google schafft es schlicht nicht, die eigenen Fortschritte wirksam zu kommunizieren
Fazit: Skalierung setzt sich am Ende durch
- Ziel dieses Artikels ist nicht, den Sieger im KI-Wettbewerb vorherzusagen
- Die zentrale Lehre lautet vielmehr, dass Skalierung am Ende menschlichen Erfindungsreichtum (ingenuity) übertrumpft
  - Es ist bedauerlich, das sagen zu müssen, aber manche Dinge liegen außerhalb unserer Kontrolle
- Der Erfolg von Grok 3 erinnert erneut daran, dass nicht „klügere Algorithmen“, sondern „größere Rechenleistung“ den Fortschritt der KI antreiben

3 Kommentare

kobings 2025-02-23

„OpenAI: ChatGPT hat 3 Millionen wöchentliche Nutzer“
Ich habe den Originaltext geprüft, dort stand 300M, daher bitte auf 300 Millionen korrigieren.

doolayer 2025-02-22

orthogonal, aber nicht orthonormal.

GN⁺ 2025-02-21

Hacker-News-Kommentare

Die Entstehung eines „co-state-of-the-art“-Modells ist kein Sieg der Skalierungsgesetze
- Dass xAI für Grok 3 mehr Rechenleistung eingesetzt hat, bestehende Modelle aber nicht deutlich übertroffen wurden, könnte ein Beleg dafür sein, dass Hyper-Skalierung nur schrittweise Verbesserungen bringt
- Dass mehr Rechenleistung Computer besser macht, ist eine triviale Beobachtung
- Der Artikel versucht, die Unterschiede zwischen symbolischer KI der 70er und neuronalen Netzen der 2010er auf die Unterschiede zwischen GPT-4 und Grok 3 anzuwenden
- Viele zweifeln an der tatsächlichen Leistung von Grok 3 und vermuten, dass es auf bestimmte Benchmarks hin trainiert wurde
- Sabine Hossenfelder erwähnt, dass Grok 3 daran scheiterte, Bells Theorem zu erklären
- Das zeigt, dass groß angelegte Skalierung die Intelligenz nicht verbessert
DeepSeek brauchte 17 Monate, um SOTA-Ergebnisse zu erreichen, und das Modell von xAI liegt nicht weit über DeepSeek R1
- xAI will von $3 billion $2.5 billion in GPUs und $0.5 billion in Talente investieren
- DeepSeek will $1 billion in GPUs und $2 billion in Talente investieren
- Es wird behauptet, dass der Ansatz von DeepSeek besser skalierbar ist
Skepsis darüber, dass ein Nicht-Reasoning-Modell bei GPQA Diamond 75 % erreicht hat
- xAI soll die Grok-3-API nächste Woche bereitstellen, damit man die tatsächliche Leistung durch eigene Evaluierungen prüfen kann
- Dass DeepSeek über 50k Hopper-GPUs verfügt, könnte eine übertriebene Zahl sein
- Eine Stellenausschreibung für Praktikanten von DeepSeek erwähnt nur „unbegrenzten Zugriff auf 10k A100s“
Aus den jüngsten Veränderungen werden merkwürdige Schlussfolgerungen gezogen
- Viel Geld fließt in den AI-Boom, aber das wird bald enden
- Menschen mit viel Erfahrung bei technologischen Verbesserungen werden langfristig am besten positioniert sein
Wenn Grok eine ähnliche Intelligenz wie andere führende Modelle hat, stellt sich die Frage, welches Unternehmen zu Grok wechseln würde
Wenn der Einsatz von mehr Rechenleistung Kosten in Milliardenhöhe verursacht, könnte sich die „bittere Lektion“ nicht mehr um Hardware, sondern um Geld drehen
- Es könnte einen Weg geben, auf dem energieeffizientere Modelle auch ohne VC-Finanzierung praktikabel sind
Die Behauptung des Artikels zur „bitteren Lektion“ beruht auf einem logischen Fehlschluss
- Skalierung und Optimierung werden als gegenseitig ausschließende Strategien dargestellt
- Die algorithmischen Innovationen von DeepSeek ergänzen die Skalierungsbemühungen
- Die Behauptung, dass Rechenleistung das „Post-Training-Zeitalter“ dominieren werde, ignoriert potenzielle Störfaktoren
Es ist interessant, wie sich die Gewinnung von Talenten entwickeln wird
- Viele Ingenieure sind durch stark DEI-fokussierte PR enttäuscht
- Es stellt sich die Frage, ob Menschen, die aus ethischen Gründen enge Beziehungen zu China vermieden haben, das nun auch auf die USA anwenden werden
Noch ein weiterer Blogeintrag zum AI-Hype
- Es gibt nicht einmal eine Erwähnung der unterschiedlich gefärbten Balken bei den Benchmark-Ergebnissen
- Grok-3 beweist oder widerlegt die Skalierungsgesetze nicht auf sinnvolle Weise