Analyse von DeepSeeks R1-Zero und R1
(arcprize.org)- Die ARC Prize Foundation hat das Ziel, AGI (Artificial General Intelligence) zu definieren, zu messen und neue Ideen anzustoßen
- AGI wurde bislang noch nicht erreicht, und die bloße Skalierung des Vortrainings reiner LLMs (Large Language Models) ist nicht die Lösung
- Während 2023–24 rund 20 Milliarden US-Dollar in LLM-Startups investiert wurden, flossen nur etwa 200 Millionen US-Dollar in AGI-Startups
Analyse von DeepSeeks R1-Zero und R1
- Die von DeepSeek vorgestellten Systeme R1-Zero und R1 haben große Aufmerksamkeit erhalten, weil sie Ergebnisse auf einem Niveau nahe dem von OpenAIs o1-System gezeigt haben
- Sowohl R1-Zero als auch R1 erreichten im ARC-AGI-1 etwa 15–20 %
- Das ist deutlich höher als GPT-4o mit 5 %
- Der Mainstream der KI-Industrie hat sich zuletzt auf die bloße Skalierung von LLMs (Large Language Models) konzentriert, doch dies gilt nicht als direkte Lösung zur Verwirklichung von AGI
- Die ARC Prize Foundation fördert über den Benchmark ARC-AGI-1 die Forschung an KI-Systemen, die sich auch an neue Probleme anpassen können, ohne dafür eigens trainiert worden zu sein
R1-Zero ist wichtiger als R1
- Aus den Forschungsergebnissen von DeepSeek gingen R1-Zero und R1 hervor
- R1-Zero, R1 und OpenAIs o1 (low compute) erzielten im ARC-AGI-1 ähnliche Werte von 15–20 %
- Das Ende 2024 von OpenAI vorgestellte System o3 steigerte den Wert im ARC-AGI-1 auf bis zu 88 % und zeigte damit, dass es neue Probleme adaptiv lösen kann
- Allerdings ist o3 in vielen Punkten nicht öffentlich, weshalb es für Forschende schwierig ist, die technischen Details zu verstehen
- R1-Zero wird im Vergleich zu R1 als zukunftsträchtiger angesehen, weil es kein direktes menschliches Labeling (SFT) durchlaufen hat
R1-Zero beseitigt den menschlichen Engpass
-
Bisherige Reasoning-Modelle wurden trainiert, indem menschliches Labeling (SFT) oder maschinelle Belohnung (RL) auf den Problemlösungsprozess (Chain-of-Thought, im Folgenden CoT) angewendet wurde
-
R1-Zero lernt CoT ohne SFT, also ohne menschliche Experten-Labels, ausschließlich mit Reinforcement Learning (RL)
-
Im ARC-AGI-1 erreichte R1-Zero 14 %, R1 kam auf 15 % und zeigte damit nahezu die gleiche Leistung
-
Auch in anderen Benchmarks wie MATH AIME 2024 fielen die Ergebnisse von R1-Zero und R1 ähnlich aus
-
Es gab Bedenken wegen Sprachmischung oder Lesbarkeit, doch in realen Tests arbeitete das Modell ohne größere Inkohärenzen gut in den Bereichen Mathematik und Coding
-
Daraus ergeben sich die folgenden zentralen Implikationen
- Auch ohne menschliches Labeling ist in bestimmten Domänen präzises und verständliches Reasoning möglich
- R1-Zero kann allein durch Reinforcement Learning eine eigene domänenspezifische Token-Repräsentation (DSL) erzeugen
- SFT kann weiterhin nötig sein, um die Breite des Reasoning zu erweitern
-
Letztlich zeigt R1-Zero das Skalierungspotenzial eines „ohne menschlichen Engpass“-Ansatzes, bei dem es selbstständig Trainingsdaten ohne menschliche Abhängigkeit erzeugen kann
-
Nachfolgend eine kurze Übersicht über die von verschiedenen Systemen im ARC-AGI-1 erreichten Werte, die durchschnittliche Token-Zahl und die Inferenzkosten
- r1-zero: 14 %, ohne SFT, keine sequentielle Reasoning-Suche, durchschnittlich 11K Token, Kosten ca. $0.11
- r1: 15.8 %, mit SFT, keine sequentielle Reasoning-Suche, durchschnittlich 6K Token, Kosten ca. $0.06
- o1(low): 20.5 %, mit SFT, keine sequentielle Reasoning-Suche, durchschnittlich 7K Token, Kosten ca. $0.43
- o1(med): 31 %, mit SFT, keine sequentielle Reasoning-Suche, durchschnittlich 13K Token, Kosten ca. $0.79
- o1(high): 35 %, mit SFT, keine sequentielle Reasoning-Suche, durchschnittlich 22K Token, Kosten ca. $1.31
- o3(low): 75.7 %, mit SFT, mit Suche und Sampling, durchschnittlich 335K Token, Kosten ca. $20
- o3(high): 87.5 %, mit SFT, mit Suche und Sampling, durchschnittlich 57M Token, Kosten ca. $3,400
Kosten für Verlässlichkeit
- Eine große Veränderung im aktuellen KI-Markt besteht darin, dass sich mit höherem Aufwand auch Genauigkeit und Verlässlichkeit steigern lassen
- Zudem verlagert sich das Gewicht von den Trainingskosten hin zu den Inferenzkosten
- Wenn in der Inferenzphase viele Rechenressourcen eingesetzt werden, lassen sich genauere und stabilere Ergebnisse erzielen
- Die meisten Unternehmen konnten wegen der Verlässlichkeitsprobleme von KI-Systemen bislang keine groß angelegte Automatisierung einführen
- Es wird erwartet, dass Fortschritte im ARC-AGI-Bereich die Verlässlichkeit von KI-Agenten erhöhen werden; auch Anthropic, OpenAI und Apple bereiten agentische Dienste vor
- Nutzer werden tendenziell bereit sein, für die benötigte Genauigkeit mehr zu bezahlen
- Daher wird ein deutlich steigender Bedarf an KI-Inferenz erwartet, was wiederum zu mehr Nachfrage nach Rechenressourcen führen dürfte
Reasoning ist Lernen
- Früher wurden große Datenmengen gesammelt oder mit bestehenden LLMs synthetische Daten erzeugt und dann fürs Training genutzt
- Nun können Nutzer oder Systeme im Reasoning-Prozess tatsächlich neue, gültige Daten erzeugen
- Das bedeutet einen neuen ökonomischen Wandel, bei dem „Reasoning zugleich Lernen ist“
- KI-Modelle mit vielen Nutzern sammeln mehr Inferenzdaten, und genau das führt wiederum zu Verbesserungen des Modells
- Falls sogar der SFT-Prozess (menschliches Labeling) überflüssig wird, könnte effizientes Lernen auch mit Systemen möglich werden, die einfach mit hohem Kostenaufwand Suche, Synthese und Verifikation wiederholen
Fazit
- Mit dem steigenden Bedarf an Reasoning in KI-Systemen dürfte die Neubewertung des Marktes anhalten
- Da mit R1 ein Open-Source-System erschienen ist, das CoT-Ansätze mit Suchtechniken kombiniert, wird erwartet, dass mehr Forschende und Entwickler Grenzen austesten und Innovationen beschleunigen können
- Die Veröffentlichung von R1-Zero und R1 dürfte einen großen Beitrag zur weltweiten Weiterentwicklung von KI leisten
- Mehrere Teams haben bereits signalisiert, für den ARC Prize 2025 Systeme wie R1 einsetzen zu wollen, weshalb die künftigen Ergebnisse mit Spannung erwartet werden
- Das von DeepSeek veröffentlichte R1 wird positiv bewertet, weil es als wichtiger Hinweis auf dem Weg zu AGI zum wissenschaftlichen Fortschritt beigetragen hat
1 Kommentare
Hacker-News-Kommentare
Entwickler von AI-Systemen könnten wirtschaftliche Veränderungen auslösen, indem sie neue Daten erzeugen. Kunden könnten die Kosten für die Datenerzeugung tragen und so die Qualität der Modelle verbessern
Möglicherweise sind Verbesserungen des Basismodells gar nicht nötig, und ein allgemeines Modell könnte ausreichen
Das o3-System zeigt die erste praktische Umsetzung eines Computers, der sich an neue Probleme anpasst
Es wird zwar behauptet, menschliche Engpässe würden beseitigt, doch außerhalb von Mathematik und Informatik ist es in den meisten Bereichen schwierig, verifizierbare Belohnungen zu definieren
In der AI-Ökonomie finden zwei wesentliche Veränderungen statt
o3 erreichte 75 % bei AGI-1, während R1 und o1 nur auf 25 % kamen
Dass sich viel Rechenaufwand auf die Inferenz verlagert, hat große Auswirkungen auf die aktuellen AI-Investitionen
Mike von Baseten erklärte, er sei stolz darauf, diese Arbeit zu unterstützen
R1-Zero zeigt ein potenziell skalierbares System ohne menschliche Engpässe
R1 zeigt eine hervorragende Leistung im Verhältnis zu den Kosten
Es wird prognostiziert, dass die Zukunft der LLMs in maßgeschneiderten Einzel-Apps liegt