Analyse von DeepSeeks R1-Zero und R1

(arcprize.org)

5 Punkte von GN⁺ 2025-01-30 | 1 Kommentare | Auf WhatsApp teilen

Die ARC Prize Foundation hat das Ziel, AGI (Artificial General Intelligence) zu definieren, zu messen und neue Ideen anzustoßen
AGI wurde bislang noch nicht erreicht, und die bloße Skalierung des Vortrainings reiner LLMs (Large Language Models) ist nicht die Lösung
Während 2023–24 rund 20 Milliarden US-Dollar in LLM-Startups investiert wurden, flossen nur etwa 200 Millionen US-Dollar in AGI-Startups

Analyse von DeepSeeks R1-Zero und R1

Die von DeepSeek vorgestellten Systeme R1-Zero und R1 haben große Aufmerksamkeit erhalten, weil sie Ergebnisse auf einem Niveau nahe dem von OpenAIs o1-System gezeigt haben
Sowohl R1-Zero als auch R1 erreichten im ARC-AGI-1 etwa 15–20 %
Das ist deutlich höher als GPT-4o mit 5 %
Der Mainstream der KI-Industrie hat sich zuletzt auf die bloße Skalierung von LLMs (Large Language Models) konzentriert, doch dies gilt nicht als direkte Lösung zur Verwirklichung von AGI
Die ARC Prize Foundation fördert über den Benchmark ARC-AGI-1 die Forschung an KI-Systemen, die sich auch an neue Probleme anpassen können, ohne dafür eigens trainiert worden zu sein

R1-Zero ist wichtiger als R1

Aus den Forschungsergebnissen von DeepSeek gingen R1-Zero und R1 hervor
R1-Zero, R1 und OpenAIs o1 (low compute) erzielten im ARC-AGI-1 ähnliche Werte von 15–20 %
Das Ende 2024 von OpenAI vorgestellte System o3 steigerte den Wert im ARC-AGI-1 auf bis zu 88 % und zeigte damit, dass es neue Probleme adaptiv lösen kann
Allerdings ist o3 in vielen Punkten nicht öffentlich, weshalb es für Forschende schwierig ist, die technischen Details zu verstehen
R1-Zero wird im Vergleich zu R1 als zukunftsträchtiger angesehen, weil es kein direktes menschliches Labeling (SFT) durchlaufen hat

R1-Zero beseitigt den menschlichen Engpass

Bisherige Reasoning-Modelle wurden trainiert, indem menschliches Labeling (SFT) oder maschinelle Belohnung (RL) auf den Problemlösungsprozess (Chain-of-Thought, im Folgenden CoT) angewendet wurde
R1-Zero lernt CoT ohne SFT, also ohne menschliche Experten-Labels, ausschließlich mit Reinforcement Learning (RL)
Im ARC-AGI-1 erreichte R1-Zero 14 %, R1 kam auf 15 % und zeigte damit nahezu die gleiche Leistung
Auch in anderen Benchmarks wie MATH AIME 2024 fielen die Ergebnisse von R1-Zero und R1 ähnlich aus
Es gab Bedenken wegen Sprachmischung oder Lesbarkeit, doch in realen Tests arbeitete das Modell ohne größere Inkohärenzen gut in den Bereichen Mathematik und Coding
Daraus ergeben sich die folgenden zentralen Implikationen
- Auch ohne menschliches Labeling ist in bestimmten Domänen präzises und verständliches Reasoning möglich
- R1-Zero kann allein durch Reinforcement Learning eine eigene domänenspezifische Token-Repräsentation (DSL) erzeugen
- SFT kann weiterhin nötig sein, um die Breite des Reasoning zu erweitern
Letztlich zeigt R1-Zero das Skalierungspotenzial eines „ohne menschlichen Engpass“-Ansatzes, bei dem es selbstständig Trainingsdaten ohne menschliche Abhängigkeit erzeugen kann
Nachfolgend eine kurze Übersicht über die von verschiedenen Systemen im ARC-AGI-1 erreichten Werte, die durchschnittliche Token-Zahl und die Inferenzkosten
- r1-zero: 14 %, ohne SFT, keine sequentielle Reasoning-Suche, durchschnittlich 11K Token, Kosten ca. $0.11
- r1: 15.8 %, mit SFT, keine sequentielle Reasoning-Suche, durchschnittlich 6K Token, Kosten ca. $0.06
- o1(low): 20.5 %, mit SFT, keine sequentielle Reasoning-Suche, durchschnittlich 7K Token, Kosten ca. $0.43
- o1(med): 31 %, mit SFT, keine sequentielle Reasoning-Suche, durchschnittlich 13K Token, Kosten ca. $0.79
- o1(high): 35 %, mit SFT, keine sequentielle Reasoning-Suche, durchschnittlich 22K Token, Kosten ca. $1.31
- o3(low): 75.7 %, mit SFT, mit Suche und Sampling, durchschnittlich 335K Token, Kosten ca. $20
- o3(high): 87.5 %, mit SFT, mit Suche und Sampling, durchschnittlich 57M Token, Kosten ca. $3,400

Kosten für Verlässlichkeit

Eine große Veränderung im aktuellen KI-Markt besteht darin, dass sich mit höherem Aufwand auch Genauigkeit und Verlässlichkeit steigern lassen
Zudem verlagert sich das Gewicht von den Trainingskosten hin zu den Inferenzkosten
Wenn in der Inferenzphase viele Rechenressourcen eingesetzt werden, lassen sich genauere und stabilere Ergebnisse erzielen
Die meisten Unternehmen konnten wegen der Verlässlichkeitsprobleme von KI-Systemen bislang keine groß angelegte Automatisierung einführen
Es wird erwartet, dass Fortschritte im ARC-AGI-Bereich die Verlässlichkeit von KI-Agenten erhöhen werden; auch Anthropic, OpenAI und Apple bereiten agentische Dienste vor
Nutzer werden tendenziell bereit sein, für die benötigte Genauigkeit mehr zu bezahlen
Daher wird ein deutlich steigender Bedarf an KI-Inferenz erwartet, was wiederum zu mehr Nachfrage nach Rechenressourcen führen dürfte

Reasoning ist Lernen

Früher wurden große Datenmengen gesammelt oder mit bestehenden LLMs synthetische Daten erzeugt und dann fürs Training genutzt
Nun können Nutzer oder Systeme im Reasoning-Prozess tatsächlich neue, gültige Daten erzeugen
Das bedeutet einen neuen ökonomischen Wandel, bei dem „Reasoning zugleich Lernen ist“
KI-Modelle mit vielen Nutzern sammeln mehr Inferenzdaten, und genau das führt wiederum zu Verbesserungen des Modells
Falls sogar der SFT-Prozess (menschliches Labeling) überflüssig wird, könnte effizientes Lernen auch mit Systemen möglich werden, die einfach mit hohem Kostenaufwand Suche, Synthese und Verifikation wiederholen

Fazit

Mit dem steigenden Bedarf an Reasoning in KI-Systemen dürfte die Neubewertung des Marktes anhalten
Da mit R1 ein Open-Source-System erschienen ist, das CoT-Ansätze mit Suchtechniken kombiniert, wird erwartet, dass mehr Forschende und Entwickler Grenzen austesten und Innovationen beschleunigen können
Die Veröffentlichung von R1-Zero und R1 dürfte einen großen Beitrag zur weltweiten Weiterentwicklung von KI leisten
Mehrere Teams haben bereits signalisiert, für den ARC Prize 2025 Systeme wie R1 einsetzen zu wollen, weshalb die künftigen Ergebnisse mit Spannung erwartet werden
Das von DeepSeek veröffentlichte R1 wird positiv bewertet, weil es als wichtiger Hinweis auf dem Weg zu AGI zum wissenschaftlichen Fortschritt beigetragen hat

1 Kommentare

GN⁺ 2025-01-30

Hacker-News-Kommentare

Entwickler von AI-Systemen könnten wirtschaftliche Veränderungen auslösen, indem sie neue Daten erzeugen. Kunden könnten die Kosten für die Datenerzeugung tragen und so die Qualität der Modelle verbessern
- Es gibt jedoch eine skeptische Sicht darauf, ob diese Daten tatsächlich von hoher Qualität sind
- Der aktuelle SOTA-Stand liegt bei Modellen auf GPT-4-Niveau, mit der Möglichkeit weiterer Fortschritte in den nächsten 2–3 Jahren
- Es erscheint vielversprechend, mit Reasoning-Modellen Daten zu erzeugen und damit Nicht-Reasoning-Modelle zu trainieren
- Unklar ist jedoch, wie gut sich Schlussfolgerungsvermögen in die Modellgewichte übertragen lässt
- Es gibt die Ansicht, dass OpenAI bereits mit den Trainingsdaten von o3 neue Modelle hätte trainieren sollen
Möglicherweise sind Verbesserungen des Basismodells gar nicht nötig, und ein allgemeines Modell könnte ausreichen
- Wichtig ist, die Preise für Reasoning-Modelle zu senken und ihre Qualität zu verbessern
Das o3-System zeigt die erste praktische Umsetzung eines Computers, der sich an neue Probleme anpasst
- OpenAI hat jedoch bekannt gegeben, o3 mit einem zu 75 % öffentlichen Trainingssatz trainiert zu haben, und der Leistungsbeitrag der ARC-AGI-Daten ist noch nicht getestet
Es wird zwar behauptet, menschliche Engpässe würden beseitigt, doch außerhalb von Mathematik und Informatik ist es in den meisten Bereichen schwierig, verifizierbare Belohnungen zu definieren
In der AI-Ökonomie finden zwei wesentliche Veränderungen statt
- Man kann mehr bezahlen, um höhere Genauigkeit und Zuverlässigkeit zu erhalten
- Die Kosten verlagern sich vom Training auf die Inferenz
- Das wird die Nachfrage nach Inferenz und damit auch den Bedarf an Rechenleistung erhöhen
o3 erreichte 75 % bei AGI-1, während R1 und o1 nur auf 25 % kamen
Dass sich viel Rechenaufwand auf die Inferenz verlagert, hat große Auswirkungen auf die aktuellen AI-Investitionen
- Für NVDA sind das schlechte Nachrichten, und Inferenz-zentrierte Lösungen haben die bessere Wirtschaftlichkeit
Mike von Baseten erklärte, er sei stolz darauf, diese Arbeit zu unterstützen
R1-Zero zeigt ein potenziell skalierbares System ohne menschliche Engpässe
- Es gibt jedoch die Frage, ob der RL-Ansatz nicht weiterhin viele menschliche Daten benötigt
R1 zeigt eine hervorragende Leistung im Verhältnis zu den Kosten
- Es gilt als vielversprechend, R1 als Datengenerator für komplexe Probleme einzusetzen
Es wird prognostiziert, dass die Zukunft der LLMs in maßgeschneiderten Einzel-Apps liegt
- Man sagt einem AI-Agenten, welche App und Anforderungen man möchte, und er baut alles vom Backend bis zum Frontend
- Er testet die Software, behebt Fehler und stellt sie in Produktion bereit
- Aktuelle LLMs sind noch nicht perfekt, aber Systeme und Workflows, die Code automatisch ausführen, kompilieren und Fehler an das LLM zurückmelden, existieren bereits

Analyse von DeepSeeks R1-Zero und R1

Analyse von DeepSeeks R1-Zero und R1

R1-Zero ist wichtiger als R1

R1-Zero beseitigt den menschlichen Engpass

Kosten für Verlässlichkeit

Reasoning ist Lernen

Fazit

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare