Erklärung zu R1 und allem anderen

(timkellogg.me)

41 Punkte von GN⁺ 2025-01-27 | 9 Kommentare | Auf WhatsApp teilen

Eine Einordnung der aktuellen Lage, um das plötzlich aufgetauchte R1 und die sich schnell verändernden Entwicklungen wie o1 und o3 zu verstehen

Zeitleiste

1. September 2024: Veröffentlichung von o1-preview
1. Dezember 2024: Release der finalen Version von o1 sowie von o1-pro
1. Dezember 2024: Ankündigung von o3 (besteht ARC-AGI und rückt dadurch als „AGI“ in den Fokus)
1. Dezember 2024: Veröffentlichung von DeepSeek V3
1. Januar 2025: Veröffentlichung von DeepSeek R1 (ähnliche Leistung wie o1, aber Open Source)
1. Januar 2025: Forschungsteam der Universität Hongkong repliziert erfolgreich die R1-Ergebnisse
1. Januar 2025: Huggingface kündigt das vollständig Open-Source-Projekt open-r1 an, das R1 repliziert
Zur Klarstellung
- o1, o3 und R1 sind allesamt Reasoning-Modelle
- DeepSeek V3 ist ein LLM (Basismodell), und Reasoning-Modelle werden durch Fine-Tuning daraus erzeugt
- ARC-AGI-1 ist die einfachste und grundlegendste Bewertung fluider Intelligenz. Ein Nichtbestehen bedeutet, dass ein System in unbekannten Situationen fast völlig unfähig ist, sich anzupassen oder Probleme zu lösen

# Reasoning & Agents

Reasoning-Modelle != Agents

Reasoning-Modelle sind Modelle, die vor dem Erzeugen einer Antwort einen „Denk“-Prozess durchlaufen
- LLMs „denken“, indem sie Tokens erzeugen
- Deshalb trainieren wir Modelle darauf, sehr viele Tokens zu erzeugen, in der Hoffnung, dass sie so die richtige Antwort finden
AI-Agents werden durch zwei Dinge definiert
- Autonomie (agency) für Entscheidungen und das Erledigen von Aufgaben
- Die Fähigkeit, mit der Außenwelt zu interagieren
Ein LLM oder ein Reasoning-Modell allein erzeugt nur Tokens und kann diese beiden Funktionen daher nicht erfüllen
- Um echte Entscheidungen zu treffen und Interaktionsfähigkeiten bereitzustellen, braucht es Software
Agents sind Systeme aus mehreren AIs. Mehrere Modelle und Software werden kombiniert, damit sie autonom mit der Welt interagieren können. Dasselbe gilt für Hardware.

Reasoning ist wichtig

Reasoning-Modelle werden mit Agents verwechselt, weil Reasoning derzeit den Flaschenhals darstellt
Um Aufgaben zu planen, zu überwachen, zu verifizieren und intelligenter zu werden, ist Reasoning essenziell
Ohne Reasoning-Fähigkeiten lassen sich keine Agents bauen, aber sobald die Reasoning-Benchmarks gesättigt sind, werden neue Herausforderungen entstehen

Reasoning muss günstiger werden

Agents laufen über Stunden bis Tage oder sogar 24/7 ohne Pause
Das ist der Kern autonomen Handelns, und dadurch steigen die Kosten
Derzeit ist R1 etwa 30-mal günstiger als o1 und liefert dabei eine ähnliche Leistung

# Warum R1 wichtig ist

Es ist günstig, Open Source und hat nachgewiesen, dass es eine ähnliche Leistung wie o1 und o3 erreichen kann
Auf Basis veröffentlichter Dokumente gab es einige Vorhersagen darüber, wie o1 funktioniert, und das veröffentlichte R1-Paper bestätigt all das fast vollständig. Dadurch verstehen wir nun, wie o1 auf o3 und o4 skaliert
Da es außerdem Open Source ist, kann nun jeder auf der Welt mit eigenen Ideen darauf aufbauen
Das zeigt sich an der Timeline der vergangenen Woche von Leuten, die R1 nachimplementiert haben (manche sagen sogar, sie hätten es für $30 gebaut)
Innovation entsteht, wenn schnell und günstig iteriert werden kann, und R1 hat dafür die Voraussetzungen geschaffen
Am wichtigsten ist, dass R1 gezeigt hat, dass sich starke Reasoning-Leistung auch mit einfachem RL statt mit komplexen Ideen wie DPO oder MCTS erreichen lässt

# Trends in der AI-Entwicklung

Vortraining (Pretraining) stößt an Skalierungsgrenzen

Seit GPT-4 zeigen sich Grenzen des bisherigen „Scaling Law“, bei dem man einfach große Datenmengen und Rechenressourcen weiter hochskaliert
Wegen Problemen bei der Datenbeschaffung und neuer Reasoning-Ansätze gilt die alte Methode allein nicht mehr als ausreichend für große Fortschritte

Scaling Law zur Inferenzzeit (Inference Time)

Reasoning-Modelle wie o1 und r1 zeigen die Tendenz, dass die Leistung besser wird, je länger sie „nachdenken“
Unklar war allerdings, wie genau man für bessere Ergebnisse mehr Rechenleistung einsetzen sollte
Die naive Annahme war, dass Chain of Thought (CoT) funktionieren könnte und dass man das Modell nur darauf trainieren müsse, CoT auszuführen
Das Problem ist, wie man effizient den schnellsten Weg zur Lösung findet
- Entropix ist ein Ansatz, der interne Signale des Modells nutzt, um den effizientesten Pfad zu finden
- Es gab auch Verfahren wie Monte-Carlo Tree Search (MCTS), die viele Pfade erzeugen, aber nur einen einzigen auswählen
Es stellte sich heraus, dass CoT am besten ist
- R1 nutzt eine einfache einzeilige Chain of Thought (CoT), auf die RL angewendet wird
- Wahrscheinlich kann man annehmen, dass o1 dasselbe tut

Verkleinerte Modelle (Down-Sized Models)

Angefangen hat es mit GPT-4-turbo, danach kamen GPT-4o, die Claude-Serie und andere LLMs. Sie alle wurden im Verlauf von 2024 immer kleiner und günstiger
Da für Reasoning viele Tokens erzeugt werden müssen, führt eine kleinere Modellgröße zu schnellerer Berechnung und damit höherer Effizienz
„Kleineres Modell = schlauer“

Reinforcement Learning

R1 verwendet einen einfachen RL-Ansatz namens GRPO (Group Rewards Policy Optimization), um das Modell darauf zu trainieren, zum Inferenzzeitpunkt CoT auszuführen
Es braucht keine komplexen Verifier oder externen LLMs. RL mit einer einfachen Belohnungsfunktion für Genauigkeit und Ausgabeformat reicht aus
R1-Zero ist DeepSeeks R1-Version, die nur GRPO ausführt und nichts anderes unterstützt
- Sie ist genauer als R1, springt aber frei zwischen verschiedenen Sprachen wie Englisch und Chinesisch hin und her und ist deshalb für normale Nutzer, die typischerweise nicht mehrsprachig sind, ungeeignet
Warum springt R1-Zero zwischen Sprachen?
- Meine Vermutung ist: „weil sich unterschiedliche Arten von Konzepten in verschiedenen Sprachen effektiver ausdrücken lassen“
- Es gibt das Meme „what’s the german word for [paragraph of text]?“
Stand 25. Januar 2025 hat jemand demonstriert, dass „jede Art von RL funktioniert“
- GRPO, PPO und PRIME wurden alle ausprobiert, und alle funktionieren gut
- Die magische Zahl ist 1.5B. Sobald ein Modell mehr als 1.5B (1,5 Milliarden) Parameter hat, scheint sich Reasoning-Fähigkeit unabhängig von der RL-Methode zu zeigen
Wie weit lässt sich das skalieren?

Model Distillation

R1 wurde aus seinen eigenen früheren Checkpoints destilliert
Distillation bedeutet, dass ein Teacher-Modell Trainingsdaten für ein Student-Modell erzeugt, wobei man normalerweise davon ausgeht, dass der Teacher größer ist als der Student
- R1 nutzte frühere Checkpoints desselben Modells, um Trainingsdaten für Supervised Fine-Tuning (SFT) zu erzeugen
- Durch Wiederholung von SFT und RL wurde das Modell verbessert
Wie weit kann das gehen?
Vor sehr langer Zeit (vor 9 Tagen) gab es die Vorhersage, dass GPT5 existiert und GPT4o nur daraus destilliert wurde
- Dieser Beitrag stellt die Theorie auf, dass OpenAI und Anthropic große Modelle trainieren, sie dann destillieren und mit den destillierten Modellen erneut noch größere Modelle erzeugen – als fortlaufenden Zyklus
- Ich würde sagen, das R1-Paper bestätigt weitgehend, dass das möglich ist (und damit auch wahrscheinlich tatsächlich passiert)
Dann könnte das sehr lange so weitergehen
Hinweis: Einige Experimente deuten darauf hin, dass ein Student-Modell den Teacher sogar übertreffen kann. Wie oft das in der Praxis passiert, ist noch unklar
- Intuitiv könnte Distillation dem Student helfen, Signale zu finden und schneller zu konvergieren
- Model collapse bleibt zwar die größte Sorge, wirkt aber größtenteils wie eine unnötige Angst
- Ein Kollaps des Modells ist natürlich immer möglich, aber keineswegs garantiert, und es gibt auch den umgekehrten Fall, in dem der Student den Teacher übertrifft

# Ausblick auf 2025

Aktuelle Lage:
- Vortraining ist schwierig (aber nicht tot)
- Reasoning-Scaling
- Verkleinerung von Modellen
- Scaling Law für RL
- Scaling Law durch Model Distillation
Es sieht nicht so aus, als würde sich das Tempo der AI-Entwicklung verlangsamen. Ein Scaling Law wird schwächer, aber vier weitere sind hinzugekommen
Dieser Trend dürfte sich vorerst weiter beschleunigen

Geopolitische Frage: Distealing

„Distealing“ ist ein von mir geprägtes Wort für das „unerlaubte Destillieren“ von Modellen
Software ist inzwischen Politik, und im Zentrum davon steht AI
- AI scheint auf nahezu jeder politischen Achse eine Rolle zu spielen, am interessantesten ist dabei China gegen die USA
Strategie
- USA: massive Finanzierung. So schnell wie möglich Geld ins AI-Feuer kippen
- China: Wegen restriktiver Exportkontrollen werden klügere Engineers und Forscher darauf angesetzt, günstigere Lösungen zu finden
- Europa: Regulierung oder Open-Source-AI – beides wäre recht
Es gibt Kontroversen darüber, ob DeepSeek o1 unerlaubt destilliert („distealing“) hat, aber wenn man die Repliken von R1 betrachtet, wird derzeit eher angenommen, dass R1 wahrscheinlich eigenständig entwickelt wurde
- Dennoch liegt Spannung in der Luft, weil ein chinesisches Labor OpenAIs bestes Modell mit hohem Tempo eingeholt hat
AI wird bald (auch wenn vielleicht noch nicht sofort) seine Fähigkeiten mit exponentieller Geschwindigkeit verbessern
- Die politischen und geopolitischen Auswirkungen werden enorm sein
- Gerade Menschen, die in der künstlichen Intelligenz arbeiten, sollten sich daher stärker für Politik interessieren und offen dafür sein, welche politischen Maßnahmen gut oder schlecht sind

Fazit

Der wichtigste Punkt ist, dass R1 Klarheit in Bereiche bringt, die zuvor undurchsichtig waren
Dadurch ist die Zukunft der AI klarer geworden, und ihr Tempo scheint sich immer schneller zu erhöhen

9 Kommentare

xguru 2025-02-02

mammal 2025-01-27

Da es um Distillation geht, ist es etwas spät, das jetzt zu kritisieren: Schon in der Frühphase von LLaMA 1 gab es mit Alpaca und Vicuna Modelle, die aus GPT destilliert wurden, und selbst in den heutigen Frontier-Labs gibt es praktisch keinen Ort, der nicht mit Model-Outputs anderer Modelle trainiert.

Tatsächlich sind die heutigen Frontier-Modelle größtenteils nichts anderes als aus GPT destillierte Inzucht-Gene, die dann je nach Geschmack des jeweiligen Labs mit RLHF weiterbearbeitet wurden.

mammal 2025-01-27

Worüber man sich im Moment am meisten Sorgen machen sollte, ist nicht Chinas unautorisierte Destillation oder Zensur.

Erschütternd ist, dass MLA, MTP, das Mixed-Precision-Framework und GRPO – also der Hintergrund von DeepSeeks wahnsinniger Effizienz – ausschließlich von Absolventen chinesischer Universitäten entwickelt wurden, zu 100 % ohne ausländische Beteiligung.

In den USA ist inzwischen sogar vom zweiten Sputnik-Schock die Rede...

luminance 2025-01-27

War mit distealing nicht eigentlich distilling gemeint?

grogu 2025-01-27

Es scheint, dass der Autor das Wort „distealing“ geprägt hat, um unautorisiertes Distillieren von „distilling“ im Sinne von Destillation zu unterscheiden – auch als eine Art Wortspiel, da es gleich ausgesprochen wird (wie im Text erwähnt).

luminance 2025-01-27

Vielen Dank für die Erklärung.

savvykang 2025-01-27

> Geopolitik: Distealing
> Geopolitisches Thema: Distealing

> Diesen Begriff, distealing, habe ich geprägt: die unautorisierte Destillation von Modellen. Nur zu, benutzt ihn, es ist ein lustiges Wort.
> „Distealing“ ist ein von mir geprägtes Wort für die „unautorisierte Destillation“ von Modellen.

luminance 2025-01-27

Im Original stand also Inhalt. Vielen Dank.

GN⁺ 2025-01-27

Hacker-News-Kommentare

Zur Behauptung, R1 habe komplexe Ideen durch simples Reinforcement Learning ersetzt: Tatsächlich wurde eine Mischung aus Reinforcement Learning und Supervised Learning verwendet. Die für das Supervised Learning genutzten Daten könnten eher von Menschen kuratiert als vom Modell selbst erzeugt worden sein
- Es gibt Versuche, R1 zu reproduzieren, und einige behaupten, das sei für 30 $ möglich, aber dabei könnte es sich eher um ein Fine-Tuning von R1 als um R1 selbst handeln
- Hugging Face versucht, R1 zu reproduzieren, aber das ist eine ziemlich große Aufgabe und nichts, was sich für 30 $ erledigen lässt
Der Artikel enthält viel Übertreibung und ist daher schwer vertrauenswürdig
- Benchmarks für verschiedene Modelle konzentrieren sich auf Mathematik- und Coding-Genauigkeit, aber für bestimmte Anwendungsfälle sind diese Fähigkeiten nicht wichtig. Konzepte zu benchmarken ist schwierig
- Es wird die Frage aufgeworfen, ob sich durch Distillation ein Modell erstellen lässt, bei dem Mathematik- und Coding-Aspekte entfernt wurden
Dass R1 in den Mainstream-Nachrichten auftauchte, hat Verwirrung und Alarm ausgelöst. Es ist schwer zu erklären, dass China keine Bedrohung für die USA darstellt
- Zur Schlussfolgerung, dass die Fähigkeiten von KI exponentiell zunehmen werden: Der einzige Datenpunkt ist, dass R1 als Open-Source-Modell das Niveau von o1 erreicht hat. Das sind zwei sehr wenig miteinander verbundene Themen
Es wird die Frage gestellt, ob KI bereits schlussfolgert
- ARC-AGI ist ein Benchmark, der für Menschen einfach, für KI aber sehr schwierig ist. Es gibt das Missverständnis, dass KI nach dessen Lösung in der Lage wäre, dasselbe wie Menschen zu tun
- François Chollet, der Schöpfer von ARC-AGI, erklärt, wie einfach ARC-AGI-1 war und was es bedeutet, ihn zu lösen
- Das Bestehen von ARC-AGI-1 zeigt, dass ein System über nicht-null fluide Intelligenz verfügt, sagt aber nichts über das Intelligenzniveau des Systems oder seine Nähe zur menschlichen Intelligenz aus
Die Schlussfolgerung, dass die Fähigkeiten von KI bald exponentiell zunehmen werden, ist kaum begründet. Es wäre gut zu wissen, wie der Autor zu dieser Schlussfolgerung gekommen ist

Erklärung zu R1 und allem anderen

Zeitleiste

# Reasoning & Agents

Reasoning-Modelle != Agents

Reasoning ist wichtig

Reasoning muss günstiger werden

# Warum R1 wichtig ist

# Trends in der AI-Entwicklung

Vortraining (Pretraining) stößt an Skalierungsgrenzen

Scaling Law zur Inferenzzeit (Inference Time)

Verkleinerte Modelle (Down-Sized Models)

Reinforcement Learning

Model Distillation

# Ausblick auf 2025

Geopolitische Frage: Distealing

Fazit

Verwandte Beiträge

9 Kommentare

Hacker-News-Kommentare