Das illustrierte DeepSeek-R1
(newsletter.languagemodels.co)The Illustrated DeepSeek-R1
-
Einführung in DeepSeek-R1
- DeepSeek-R1 ist ein wichtiger Meilenstein in der Entwicklung von AI und hat großen Einfluss auf die ML-Forschungs- und Entwicklungsgemeinschaft.
- Das Modell ist ein Open-Weights-Modell, und es werden auch destillierte Versionen in kleinerer Größe bereitgestellt.
- Es teilt und übernimmt Trainingsmethoden zur Reproduktion von Reasoning-Modellen wie OpenAI O1.
-
Zusammenfassung des LLM-Trainings
- DeepSeek-R1 erzeugt wie bestehende LLMs jeweils ein Token auf einmal und ist besonders stark beim Lösen von Mathematik- und Reasoning-Problemen.
- Der allgemeine Prozess zur Erstellung eines hochwertigen LLM sieht wie folgt aus:
- Eine Sprachmodellierungsphase, in der mit großen Mengen an Webdaten das nächste Wort vorhergesagt wird.
- Eine Phase des Supervised Fine-Tuning, die das Modell dazu bringt, Anweisungen zu befolgen und Fragen zu beantworten.
- Eine Präferenz-Anpassungsphase, in der das Verhalten des Modells an menschliche Präferenzen angepasst wird.
-
Trainingsprozess von DeepSeek-R1
- DeepSeek-R1 verwendet das Basismodell von DeepSeek-V3 und durchläuft SFT- sowie Präferenz-Anpassungsphasen.
- Drei besondere Punkte, die beim Entstehungsprozess von R1 hervorstechen:
- SFT-Daten mit langen Reasoning-Ketten: Enthält 600.000 Beispiele für langes Reasoning.
- Temporäres hochwertiges Reasoning-LLM: Ein auf Reasoning spezialisiertes Modell, das mit einer kleinen Menge gelabelter Daten und groß angelegtem Reinforcement Learning erzeugt wurde.
- Erzeugung eines Reasoning-Modells durch groß angelegtes Reinforcement Learning: Über ein Modell namens R1-Zero werden Reasoning-Beispiele erzeugt, mit denen anschließend ein allgemeines Modell trainiert wird.
-
Eigenschaften von R1-Zero
- R1-Zero ist bei Reasoning-Aufgaben auch ohne gelabelten SFT-Trainingssatz hervorragend.
- Das deutet darauf hin, dass moderne Basismodelle ein bestimmtes Niveau an Qualität und Fähigkeiten überschreiten.
- Reasoning-Probleme können automatisch verifiziert oder gelabelt werden.
-
Erzeugung von SFT-Reasoning-Daten
- Das temporäre Reasoning-Modell durchläuft eine SFT-Trainingsphase mit einigen tausend Beispielen für Reasoning-Probleme.
- Diese Daten werden erzeugt, indem die Ausgaben von R1-Zero lesbarer aufbereitet werden.
-
Allgemeine RL-Trainingsphase
- R1 ist sowohl bei Reasoning- als auch bei Nicht-Reasoning-Aufgaben hervorragend.
- Es wird unter Nutzung von Belohnungsmodellen für Nützlichkeit und Sicherheit in verschiedenen Anwendungen eingesetzt.
-
Architektur
- DeepSeek-R1 besteht aus 61 Transformer-Decoder-Blöcken.
- Die ersten drei bestehen aus dichten Layern, der Rest aus Mixture-of-Experts-Layern.
-
Fazit
- Hilft dabei, die zentralen Konzepte des DeepSeek-R1-Modells zu verstehen.
- Weitere Informationen finden sich im Buch Hands-On Large Language Models oder auf GitHub.
Noch keine Kommentare.