Open-R1: Das vollständige Open-Source-Reproduktionsprojekt von DeepSeek-R1

(huggingface.co)

16 Punkte von GN⁺ 2025-01-29 | Noch keine Kommentare. | Auf WhatsApp teilen

Was ist DeepSeek-R1?

Das o1-Modell von OpenAI wurde mit mehr Rechenleistung trainiert, damit LLMs Schlussfolgerungsaufgaben besser bewältigen können.
DeepSeek-R1 erreicht eine Leistung, die mit dem o1-Modell von OpenAI vergleichbar oder besser ist, und hat gelernt, durch reines Reinforcement Learning (RL) ohne menschliche Aufsicht zu schlussfolgern.
Die Veröffentlichung von DeepSeek-R1 wirft verschiedene Fragen zu Datenerhebung, Modelltraining und Skalierungsgesetzen auf.

DeepSeek-R1 ist ein auf DeepSeek-V3 aufbauendes Schlussfolgerungsmodell und ein 671B Mixture-of-Experts-(MoE)-Modell.
DeepSeek-R1-Zero wurde ausschließlich mit Reinforcement Learning trainiert und nutzt Group Relative Policy Optimization (GRPO), um die Effizienz zu steigern.
DeepSeek-R1 verbessert in der Anfangsphase mithilfe kleiner Beispielmengen Klarheit und Lesbarkeit und erzeugt anschließend über Reinforcement Learning und Verfeinerungsschritte konsistente Antworten.

Die Veröffentlichung von DeepSeek-R1 war für die Community sehr hilfreich, doch der Datensatz und der Code wurden nicht offengelegt.
Das Open-R1-Projekt zielt darauf ab, die Daten und die Trainings-Pipeline von DeepSeek-R1 zu rekonstruieren und Transparenz darüber zu schaffen, wie Reinforcement Learning das Schlussfolgern verbessert.

Reproduktion des R1-Distill-Modells: Extraktion hochwertiger Schlussfolgerungsdatensätze aus DeepSeek-R1 und Distillation-Training
Nachbildung der Pure-RL-Trainings-Pipeline von R1-Zero: Aufbau großskaliger Datensätze für Mathematik, Logik und Code
Aufbau eines schrittweisen Trainingsprozesses vom Basismodell → SFT → RL

Es gibt verschiedene Möglichkeiten, zum Open-R1-Projekt beizutragen, etwa durch Code-Beiträge oder die Teilnahme an Diskussionen auf Hugging Face.
Dieses Projekt konzentriert sich nicht nur darauf, die Ergebnisse zu reproduzieren, sondern auch darauf, Erkenntnisse mit der Community zu teilen.