16 Punkte von GN⁺ 2025-01-29 | Noch keine Kommentare. | Auf WhatsApp teilen

Was ist DeepSeek-R1?

  • Das o1-Modell von OpenAI wurde mit mehr Rechenleistung trainiert, damit LLMs Schlussfolgerungsaufgaben besser bewältigen können.
  • DeepSeek-R1 erreicht eine Leistung, die mit dem o1-Modell von OpenAI vergleichbar oder besser ist, und hat gelernt, durch reines Reinforcement Learning (RL) ohne menschliche Aufsicht zu schlussfolgern.
  • Die Veröffentlichung von DeepSeek-R1 wirft verschiedene Fragen zu Datenerhebung, Modelltraining und Skalierungsgesetzen auf.

Wie haben sie es gemacht?

  • DeepSeek-R1 ist ein auf DeepSeek-V3 aufbauendes Schlussfolgerungsmodell und ein 671B Mixture-of-Experts-(MoE)-Modell.
  • DeepSeek-R1-Zero wurde ausschließlich mit Reinforcement Learning trainiert und nutzt Group Relative Policy Optimization (GRPO), um die Effizienz zu steigern.
  • DeepSeek-R1 verbessert in der Anfangsphase mithilfe kleiner Beispielmengen Klarheit und Lesbarkeit und erzeugt anschließend über Reinforcement Learning und Verfeinerungsschritte konsistente Antworten.

Open-R1: Die fehlenden Bausteine

  • Die Veröffentlichung von DeepSeek-R1 war für die Community sehr hilfreich, doch der Datensatz und der Code wurden nicht offengelegt.
  • Das Open-R1-Projekt zielt darauf ab, die Daten und die Trainings-Pipeline von DeepSeek-R1 zu rekonstruieren und Transparenz darüber zu schaffen, wie Reinforcement Learning das Schlussfolgern verbessert.

Der schrittweise Plan von Open-R1

  1. Reproduktion des R1-Distill-Modells: Extraktion hochwertiger Schlussfolgerungsdatensätze aus DeepSeek-R1 und Distillation-Training
  2. Nachbildung der Pure-RL-Trainings-Pipeline von R1-Zero: Aufbau großskaliger Datensätze für Mathematik, Logik und Code
  3. Aufbau eines schrittweisen Trainingsprozesses vom Basismodell → SFT → RL

Wie man beitragen kann

  • Es gibt verschiedene Möglichkeiten, zum Open-R1-Projekt beizutragen, etwa durch Code-Beiträge oder die Teilnahme an Diskussionen auf Hugging Face.
  • Dieses Projekt konzentriert sich nicht nur darauf, die Ergebnisse zu reproduzieren, sondern auch darauf, Erkenntnisse mit der Community zu teilen.

Noch keine Kommentare.

Noch keine Kommentare.