2 Punkte von GN⁺ 2025-01-28 | Noch keine Kommentare. | Auf WhatsApp teilen

The Illustrated DeepSeek-R1

  • Einführung in DeepSeek-R1

    • DeepSeek-R1 ist ein wichtiger Meilenstein in der Entwicklung von AI und hat großen Einfluss auf die ML-Forschungs- und Entwicklungsgemeinschaft.
    • Das Modell ist ein Open-Weights-Modell, und es werden auch destillierte Versionen in kleinerer Größe bereitgestellt.
    • Es teilt und übernimmt Trainingsmethoden zur Reproduktion von Reasoning-Modellen wie OpenAI O1.
  • Zusammenfassung des LLM-Trainings

    • DeepSeek-R1 erzeugt wie bestehende LLMs jeweils ein Token auf einmal und ist besonders stark beim Lösen von Mathematik- und Reasoning-Problemen.
    • Der allgemeine Prozess zur Erstellung eines hochwertigen LLM sieht wie folgt aus:
      1. Eine Sprachmodellierungsphase, in der mit großen Mengen an Webdaten das nächste Wort vorhergesagt wird.
      2. Eine Phase des Supervised Fine-Tuning, die das Modell dazu bringt, Anweisungen zu befolgen und Fragen zu beantworten.
      3. Eine Präferenz-Anpassungsphase, in der das Verhalten des Modells an menschliche Präferenzen angepasst wird.
  • Trainingsprozess von DeepSeek-R1

    • DeepSeek-R1 verwendet das Basismodell von DeepSeek-V3 und durchläuft SFT- sowie Präferenz-Anpassungsphasen.
    • Drei besondere Punkte, die beim Entstehungsprozess von R1 hervorstechen:
      1. SFT-Daten mit langen Reasoning-Ketten: Enthält 600.000 Beispiele für langes Reasoning.
      2. Temporäres hochwertiges Reasoning-LLM: Ein auf Reasoning spezialisiertes Modell, das mit einer kleinen Menge gelabelter Daten und groß angelegtem Reinforcement Learning erzeugt wurde.
      3. Erzeugung eines Reasoning-Modells durch groß angelegtes Reinforcement Learning: Über ein Modell namens R1-Zero werden Reasoning-Beispiele erzeugt, mit denen anschließend ein allgemeines Modell trainiert wird.
  • Eigenschaften von R1-Zero

    • R1-Zero ist bei Reasoning-Aufgaben auch ohne gelabelten SFT-Trainingssatz hervorragend.
    • Das deutet darauf hin, dass moderne Basismodelle ein bestimmtes Niveau an Qualität und Fähigkeiten überschreiten.
    • Reasoning-Probleme können automatisch verifiziert oder gelabelt werden.
  • Erzeugung von SFT-Reasoning-Daten

    • Das temporäre Reasoning-Modell durchläuft eine SFT-Trainingsphase mit einigen tausend Beispielen für Reasoning-Probleme.
    • Diese Daten werden erzeugt, indem die Ausgaben von R1-Zero lesbarer aufbereitet werden.
  • Allgemeine RL-Trainingsphase

    • R1 ist sowohl bei Reasoning- als auch bei Nicht-Reasoning-Aufgaben hervorragend.
    • Es wird unter Nutzung von Belohnungsmodellen für Nützlichkeit und Sicherheit in verschiedenen Anwendungen eingesetzt.
  • Architektur

    • DeepSeek-R1 besteht aus 61 Transformer-Decoder-Blöcken.
    • Die ersten drei bestehen aus dichten Layern, der Rest aus Mixture-of-Experts-Layern.
  • Fazit

    • Hilft dabei, die zentralen Konzepte des DeepSeek-R1-Modells zu verstehen.
    • Weitere Informationen finden sich im Buch Hands-On Large Language Models oder auf GitHub.

Noch keine Kommentare.

Noch keine Kommentare.