Analyse von LLMs zum Verständnis von Reasoning-Fähigkeiten
(magazine.sebastianraschka.com)Verstehen: Reasoning-Modelle
-
Definition von Reasoning-Modellen: Reasoning-Modelle beantworten Fragen, die zur Lösung komplexer Probleme eine mehrstufige Generierung mit Zwischenschritten erfordern. Zum Beispiel erfordert eine Frage wie „Wenn ein Zug 3 Stunden lang mit 60 Meilen pro Stunde fährt, wie weit kommt er?“ im Gegensatz zu einer einfachen faktenbasierten Frage Schlussfolgern.
-
Warum Reasoning-Modelle nötig sind: Sie eignen sich für komplexe Aufgaben wie Rätsel, fortgeschrittene Mathematikprobleme und komplexe Coding-Probleme. Für einfache Aufgaben wie Zusammenfassungen, Übersetzungen und wissensbasierte Fragebeantwortung sind sie jedoch nicht notwendig. Reasoning-Modelle sind teuer und können durch übermäßiges Nachdenken manchmal Fehler verursachen.
DeepSeek-R1-Trainingspipeline
-
DeepSeek-R1-Zero: Ein auf dem 671B-vortrainierten Modell DeepSeek-V3 basierendes Modell, das ausschließlich mit Reinforcement Learning (RL) trainiert wurde. Dies wird als „Cold-Start“-Training bezeichnet und hat im Gegensatz zu typischem RLHF keine Phase des Supervised Fine-Tuning (SFT).
-
DeepSeek-R1: DeepSeeks Flaggschiff-Reasoning-Modell, das auf DeepSeek-R1-Zero basiert und durch zusätzliche SFT-Phasen und RL-Training verbessert wurde.
-
DeepSeek-R1-Distill: Verbessert die Reasoning-Fähigkeiten, indem Qwen- und Llama-Modelle mit den in der vorherigen Phase erzeugten SFT-Daten feinabgestimmt werden.
Vier zentrale Methoden zum Aufbau und zur Verbesserung von Reasoning-Modellen
-
Reasoning-Time-Scaling: Eine Methode zur Verbesserung der Ausgabequalität, indem während der Inferenz mehr Rechenressourcen eingesetzt werden. Zum Beispiel kann man Formulierungen wie „Denke Schritt für Schritt“ in den Eingabe-Prompt aufnehmen, um das Modell dazu zu bringen, Zwischenschritte im Reasoning zu erzeugen.
-
Reines Reinforcement Learning (RL): DeepSeek-R1-Zero zeigt, dass sich Reasoning durch reines RL als Verhalten herausbilden kann. Mit Genauigkeits- und Format-Belohnungen wird das Modell dazu gebracht, grundlegende Reasoning-Techniken zu entwickeln.
-
Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL): DeepSeek-R1 verbessert die Reasoning-Leistung durch die Kombination von SFT und RL. Dies ist ein wichtiger Ansatz für den Aufbau leistungsstarker Reasoning-Modelle.
-
Reines Supervised Fine-Tuning (SFT) und Distillation: DeepSeek erhöht die Effizienz, indem kleinere Modelle trainiert werden. Diese Modelle sind zwar kleiner, zeigen aber im Vergleich zu DeepSeek-R1-Zero eine relativ starke Leistung.
Gedanken zu DeepSeek R1
- DeepSeek-R1 wird unter der Open-Source-MIT-Lizenz bereitgestellt und ist damit eine nützliche Ressource für Forschende. Im Vergleich zu OpenAIs o1 ist DeepSeek-R1 bei der Reasoning-Zeit effizienter. Da jedoch Details zu OpenAIs o1 fehlen, ist ein direkter Vergleich schwierig.
Entwicklung von Reasoning-Modellen mit begrenztem Budget
- Model Distillation kann eine kosteneffiziente Alternative sein. Das DeepSeek-Team hat dies mit den R1-distilled-Modellen bewiesen, die deutlich kleiner als DeepSeek-R1 sind, aber dennoch eine starke Reasoning-Leistung zeigen.
1 Kommentare
Hacker-News-Kommentar
Reasoning-Modelle von LLMs neigen dazu, übermäßig auf Coding- und Mathematikprobleme optimiert zu sein
Es braucht Forschung dazu, LLMs nicht mit natürlicher Sprache, sondern mit eingeschränkten formalen Sprachen zu trainieren
Das „Überdenken“ von Reasoning-Modellen könnte das nächste große Problem werden
Das R1-Paper ist leicht lesbar, und die Ergebnisse erklären sich selbst
Ob LLMs tatsächlich „denken“, ist eine eigene Diskussion
Es gibt reale Beispiele dafür, dass KI in medizinischer Bildgebung übermäßig stark identifiziert
Man sollte verstehen, dass LLMs nicht schlussfolgern können
Die Behauptung eines „aha moment“ im technischen Bericht zu DeepSeek-R1 wirkt fragwürdig
Vor einigen Monaten wurde auf HN eine Verfeinerungsmethode zur Verbesserung von LLMs vorgeschlagen, die heute als „Reasoning“ beschrieben wird