Analyse von LLMs zum Verständnis von Reasoning-Fähigkeiten

(magazine.sebastianraschka.com)

6 Punkte von GN⁺ 2025-02-08 | 1 Kommentare | Auf WhatsApp teilen

Verstehen: Reasoning-Modelle

Definition von Reasoning-Modellen: Reasoning-Modelle beantworten Fragen, die zur Lösung komplexer Probleme eine mehrstufige Generierung mit Zwischenschritten erfordern. Zum Beispiel erfordert eine Frage wie „Wenn ein Zug 3 Stunden lang mit 60 Meilen pro Stunde fährt, wie weit kommt er?“ im Gegensatz zu einer einfachen faktenbasierten Frage Schlussfolgern.
Warum Reasoning-Modelle nötig sind: Sie eignen sich für komplexe Aufgaben wie Rätsel, fortgeschrittene Mathematikprobleme und komplexe Coding-Probleme. Für einfache Aufgaben wie Zusammenfassungen, Übersetzungen und wissensbasierte Fragebeantwortung sind sie jedoch nicht notwendig. Reasoning-Modelle sind teuer und können durch übermäßiges Nachdenken manchmal Fehler verursachen.

DeepSeek-R1-Trainingspipeline

DeepSeek-R1-Zero: Ein auf dem 671B-vortrainierten Modell DeepSeek-V3 basierendes Modell, das ausschließlich mit Reinforcement Learning (RL) trainiert wurde. Dies wird als „Cold-Start“-Training bezeichnet und hat im Gegensatz zu typischem RLHF keine Phase des Supervised Fine-Tuning (SFT).
DeepSeek-R1: DeepSeeks Flaggschiff-Reasoning-Modell, das auf DeepSeek-R1-Zero basiert und durch zusätzliche SFT-Phasen und RL-Training verbessert wurde.
DeepSeek-R1-Distill: Verbessert die Reasoning-Fähigkeiten, indem Qwen- und Llama-Modelle mit den in der vorherigen Phase erzeugten SFT-Daten feinabgestimmt werden.

Vier zentrale Methoden zum Aufbau und zur Verbesserung von Reasoning-Modellen

Reasoning-Time-Scaling: Eine Methode zur Verbesserung der Ausgabequalität, indem während der Inferenz mehr Rechenressourcen eingesetzt werden. Zum Beispiel kann man Formulierungen wie „Denke Schritt für Schritt“ in den Eingabe-Prompt aufnehmen, um das Modell dazu zu bringen, Zwischenschritte im Reasoning zu erzeugen.
Reines Reinforcement Learning (RL): DeepSeek-R1-Zero zeigt, dass sich Reasoning durch reines RL als Verhalten herausbilden kann. Mit Genauigkeits- und Format-Belohnungen wird das Modell dazu gebracht, grundlegende Reasoning-Techniken zu entwickeln.
Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL): DeepSeek-R1 verbessert die Reasoning-Leistung durch die Kombination von SFT und RL. Dies ist ein wichtiger Ansatz für den Aufbau leistungsstarker Reasoning-Modelle.
Reines Supervised Fine-Tuning (SFT) und Distillation: DeepSeek erhöht die Effizienz, indem kleinere Modelle trainiert werden. Diese Modelle sind zwar kleiner, zeigen aber im Vergleich zu DeepSeek-R1-Zero eine relativ starke Leistung.

Gedanken zu DeepSeek R1

DeepSeek-R1 wird unter der Open-Source-MIT-Lizenz bereitgestellt und ist damit eine nützliche Ressource für Forschende. Im Vergleich zu OpenAIs o1 ist DeepSeek-R1 bei der Reasoning-Zeit effizienter. Da jedoch Details zu OpenAIs o1 fehlen, ist ein direkter Vergleich schwierig.

Entwicklung von Reasoning-Modellen mit begrenztem Budget

Model Distillation kann eine kosteneffiziente Alternative sein. Das DeepSeek-Team hat dies mit den R1-distilled-Modellen bewiesen, die deutlich kleiner als DeepSeek-R1 sind, aber dennoch eine starke Reasoning-Leistung zeigen.

1 Kommentare

GN⁺ 2025-02-08

Hacker-News-Kommentar

Reasoning-Modelle von LLMs neigen dazu, übermäßig auf Coding- und Mathematikprobleme optimiert zu sein
- Schlecht definierte Probleme erfordern mehr Reasoning, was über die bloße Mehrdeutigkeit im Software Engineering hinausgehen muss
- LLMs sind zu stark auf Mathematikaufgaben ausgerichtet und denken in anderen Bereichen deshalb nicht ausreichend nach
- Man lernt gern eigenständig und braucht einen Gesprächspartner, der komplexe Themen verstehen und Missverständnisse erkennen kann
- LLMs können Coding-Probleme gut lösen, sind aber zu stark auf Coding-/Mathe-Puzzles zugeschnitten
Es braucht Forschung dazu, LLMs nicht mit natürlicher Sprache, sondern mit eingeschränkten formalen Sprachen zu trainieren
- Es gibt Arbeiten zur Integration von Lean und ChatGPT, aber nicht in einer Weise, die von natürlichsprachlich trainierten LLMs dominiert wird
- Man stellt sich ein System vor, das kreativ viele verschiedene Ansätze ausprobiert und falsche Wege vermeiden kann
Das „Überdenken“ von Reasoning-Modellen könnte das nächste große Problem werden
- Tieferes Nachdenken ist nicht immer besser
Das R1-Paper ist leicht lesbar, und die Ergebnisse erklären sich selbst
- Empfehlenswert ist die Lektüre der Paper zu R1, V3 und DeepSeekMath
Ob LLMs tatsächlich „denken“, ist eine eigene Diskussion
- Ob Computer denken können, ist eine schon vor langer Zeit geklärte Frage
Es gibt reale Beispiele dafür, dass KI in medizinischer Bildgebung übermäßig stark identifiziert
- Die Trainingsdaten bringen ihr bei, bestimmte Merkmale als Hinweis auf Krebs zu erkennen
Man sollte verstehen, dass LLMs nicht schlussfolgern können
Die Behauptung eines „aha moment“ im technischen Bericht zu DeepSeek-R1 wirkt fragwürdig
- Das Modell basiert auf DeepSeek V3 und hat mit Überdenken und Formatproblemen zu kämpfen
- Die Community bemüht sich, die Pipeline nachzuimplementieren
Vor einigen Monaten wurde auf HN eine Verfeinerungsmethode zur Verbesserung von LLMs vorgeschlagen, die heute als „Reasoning“ beschrieben wird
- Es war nicht abzusehen, dass DeepSeek den Markt mit einer so einfachen Methode dominieren würde
- Intuition sollte man ernst nehmen

Analyse von LLMs zum Verständnis von Reasoning-Fähigkeiten

Verstehen: Reasoning-Modelle

DeepSeek-R1-Trainingspipeline

Vier zentrale Methoden zum Aufbau und zur Verbesserung von Reasoning-Modellen

Gedanken zu DeepSeek R1

Entwicklung von Reasoning-Modellen mit begrenztem Budget

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentar