6 Punkte von GN⁺ 2025-02-08 | 1 Kommentare | Auf WhatsApp teilen

Verstehen: Reasoning-Modelle

  • Definition von Reasoning-Modellen: Reasoning-Modelle beantworten Fragen, die zur Lösung komplexer Probleme eine mehrstufige Generierung mit Zwischenschritten erfordern. Zum Beispiel erfordert eine Frage wie „Wenn ein Zug 3 Stunden lang mit 60 Meilen pro Stunde fährt, wie weit kommt er?“ im Gegensatz zu einer einfachen faktenbasierten Frage Schlussfolgern.

  • Warum Reasoning-Modelle nötig sind: Sie eignen sich für komplexe Aufgaben wie Rätsel, fortgeschrittene Mathematikprobleme und komplexe Coding-Probleme. Für einfache Aufgaben wie Zusammenfassungen, Übersetzungen und wissensbasierte Fragebeantwortung sind sie jedoch nicht notwendig. Reasoning-Modelle sind teuer und können durch übermäßiges Nachdenken manchmal Fehler verursachen.

DeepSeek-R1-Trainingspipeline

  • DeepSeek-R1-Zero: Ein auf dem 671B-vortrainierten Modell DeepSeek-V3 basierendes Modell, das ausschließlich mit Reinforcement Learning (RL) trainiert wurde. Dies wird als „Cold-Start“-Training bezeichnet und hat im Gegensatz zu typischem RLHF keine Phase des Supervised Fine-Tuning (SFT).

  • DeepSeek-R1: DeepSeeks Flaggschiff-Reasoning-Modell, das auf DeepSeek-R1-Zero basiert und durch zusätzliche SFT-Phasen und RL-Training verbessert wurde.

  • DeepSeek-R1-Distill: Verbessert die Reasoning-Fähigkeiten, indem Qwen- und Llama-Modelle mit den in der vorherigen Phase erzeugten SFT-Daten feinabgestimmt werden.

Vier zentrale Methoden zum Aufbau und zur Verbesserung von Reasoning-Modellen

  1. Reasoning-Time-Scaling: Eine Methode zur Verbesserung der Ausgabequalität, indem während der Inferenz mehr Rechenressourcen eingesetzt werden. Zum Beispiel kann man Formulierungen wie „Denke Schritt für Schritt“ in den Eingabe-Prompt aufnehmen, um das Modell dazu zu bringen, Zwischenschritte im Reasoning zu erzeugen.

  2. Reines Reinforcement Learning (RL): DeepSeek-R1-Zero zeigt, dass sich Reasoning durch reines RL als Verhalten herausbilden kann. Mit Genauigkeits- und Format-Belohnungen wird das Modell dazu gebracht, grundlegende Reasoning-Techniken zu entwickeln.

  3. Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL): DeepSeek-R1 verbessert die Reasoning-Leistung durch die Kombination von SFT und RL. Dies ist ein wichtiger Ansatz für den Aufbau leistungsstarker Reasoning-Modelle.

  4. Reines Supervised Fine-Tuning (SFT) und Distillation: DeepSeek erhöht die Effizienz, indem kleinere Modelle trainiert werden. Diese Modelle sind zwar kleiner, zeigen aber im Vergleich zu DeepSeek-R1-Zero eine relativ starke Leistung.

Gedanken zu DeepSeek R1

  • DeepSeek-R1 wird unter der Open-Source-MIT-Lizenz bereitgestellt und ist damit eine nützliche Ressource für Forschende. Im Vergleich zu OpenAIs o1 ist DeepSeek-R1 bei der Reasoning-Zeit effizienter. Da jedoch Details zu OpenAIs o1 fehlen, ist ein direkter Vergleich schwierig.

Entwicklung von Reasoning-Modellen mit begrenztem Budget

  • Model Distillation kann eine kosteneffiziente Alternative sein. Das DeepSeek-Team hat dies mit den R1-distilled-Modellen bewiesen, die deutlich kleiner als DeepSeek-R1 sind, aber dennoch eine starke Reasoning-Leistung zeigen.

1 Kommentare

 
GN⁺ 2025-02-08
Hacker-News-Kommentar
  • Reasoning-Modelle von LLMs neigen dazu, übermäßig auf Coding- und Mathematikprobleme optimiert zu sein

    • Schlecht definierte Probleme erfordern mehr Reasoning, was über die bloße Mehrdeutigkeit im Software Engineering hinausgehen muss
    • LLMs sind zu stark auf Mathematikaufgaben ausgerichtet und denken in anderen Bereichen deshalb nicht ausreichend nach
    • Man lernt gern eigenständig und braucht einen Gesprächspartner, der komplexe Themen verstehen und Missverständnisse erkennen kann
    • LLMs können Coding-Probleme gut lösen, sind aber zu stark auf Coding-/Mathe-Puzzles zugeschnitten
  • Es braucht Forschung dazu, LLMs nicht mit natürlicher Sprache, sondern mit eingeschränkten formalen Sprachen zu trainieren

    • Es gibt Arbeiten zur Integration von Lean und ChatGPT, aber nicht in einer Weise, die von natürlichsprachlich trainierten LLMs dominiert wird
    • Man stellt sich ein System vor, das kreativ viele verschiedene Ansätze ausprobiert und falsche Wege vermeiden kann
  • Das „Überdenken“ von Reasoning-Modellen könnte das nächste große Problem werden

    • Tieferes Nachdenken ist nicht immer besser
  • Das R1-Paper ist leicht lesbar, und die Ergebnisse erklären sich selbst

    • Empfehlenswert ist die Lektüre der Paper zu R1, V3 und DeepSeekMath
  • Ob LLMs tatsächlich „denken“, ist eine eigene Diskussion

    • Ob Computer denken können, ist eine schon vor langer Zeit geklärte Frage
  • Es gibt reale Beispiele dafür, dass KI in medizinischer Bildgebung übermäßig stark identifiziert

    • Die Trainingsdaten bringen ihr bei, bestimmte Merkmale als Hinweis auf Krebs zu erkennen
  • Man sollte verstehen, dass LLMs nicht schlussfolgern können

  • Die Behauptung eines „aha moment“ im technischen Bericht zu DeepSeek-R1 wirkt fragwürdig

    • Das Modell basiert auf DeepSeek V3 und hat mit Überdenken und Formatproblemen zu kämpfen
    • Die Community bemüht sich, die Pipeline nachzuimplementieren
  • Vor einigen Monaten wurde auf HN eine Verfeinerungsmethode zur Verbesserung von LLMs vorgeschlagen, die heute als „Reasoning“ beschrieben wird

    • Es war nicht abzusehen, dass DeepSeek den Markt mit einer so einfachen Methode dominieren würde
    • Intuition sollte man ernst nehmen