4 Punkte von GN⁺ 2025-02-03 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Ein kostenloses Online-Buch mit Kursmaterial, das RLHF und Post-Training für Sprachmodelle an einem Ort vermittelt und so aufgebaut ist, dass Leser mit quantitativem Hintergrund den gesamten Trainingsablauf nachvollziehen können
  • Der zentrale rote Faden ist das RLHF-Rezept; erklärt werden zusammenhängend Instruction Tuning, das Training von Reward Models, Rejection Sampling, Reinforcement Learning, On-Policy Distillation und Direct-Alignment-Algorithmen
  • Behandelt werden nicht nur technische Meilensteine, sondern auch die Ursprünge von RLHF in Ökonomie, Philosophie und optimaler Steuerung, sodass sich der konzeptionelle Hintergrund breiter einordnen lässt
  • Als Begleitmaterial werden eine Codebase für die Algorithmen, eine Bibliothek zum Vergleich von Modellvervollständigungen über die einzelnen Post-Training-Schritte hinweg sowie eine Kursseite bereitgestellt
  • Nach der abschließenden Redaktion im April 2026 und der Übernahme der Verbesserungen aus der Manning-Ausgabe geht das Buch in die Druckfassung über; künftige inhaltliche Änderungen sollen daher seltener werden

Ein Buch zum Lernen von RLHF und Post-Training

  • RLHF ist zu einem wichtigen Werkzeug beim Aufbau moderner großer Machine-Learning-Systeme geworden, und der Diskussionsrahmen hat sich von den zentralen RLHF-Methoden auf ein breiteres Bündel von Post-Training-Verfahren erweitert
  • Es beginnt mit einer kurzen Einführung mit Fokus auf Sprachmodelle und ist so aufgebaut, dass Leser mit quantitativem Hintergrund die Kernmethoden des Post-Trainings für Modelle Schritt für Schritt verstehen
  • Entlang des Standardablaufs von RLHF werden die folgenden Themen behandelt
    • was RLHF leistet und warum es entwickelt wurde
    • wichtige technische Meilensteine in einer kurzen Geschichte
    • der zum Verständnis des Buchs nötige Hintergrund zu Reinforcement Learning
    • die Optimierungsschritte von Instruction Tuning bis zum Training von Reward Models
    • Rejection Sampling, Reinforcement Learning, On-Policy Distillation und Direct-Alignment-Algorithmen
  • Im späteren Teil werden offene Fragen und Bereiche behandelt, die weniger erforscht sind oder neu an Bedeutung gewinnen, etwa synthetische Daten, Tool Use, Character Training und Evaluation

Mitgelieferte Materialien und Änderungshistorie

  • Begleitmaterialien zum Erlernen der Grundkonzepte von Post-Training für Sprachmodelle werden ebenfalls bereitgestellt
    • codebase: Implementierungen der im Buch behandelten Algorithmen
    • library: Bibliothek zum Vergleichen von Modellvervollständigungen innerhalb der Post-Training-Schritte
    • course: Kursseite für Lehrmaterialien
  • Änderungen 2026

    • April 2026: abschließende Redaktion für die Druckausgabe, Übernahme der Verbesserungen aus der Manning-Ausgabe, Klarstellungen bei Formeln und Terminologie, Korrektur von Tipp- und Grammatikfehlern in allen Kapiteln, Ausbau des Produktkapitels
    • März 2026: Veröffentlichung der course page mit Vorlesungsvideos, Syntax-Highlighting im PDF, Ausbau des Produktkapitels
    • Februar 2026: v2-Inhalte mit einem Kapitel zu Direct Alignment, neuen Diagrammen, RL-Cheatsheet, Anhang, Suchfeld, Kindle-Unterstützung und redaktionellen Korrekturen
    • Januar 2026: umfassende Umstrukturierung der Hauptkapitel passend zur Buchstruktur von Manning, Bibliothek mit Codebeispielen, Weiterleitungen von bestehenden URLs zu neuen Positionen
    • In den Jahren 2025 und 2024 wurden DPO, RLVR/reasoning, Tool Use, Evaluation, Overoptimization, Reward Modeling, Preference Data, Policy Gradient, PPO, GAE, Regularization, Bibliography und weitere Themen schrittweise ergänzt
    • Das Zitationsformat der Ausgabe 2026 wird als @book{rlhf2026lambert, ... title = {Reinforcement Learning from Human Feedback}, year = {2026}, publisher = {Online}, url = {https://rlhfbook.com}} bereitgestellt

Noch keine Kommentare.

Noch keine Kommentare.