Buch über RLHF erschienen

(rlhfbook.com)

4 Punkte von GN⁺ 2025-02-03 | Noch keine Kommentare. | Auf WhatsApp teilen

Ein kostenloses Online-Buch mit Kursmaterial, das RLHF und Post-Training für Sprachmodelle an einem Ort vermittelt und so aufgebaut ist, dass Leser mit quantitativem Hintergrund den gesamten Trainingsablauf nachvollziehen können
Der zentrale rote Faden ist das RLHF-Rezept; erklärt werden zusammenhängend Instruction Tuning, das Training von Reward Models, Rejection Sampling, Reinforcement Learning, On-Policy Distillation und Direct-Alignment-Algorithmen
Behandelt werden nicht nur technische Meilensteine, sondern auch die Ursprünge von RLHF in Ökonomie, Philosophie und optimaler Steuerung, sodass sich der konzeptionelle Hintergrund breiter einordnen lässt
Als Begleitmaterial werden eine Codebase für die Algorithmen, eine Bibliothek zum Vergleich von Modellvervollständigungen über die einzelnen Post-Training-Schritte hinweg sowie eine Kursseite bereitgestellt
Nach der abschließenden Redaktion im April 2026 und der Übernahme der Verbesserungen aus der Manning-Ausgabe geht das Buch in die Druckfassung über; künftige inhaltliche Änderungen sollen daher seltener werden

Ein Buch zum Lernen von RLHF und Post-Training

RLHF ist zu einem wichtigen Werkzeug beim Aufbau moderner großer Machine-Learning-Systeme geworden, und der Diskussionsrahmen hat sich von den zentralen RLHF-Methoden auf ein breiteres Bündel von Post-Training-Verfahren erweitert
Es beginnt mit einer kurzen Einführung mit Fokus auf Sprachmodelle und ist so aufgebaut, dass Leser mit quantitativem Hintergrund die Kernmethoden des Post-Trainings für Modelle Schritt für Schritt verstehen
Entlang des Standardablaufs von RLHF werden die folgenden Themen behandelt
- was RLHF leistet und warum es entwickelt wurde
- wichtige technische Meilensteine in einer kurzen Geschichte
- der zum Verständnis des Buchs nötige Hintergrund zu Reinforcement Learning
- die Optimierungsschritte von Instruction Tuning bis zum Training von Reward Models
- Rejection Sampling, Reinforcement Learning, On-Policy Distillation und Direct-Alignment-Algorithmen
Im späteren Teil werden offene Fragen und Bereiche behandelt, die weniger erforscht sind oder neu an Bedeutung gewinnen, etwa synthetische Daten, Tool Use, Character Training und Evaluation

Mitgelieferte Materialien und Änderungshistorie

Begleitmaterialien zum Erlernen der Grundkonzepte von Post-Training für Sprachmodelle werden ebenfalls bereitgestellt
- codebase: Implementierungen der im Buch behandelten Algorithmen
- library: Bibliothek zum Vergleichen von Modellvervollständigungen innerhalb der Post-Training-Schritte
- course: Kursseite für Lehrmaterialien
Änderungen 2026
- April 2026: abschließende Redaktion für die Druckausgabe, Übernahme der Verbesserungen aus der Manning-Ausgabe, Klarstellungen bei Formeln und Terminologie, Korrektur von Tipp- und Grammatikfehlern in allen Kapiteln, Ausbau des Produktkapitels
- März 2026: Veröffentlichung der course page mit Vorlesungsvideos, Syntax-Highlighting im PDF, Ausbau des Produktkapitels
- Februar 2026: v2-Inhalte mit einem Kapitel zu Direct Alignment, neuen Diagrammen, RL-Cheatsheet, Anhang, Suchfeld, Kindle-Unterstützung und redaktionellen Korrekturen
- Januar 2026: umfassende Umstrukturierung der Hauptkapitel passend zur Buchstruktur von Manning, Bibliothek mit Codebeispielen, Weiterleitungen von bestehenden URLs zu neuen Positionen
- In den Jahren 2025 und 2024 wurden DPO, RLVR/reasoning, Tool Use, Evaluation, Overoptimization, Reward Modeling, Preference Data, Policy Gradient, PPO, GAE, Regularization, Bibliography und weitere Themen schrittweise ergänzt
- Das Zitationsformat der Ausgabe 2026 wird als @book{rlhf2026lambert, ... title = {Reinforcement Learning from Human Feedback}, year = {2026}, publisher = {Online}, url = {https://rlhfbook.com}} bereitgestellt

Buch über RLHF erschienen

Ein Buch zum Lernen von RLHF und Post-Training

Mitgelieferte Materialien und Änderungshistorie

Änderungen 2026

Verwandte Beiträge

Noch keine Kommentare.