Buch über RLHF erschienen
(rlhfbook.com)- Ein kostenloses Online-Buch mit Kursmaterial, das RLHF und Post-Training für Sprachmodelle an einem Ort vermittelt und so aufgebaut ist, dass Leser mit quantitativem Hintergrund den gesamten Trainingsablauf nachvollziehen können
- Der zentrale rote Faden ist das RLHF-Rezept; erklärt werden zusammenhängend Instruction Tuning, das Training von Reward Models, Rejection Sampling, Reinforcement Learning, On-Policy Distillation und Direct-Alignment-Algorithmen
- Behandelt werden nicht nur technische Meilensteine, sondern auch die Ursprünge von RLHF in Ökonomie, Philosophie und optimaler Steuerung, sodass sich der konzeptionelle Hintergrund breiter einordnen lässt
- Als Begleitmaterial werden eine Codebase für die Algorithmen, eine Bibliothek zum Vergleich von Modellvervollständigungen über die einzelnen Post-Training-Schritte hinweg sowie eine Kursseite bereitgestellt
- Nach der abschließenden Redaktion im April 2026 und der Übernahme der Verbesserungen aus der Manning-Ausgabe geht das Buch in die Druckfassung über; künftige inhaltliche Änderungen sollen daher seltener werden
Ein Buch zum Lernen von RLHF und Post-Training
- RLHF ist zu einem wichtigen Werkzeug beim Aufbau moderner großer Machine-Learning-Systeme geworden, und der Diskussionsrahmen hat sich von den zentralen RLHF-Methoden auf ein breiteres Bündel von Post-Training-Verfahren erweitert
- Es beginnt mit einer kurzen Einführung mit Fokus auf Sprachmodelle und ist so aufgebaut, dass Leser mit quantitativem Hintergrund die Kernmethoden des Post-Trainings für Modelle Schritt für Schritt verstehen
- Entlang des Standardablaufs von RLHF werden die folgenden Themen behandelt
- was RLHF leistet und warum es entwickelt wurde
- wichtige technische Meilensteine in einer kurzen Geschichte
- der zum Verständnis des Buchs nötige Hintergrund zu Reinforcement Learning
- die Optimierungsschritte von Instruction Tuning bis zum Training von Reward Models
- Rejection Sampling, Reinforcement Learning, On-Policy Distillation und Direct-Alignment-Algorithmen
- Im späteren Teil werden offene Fragen und Bereiche behandelt, die weniger erforscht sind oder neu an Bedeutung gewinnen, etwa synthetische Daten, Tool Use, Character Training und Evaluation
Mitgelieferte Materialien und Änderungshistorie
- Begleitmaterialien zum Erlernen der Grundkonzepte von Post-Training für Sprachmodelle werden ebenfalls bereitgestellt
-
Änderungen 2026
- April 2026: abschließende Redaktion für die Druckausgabe, Übernahme der Verbesserungen aus der Manning-Ausgabe, Klarstellungen bei Formeln und Terminologie, Korrektur von Tipp- und Grammatikfehlern in allen Kapiteln, Ausbau des Produktkapitels
- März 2026: Veröffentlichung der course page mit Vorlesungsvideos, Syntax-Highlighting im PDF, Ausbau des Produktkapitels
- Februar 2026: v2-Inhalte mit einem Kapitel zu Direct Alignment, neuen Diagrammen, RL-Cheatsheet, Anhang, Suchfeld, Kindle-Unterstützung und redaktionellen Korrekturen
- Januar 2026: umfassende Umstrukturierung der Hauptkapitel passend zur Buchstruktur von Manning, Bibliothek mit Codebeispielen, Weiterleitungen von bestehenden URLs zu neuen Positionen
- In den Jahren 2025 und 2024 wurden DPO, RLVR/reasoning, Tool Use, Evaluation, Overoptimization, Reward Modeling, Preference Data, Policy Gradient, PPO, GAE, Regularization, Bibliography und weitere Themen schrittweise ergänzt
- Das Zitationsformat der Ausgabe 2026 wird als
@book{rlhf2026lambert, ... title = {Reinforcement Learning from Human Feedback}, year = {2026}, publisher = {Online}, url = {https://rlhfbook.com}}bereitgestellt
Noch keine Kommentare.