- Reinforcement Learning from Human Feedback (RLHF) ist nach dem Pretraining und dem Supervised-Finetuning (SFT) die dritte (und letzte) große Phase des LLM-Trainings
- Mein Eindruck von RLHF ist, dass es nur ein Teil von RL ist, was nicht allgemein bekannt ist
- RLHF reicht eigentlich nicht aus, um es wirklich RL (Reinforcement Learning) zu nennen
- AlphaGo wurde zum Beispiel mit echtem RL trainiert und hätte mit RLHF vermutlich nicht die heutigen Ergebnisse erzielt
- Was wäre passiert, wenn AlphaGo mit RLHF trainiert worden wäre?
- Menschlichen Bewertern würden zwei Go-Brettzustände gezeigt und sie würden auswählen, welcher besser ist
- Man würde etwa 100.000 solcher Vergleiche sammeln und ein neuronales „Reward Model“ (RM, Belohnungsmodell) trainieren, das die menschliche Bewertung (Vibe Check) nachahmt
- Auf Basis dieses Belohnungsmodells würde dann RL durchgeführt, damit gute Züge gelernt werden, die gute Bewertungen erhalten
- Damit hätte man im Go aber vermutlich keine nennenswerten Ergebnisse erzielt
- Zwei Hauptgründe, warum RLHF nicht zu AlphaGo passt
- Erstens kann die Vibe-Bewertung irreführend sein. Diese Belohnung ist keine Belohnung für einen tatsächlichen Sieg, sondern ein ungenaues Proxy-Ziel
- Zweitens ist im RL-Optimierungsprozess die Wahrscheinlichkeit hoch, dass das Belohnungsmodell abnormalen Zuständen außerhalb des Bereichs der Trainingsdaten hohe Punktzahlen gibt und die Optimierung dadurch verzerrt wird
- Das RM ist ein großes neuronales Netz mit Milliarden von Parametern, das Vibes imitiert
- Probleme bei der Anwendung von RLHF auf LLMs
- Das Belohnungsmodell eines LLM neigt ebenfalls dazu, Antworten hoch zu bewerten, die menschliche Bewerter vermutlich bevorzugen würden
- Dieses Belohnungsmodell löst nicht das „eigentliche“ Problem, sondern ist nur ein Proxy-Ziel, das Antworten bewertet, die Menschen wahrscheinlich mögen
- RLHF kann nicht zu lange ausgeführt werden, weil das Modell schnell lernt, auf eine Weise zu antworten, die das Belohnungsmodell austrickst
- Man kann beobachten, dass ein LLM-Assistent anfängt, mit seltsamen Dingen wie „The the the the the the“ zu antworten
- Für Menschen wirkt das lächerlich, aber das RM hält es für ausgezeichnet
- Es hat in einem Bereich außerhalb der Verteilung der RM-Trainingsdaten ein adversariales Beispiel gefunden
- Aus diesem Grund kann RLHF nicht über zu viele Optimierungsschritte hinweg laufen und muss nach einigen Hundert/Tausend Schritten gestoppt werden, weil die Optimierung sonst beginnt, das RM auszutricksen
- Das ist nicht die Art von RL wie bei AlphaGo
- Warum RLHF trotzdem nützlich für den Aufbau von LLM-Assistenten ist
- RLHF profitiert von der Lücke zwischen Generator und Discriminator
- Bei vielen Problemtypen ist es für menschliche Bewerter viel einfacher, aus einigen Kandidatenantworten die beste auszuwählen, als von Grund auf eine ideale Antwort zu schreiben
- Ein gutes Beispiel ist ein Prompt wie „Schreibe ein Gedicht über eine Büroklammer“, bei dem es leichter ist, unter mehreren Kandidaten ein gutes Gedicht auszuwählen
- RLHF ist eine Methode, von dieser „Einfachheits“-Lücke in der menschlichen Aufsicht zu profitieren
- Außerdem ist RLHF auch nützlich, um Halluzinationen (das Erfinden falscher Informationen) zu verringern
- Wenn das RM während des Trainings stark genug ist, um zu erkennen, dass das LLM etwas erfindet, kann es lernen, dies mit niedriger Belohnung zu bestrafen und dem Modell beibringen, ungern Risiken bei unsicheren Fakten einzugehen
- Eine zufriedenstellende Behandlung von Halluzinationen und ihrer Minderung ist jedoch ein völlig anderes Thema
- Fazit: „RLHF ist nützlich, aber kein echtes RL“
- Bislang gibt es keinen überzeugend erreichten und nachgewiesenen Fall von großskaligem, produktionsreifem „echtem“ RL für LLMs im Open-Domain-Bereich
- Intuitiv liegt das auch daran, dass es bei Open-Domain-Problemlösung sehr schwierig ist, echte Belohnungen zu erhalten, also etwa so etwas wie das Gewinnen eines Spiels
- In geschlossenen, spielähnlichen Umgebungen wie Go, in denen die Dynamik begrenzt ist und die Belohnungsfunktion leicht auszuwerten und nicht zu überlisten ist, ist das interessant
- Wie könnte man zum Beispiel eine objektive Belohnung für Dokumentenzusammenfassungen, Antworten auf leicht mehrdeutige Fragen, das Erzählen von Witzen oder das Umschreiben von Java-Code in Python vergeben?
- Ein Weg dorthin ist prinzipiell nicht unmöglich, aber auch nicht trivial und erfordert kreatives Denken
- Wer dieses Problem überzeugend löst, könnte echtes RL ausführen
- Die Art von RL, mit der AlphaGo Menschen im Go besiegt hat
- Wer dieses Problem löst, könnte ein LLM bauen, das Menschen bei Open-Domain-Problemlösung übertrifft
1 Kommentare
Hacker-News-Kommentare
KI-Coding-Assistenten werden sich in den nächsten Jahren stark verbessern
Eine billige DIY-Methode ähnlich wie RLHF besteht darin, ein Modell so feinzujustieren, dass es Bewertungen zu seinen Ausgaben hinzufügt
Das Problem, dass verschiedene ML-Algorithmen die Belohnungsfunktion „spielen“, ähnelt Problemen in Finanzen und Wirtschaft
Karpathy kennt sich mit diesem Thema deutlich besser aus, aber in diesem Beitrag scheint etwas zu fehlen
Ich frage mich, worin die „Lücke“ zwischen heutigen transformerbasierten LLMs und optimaler Sequenzvorhersage besteht
Beweisdomänen wie LEAN haben Zustand, Aktion, Fortschrittsmaß und einen finalen Zielzustand
AlphaGo hatte kein menschliches Feedback, hat aber von Menschen gelernt
Das SPAG-Paper ist ein Beispiel für echtes Reinforcement Learning mit Sprachmodellen
Die Schlussfolgerung, dass LLM + RL Menschen bei der Lösung von Open-Domain-Problemen übertreffen werden, ist unzureichend begründet