„RLHF ist nur ein kleiner Teil von RL.“ – Andrej Karpathy

xguru · 2024-08-09T10:46:01+09:00

Reinforcement Learning from Human Feedback (RLHF) ist nach dem Pretraining und dem Supervised-Finetuning (SFT) die dritte (und letzte) große Phase des LLM-Trainings Mein Eindruck von RLHF ist, dass es nur ein Teil von RL ist, was nicht allgemein bekannt ist RLHF reicht eigentlich nicht aus, um es wirklich RL (Reinforcement Learning) zu nennen AlphaGo wurde zum Beispiel mit echtem RL trainiert und hätte mit RLHF vermutlich nicht die heutigen Ergebnisse erzielt Was wäre passiert, wenn AlphaGo mit RLHF trainiert worden wäre? Menschlichen Bewertern würden zwei Go-Brettzustände gezeigt und sie würden auswählen, welcher besser ist Man würde etwa 100.000 solcher Vergleiche sammeln und ein neuronales „Reward Model“ (RM, Belohnungsmodell) trainieren, das die menschliche Bewertung (Vibe Check) nachahmt Auf Basis dieses Belohnungsmodells würde dann RL durchgeführt, damit gute Züge gelernt werden, die gute Bewertungen erhalten Damit hätte man im Go aber vermutlich keine nennenswerten Ergebnisse erzielt Zwei Hauptgründe, warum RLHF nicht zu AlphaGo passt Erstens kann die Vibe-Bewertung irreführend sein. Diese Belohnung ist keine Belohnung für einen tatsächlichen Sieg, sondern ein ungenaues Proxy-Ziel Zweitens ist im RL-Optimierungsprozess die Wahrscheinlichkeit hoch, dass das Belohnungsmodell abnormalen Zuständen außerhalb des Bereichs der Trainingsdaten hohe Punktzahlen gibt und die Optimierung dadurch verzerrt wird Das RM ist ein großes neuronales Netz mit Milliarden von Parametern, das Vibes imitiert Probleme bei der Anwendung von RLHF auf LLMs Das Belohnungsmodell eines LLM neigt ebenfalls dazu, Antworten hoch zu bewerten, die menschliche Bewerter vermutlich bevorzugen würden Dieses Belohnungsmodell löst nicht das „eigentliche“ Problem, sondern ist nur ein Proxy-Ziel, das Antworten bewertet, die Menschen wahrscheinlich mögen RLHF kann nicht zu lange ausgeführt werden, weil das Modell schnell lernt, auf eine Weise zu antworten, die das Belohnungsmodell austrickst Man kann beobachten, dass ein LLM-Assistent anfängt, mit seltsamen Dingen wie „The the the the the the“ zu antworten Für Menschen wirkt das lächerlich, aber das RM hält es für ausgezeichnet Es hat in einem Bereich außerhalb der Verteilung der RM-Trainingsdaten ein adversariales Beispiel gefunden Aus diesem Grund kann RLHF nicht über zu viele Optimierungsschritte hinweg laufen und muss nach einigen Hundert/Tausend Schritten gestoppt werden, weil die Optimierung sonst beginnt, das RM auszutricksen Das ist nicht die Art von RL wie bei AlphaGo Warum RLHF trotzdem nützlich für den Aufbau von LLM-Assistenten ist RLHF profitiert von der Lücke zwischen Generator und Discriminator Bei vielen Problemtypen ist es für menschliche Bewerter viel einfacher, aus einigen Kandidatenantworten die beste auszuwählen, als von Grund auf eine ideale Antwort zu schreiben Ein gutes Beispiel ist ein Prompt wie „Schreibe ein Gedicht über eine Büroklammer“, bei dem es leichter ist, unter mehreren Kandidaten ein gutes Gedicht auszuwählen RLHF ist eine Methode, von dieser „Einfachheits“-Lücke in der menschlichen Aufsicht zu profitieren Außerdem ist RLHF auch nützlich, um Halluzinationen (das Erfinden falscher Informationen) zu verringern Wenn das RM während des Trainings stark genug ist, um zu erkennen, dass das LLM etwas erfindet, kann es lernen, dies mit niedriger Belohnung zu bestrafen und dem Modell beibringen, ungern Risiken bei unsicheren Fakten einzugehen Eine zufriedenstellende Behandlung von Halluzinationen und ihrer Minderung ist jedoch ein völlig anderes Thema Fazit: „RLHF ist nützlich, aber kein echtes RL“ Bislang gibt es keinen überzeugend erreichten und nachgewiesenen Fall von großskaligem, produktionsreifem „echtem“ RL für LLMs im Open-Domain-Bereich Intuitiv liegt das auch daran, dass es bei Open-Domain-Problemlösung sehr schwierig ist, echte Belohnungen zu erhalten, also etwa so etwas wie das Gewinnen eines Spiels In geschlossenen, spielähnlichen Umgebungen wie Go, in denen die Dynamik begrenzt ist und die Belohnungsfunktion leicht auszuwerten und nicht zu überlisten ist, ist das interessant Wie könnte man zum Beispiel eine objektive Belohnung für Dokumentenzusammenfassungen, Antworten auf leicht mehrdeutige Fragen, das Erzählen von Witzen oder das Umschreiben von Java-Code in Python vergeben? Ein Weg dorthin ist prinzipiell nicht unmöglich, aber auch nicht trivial und erfordert kreatives Denken Wer dieses Problem überzeugend löst, könnte echtes RL ausführen Die Art von RL, mit der AlphaGo Menschen im Go besiegt hat Wer dieses Problem löst, könnte ein LLM bauen, das Menschen bei Open-Domain-Problemlösung übertrifft

(twitter.com/karpathy)

8 Punkte von xguru 2024-08-09 | 1 Kommentare | Auf WhatsApp teilen

Reinforcement Learning from Human Feedback (RLHF) ist nach dem Pretraining und dem Supervised-Finetuning (SFT) die dritte (und letzte) große Phase des LLM-Trainings
- Mein Eindruck von RLHF ist, dass es nur ein Teil von RL ist, was nicht allgemein bekannt ist
- RLHF reicht eigentlich nicht aus, um es wirklich RL (Reinforcement Learning) zu nennen
- AlphaGo wurde zum Beispiel mit echtem RL trainiert und hätte mit RLHF vermutlich nicht die heutigen Ergebnisse erzielt
Was wäre passiert, wenn AlphaGo mit RLHF trainiert worden wäre?
- Menschlichen Bewertern würden zwei Go-Brettzustände gezeigt und sie würden auswählen, welcher besser ist
- Man würde etwa 100.000 solcher Vergleiche sammeln und ein neuronales „Reward Model“ (RM, Belohnungsmodell) trainieren, das die menschliche Bewertung (Vibe Check) nachahmt
- Auf Basis dieses Belohnungsmodells würde dann RL durchgeführt, damit gute Züge gelernt werden, die gute Bewertungen erhalten
- Damit hätte man im Go aber vermutlich keine nennenswerten Ergebnisse erzielt
Zwei Hauptgründe, warum RLHF nicht zu AlphaGo passt
- Erstens kann die Vibe-Bewertung irreführend sein. Diese Belohnung ist keine Belohnung für einen tatsächlichen Sieg, sondern ein ungenaues Proxy-Ziel
- Zweitens ist im RL-Optimierungsprozess die Wahrscheinlichkeit hoch, dass das Belohnungsmodell abnormalen Zuständen außerhalb des Bereichs der Trainingsdaten hohe Punktzahlen gibt und die Optimierung dadurch verzerrt wird
  - Das RM ist ein großes neuronales Netz mit Milliarden von Parametern, das Vibes imitiert
Probleme bei der Anwendung von RLHF auf LLMs
- Das Belohnungsmodell eines LLM neigt ebenfalls dazu, Antworten hoch zu bewerten, die menschliche Bewerter vermutlich bevorzugen würden
  - Dieses Belohnungsmodell löst nicht das „eigentliche“ Problem, sondern ist nur ein Proxy-Ziel, das Antworten bewertet, die Menschen wahrscheinlich mögen
- RLHF kann nicht zu lange ausgeführt werden, weil das Modell schnell lernt, auf eine Weise zu antworten, die das Belohnungsmodell austrickst
- Man kann beobachten, dass ein LLM-Assistent anfängt, mit seltsamen Dingen wie „The the the the the the“ zu antworten
- Für Menschen wirkt das lächerlich, aber das RM hält es für ausgezeichnet
- Es hat in einem Bereich außerhalb der Verteilung der RM-Trainingsdaten ein adversariales Beispiel gefunden
- Aus diesem Grund kann RLHF nicht über zu viele Optimierungsschritte hinweg laufen und muss nach einigen Hundert/Tausend Schritten gestoppt werden, weil die Optimierung sonst beginnt, das RM auszutricksen
- Das ist nicht die Art von RL wie bei AlphaGo
Warum RLHF trotzdem nützlich für den Aufbau von LLM-Assistenten ist
- RLHF profitiert von der Lücke zwischen Generator und Discriminator
  - Bei vielen Problemtypen ist es für menschliche Bewerter viel einfacher, aus einigen Kandidatenantworten die beste auszuwählen, als von Grund auf eine ideale Antwort zu schreiben
  - Ein gutes Beispiel ist ein Prompt wie „Schreibe ein Gedicht über eine Büroklammer“, bei dem es leichter ist, unter mehreren Kandidaten ein gutes Gedicht auszuwählen
- RLHF ist eine Methode, von dieser „Einfachheits“-Lücke in der menschlichen Aufsicht zu profitieren
- Außerdem ist RLHF auch nützlich, um Halluzinationen (das Erfinden falscher Informationen) zu verringern
  - Wenn das RM während des Trainings stark genug ist, um zu erkennen, dass das LLM etwas erfindet, kann es lernen, dies mit niedriger Belohnung zu bestrafen und dem Modell beibringen, ungern Risiken bei unsicheren Fakten einzugehen
  - Eine zufriedenstellende Behandlung von Halluzinationen und ihrer Minderung ist jedoch ein völlig anderes Thema
Fazit: „RLHF ist nützlich, aber kein echtes RL“
- Bislang gibt es keinen überzeugend erreichten und nachgewiesenen Fall von großskaligem, produktionsreifem „echtem“ RL für LLMs im Open-Domain-Bereich
- Intuitiv liegt das auch daran, dass es bei Open-Domain-Problemlösung sehr schwierig ist, echte Belohnungen zu erhalten, also etwa so etwas wie das Gewinnen eines Spiels
- In geschlossenen, spielähnlichen Umgebungen wie Go, in denen die Dynamik begrenzt ist und die Belohnungsfunktion leicht auszuwerten und nicht zu überlisten ist, ist das interessant
- Wie könnte man zum Beispiel eine objektive Belohnung für Dokumentenzusammenfassungen, Antworten auf leicht mehrdeutige Fragen, das Erzählen von Witzen oder das Umschreiben von Java-Code in Python vergeben?
  - Ein Weg dorthin ist prinzipiell nicht unmöglich, aber auch nicht trivial und erfordert kreatives Denken
  - Wer dieses Problem überzeugend löst, könnte echtes RL ausführen
    - Die Art von RL, mit der AlphaGo Menschen im Go besiegt hat
  - Wer dieses Problem löst, könnte ein LLM bauen, das Menschen bei Open-Domain-Problemlösung übertrifft

1 Kommentare

xguru 2024-08-09

Hacker-News-Kommentare

KI-Coding-Assistenten werden sich in den nächsten Jahren stark verbessern
- Chat-KI hat keine klare Belohnungsfunktion, daher ist die Qualitätsbewertung schwierig
- Coding-KI kann in einer Endlosschleife Tests schreiben, Code schreiben, kompilieren, fehlgeschlagene Testfälle prüfen usw.
- Dieser Prozess kann als Trainingsdaten für zukünftige KI-Coding-Modelle verwendet werden
- Sprachmodelle werden wahrscheinlich auch beim Beweisen mathematischer Theoreme herausragende Ergebnisse zeigen
- Software zur Verifikation von Theoremen liefert 100 % korrektes Feedback und ermöglicht dadurch Reinforcement Learning
- Formale Verifikation der Korrektheit von Programmen ist langweilig, aber LLMs könnten das verändern
- Von LLMs erzeugte Annotationen könnten von der Engine genutzt werden, um Korrektheit zu beweisen
Eine billige DIY-Methode ähnlich wie RLHF besteht darin, ein Modell so feinzujustieren, dass es Bewertungen zu seinen Ausgaben hinzufügt
- RLHF ist nötig, weil man keine Loss-Funktion schreiben kann, die gute Antworten direkt erzeugt
- Das Basismodell erzeugt für einen Prompt n Vervollständigungen, die dann manuell bewertet werden
- Danach werden Prompt => (Vervollständigung, Bewertung)-Paare zum Trainingssatz
- Sobald das Modell trainiert ist, kann man den gewünschten Score in den Prompt aufnehmen, und das Modell versucht, eine Antwort passend zu diesem Score zu erzeugen
Das Problem, dass verschiedene ML-Algorithmen die Belohnungsfunktion „spielen“, ähnelt Problemen in Finanzen und Wirtschaft
- Wenn Menschen versuchen, Geld zu bekommen, ohne produktive Arbeit zu leisten, entsteht viel Unproduktives
- Um das abzumildern, braucht es ein System, das das Ausnutzen der Belohnungsfunktion bestraft
- Dieses System muss echten Wert verstehen und Fälle identifizieren können, in denen die Belohnungsfunktion hoch, der tatsächliche Wert aber gering ist
Karpathy kennt sich mit diesem Thema deutlich besser aus, aber in diesem Beitrag scheint etwas zu fehlen
- Go ist ein Spiel, das zu komplex ist, als dass Menschen es vollständig lösen könnten
- Das Ziel von LLMs ist es, Menschen perfekt zu imitieren
- AlphaGo und Stockfish können das Verständnis von Spielen voranbringen, aber LLMs können die Grenzen der Sprache nicht erweitern
- Da LLMs im Wesentlichen Imitationsmodelle sind, ist RLHF im Bereich der LLMs sinnvoller
Ich frage mich, worin die „Lücke“ zwischen heutigen transformerbasierten LLMs und optimaler Sequenzvorhersage besteht
- Heutige LLMs haben das einfache Ziel, beim Training die Kreuzentropie der Token-Vorhersage zu minimieren
- Solomonoff-Induktion erreicht optimale Sequenzvorhersage
- Ich frage mich, wie unterschiedlich ein Gespräch zwischen SI und GPT4 wäre
- AGI braucht mehr als nur optimale Sequenzvorhersage
- Eine menschenorientierte Zielgröße wäre, die Wahrscheinlichkeit zu maximieren, Antworten zu geben, mit denen Nutzer zufrieden sind
- Aber da es mehrere Nutzer gibt, ist die Aggregationsmethode das Problem
- Karpathy deutet dieses Problem an
Beweisdomänen wie LEAN haben Zustand, Aktion, Fortschrittsmaß und einen finalen Zielzustand
- Wenn Karpathy sich auf die Automatisierung von LEAN-Beweisen konzentriert, könnte das die Mathematik für immer verändern
AlphaGo hatte kein menschliches Feedback, hat aber von Menschen gelernt
- AlphaZero schloss den menschlichen Einfluss aus und nutzte reines Reinforcement Learning
Das SPAG-Paper ist ein Beispiel für echtes Reinforcement Learning mit Sprachmodellen
- In Karpathys Beitrag fehlen „Skalierung“ und „Open-Domain“
- Adversariale Sprachspiele wirken vielversprechend
Die Schlussfolgerung, dass LLM + RL Menschen bei der Lösung von Open-Domain-Problemen übertreffen werden, ist unzureichend begründet

„RLHF ist nur ein kleiner Teil von RL.“ – Andrej Karpathy

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare