Die Selbstkorrekturfähigkeit von Sprachmodellen mit Reinforcement Learning trainieren

(arxiv.org)

2 Punkte von GN⁺ 2024-09-22 | 1 Kommentare | Auf WhatsApp teilen

SCoRe von Google DeepMind ist ein Multi-Turn-Online-Reinforcement-Learning-Ansatz, bei dem ein LLM anhand selbst erzeugter Korrekturtrajektorien lernt, die eigenen Antworten ohne externes Feedback zu verbessern
Bestehende SFT-Methoden sind anfällig für Verteilungsverschiebung, bei der Fehler in den Trainingsdaten und tatsächliche Modellfehler nicht übereinstimmen, oder für Verhaltenskollaps, bei dem die zweite Antwort kaum noch verändert wird
SCoRe hält die Verteilung des ersten Versuchs zunächst nahe am Basismodell, initialisiert dann den zweiten Versuch auf Verbesserung und verstärkt anschließend mit Reward Shaping das tatsächliche Korrekturverhalten
In Experimenten mit Gemini 1.0 Pro und Gemini 1.5 Flash verbesserte sich die Selbstkorrekturleistung gegenüber dem Basismodell bei MATH um 15,6 Prozentpunkte und bei HumanEval um 9,1 Prozentpunkte
Allein durch Prompting oder Offline-SFT lässt sich stabile intrinsische Selbstkorrektur nur schwer erzeugen; nötig ist ein Reinforcement-Learning-Design auf selbst erzeugten Daten, das Kollaps verhindert

Das von SCoRe adressierte Problem der Selbstkorrektur

LLMs sind bei Denkaufgaben wie Mathematik und Coding nützlich, können aber zum Testzeitpunkt die Meta-Strategie, die eigene Antwort zu prüfen und zu korrigieren, nicht zuverlässig ausführen
Selbstkorrektur ist die Fähigkeit eines Modells, seine anfängliche Antwort erneut zu betrachten und in eine bessere finale Antwort umzuwandeln
Diese Arbeit fokussiert auf das Setting der intrinsischen Selbstkorrektur, in dem das Modell seine eigene Antwort ohne externe Eingaben korrigiert
- Zum Testzeitpunkt werden weder ein Antwortprüfer noch externes Feedback verwendet
- Während des Trainings wird angenommen, dass Zugriff auf eine Reward-Funktion besteht, die die Korrektheit der Modellausgaben bewertet
SCoRe trainiert kein separates Korrekturmodell, sondern ein einzelnes Modell, das sowohl die erste Antwort als auch die Fehlerkorrektur übernimmt

Wo bestehende Ansätze scheitern

Wird Selbstkorrektur nur per Prompting ausgelöst, kann sich die Leistung laut mehreren Vorarbeiten sogar verschlechtern
Einige Verfahren hängen von zusätzlichen Bedingungen ab, etwa Referenzantworten, Testfällen, stärkeren Modellen, menschlichen Annotationen oder separaten Refinement-Modellen
SFT-basierte Ansätze können zwar selbst erzeugte Korrekturtrajektorien nutzen, führen in Experimenten aber nicht zu einem starken Selbstkorrektureffekt
In den MATH-Vergleichsexperimenten wurden STaR- und Pair-SFT-Varianten verwendet
- STaR behält nur Trajektorien, in denen fehlerhafte Antworten erfolgreich korrigiert wurden, und führt darauf SFT durch
- Pair-SFT trainiert ein einzelnes Modell mit synthetischen Repair Traces, die fehlerhafte und korrekte Antworten paaren

Ergebnisse der SFT-basierten Selbstkorrekturexperimente

Im MATH-Experiment auf Basis von Gemini 1.5 Flash lag die Genauigkeit des Basismodells beim ersten Versuch bei 52,6 % und beim zweiten Versuch bei 41,4 %, also -11,2 Prozentpunkte schlechter
Pair-SFT erhöhte die Genauigkeit des zweiten Versuchs auf 54,2 %, die Verbesserung gegenüber dem ersten Versuch betrug jedoch nur 1,8 Prozentpunkte
Die Standardkonfiguration von STaR fiel von 55,4 % im ersten Versuch auf 41,2 % im zweiten Versuch, also um -14,2 Prozentpunkte
STaR mit zusätzlichen correct-to-correct-Daten verbesserte Δ(t1,t2) auf 0,4 Prozentpunkte, der Selbstkorrektureffekt blieb jedoch klein
Pair-SFT mit zusätzlichen correct-to-correct-Daten führte dazu, dass erster und zweiter Versuch beide bei 55,0 % lagen, also mit Tendenz dazu, die Antwort nicht zu ändern

Zwei Fehlermodi

SFT-basierte Methoden sind anfällig für Verteilungsverschiebung
- Die Trainingsdaten sind auf die Fehler des ersten Versuchs abgestimmt, die vom Basismodell erzeugt wurden
- Bei der Fehlerverteilung des ersten Versuchs, die das trainierte Modell selbst erzeugt, kann die Korrekturleistung sinken
Bei Pair-SFT steigt die correction accuracy auf einer festen Menge erster Antworten, doch bei ersten Antworten, die das trainierte Modell selbst erzeugt, verschlechtert sich die Selbstkorrekturgenauigkeit
Bei Verhaltenskollaps erfolgen im zweiten Versuch entweder keine echten Korrekturen oder nur sehr konservative Änderungen
Analysen des edit distance ratio zeigen, dass STaR- und SFT-Modelle oft ein Muster aufweisen, bei dem fast nichts korrigiert wird
Standard-Multi-Turn-RL kann zwar die Leistung beider Versuche steigern, vergrößert aber nicht die Differenz Δ(t1,t2) zwischen erstem und zweitem Versuch und führt daher schwerlich zu echter Selbstkorrekturfähigkeit

Die Trainingsstruktur von SCoRe

SCoRe ist ein on-policy Multi-Turn-RL-Ansatz, der auf selbst erzeugten Online-Daten trainiert und so Verteilungsverschiebung reduziert
Für das grundlegende RL-Training wird eine REINFORCE-Policy-Gradient-Methode mit KL-Divergenz-Penalty gegenüber einem fixierten Modell verwendet
Stage I ist eine Initialisierungsphase, die das Verhalten der beiden Versuche trennt
- Die Verteilung des ersten Versuchs wird durch eine KL-Beschränkung nahe am Basismodell gehalten
- Der zweite Versuch wird darauf trainiert, hohe Rewards zu erzielen
- Ziel ist eine initiale Policy, die im zweiten Versuch bessere Antworten explorieren kann
Stage II optimiert beide Versuche gemeinsam
- Dem Reward des zweiten Versuchs wird ein progress bonus hinzugefügt
- Der Bonus wird verstärkt, wenn der zweite Versuch die Korrektheit gegenüber dem ersten verbessert
- Übergänge, bei denen eine ursprünglich richtige erste Antwort in eine falsche Antwort verwandelt wird, erhalten einen starken negativen Effekt

Warum Reward Shaping nötig ist

Mit einem Standard-RL-Ziel sind zwei verschiedene Strategien möglich
- Die erste Antwort im zweiten Schritt verbessern
- Die erste Antwort von vornherein möglichst gut machen und im zweiten Schritt kaum noch etwas ändern
In den Trainingsdaten können beide Strategien gut aussehen, doch die zweite generalisiert bei neuen Aufgaben nicht als Selbstkorrektur
Das Reward Shaping von SCoRe berücksichtigt im Reward nicht nur die finale Korrektheit, sondern auch die Veränderung der Korrektheit
Dieses Design verstärkt nicht einfach nur Antworten mit hohem Reward, sondern speziell das Verhalten, eine falsche erste Antwort in eine korrekte zweite Antwort umzuwandeln

Leistung und Beispiele

SCoRe zeigt bei MATH Beispiele, in denen im zweiten Versuch Rechenfehler und Denkfehler korrigiert werden
- Im Rechenbeispiel wird bei einer modularen Multiplikation die erste Antwort 1 im zweiten Versuch zu 3 korrigiert
- Im Denkbeispiel wird bei einem Problem zur Anzahl von Funktionswerten die erste Antwort ∞ im zweiten Versuch zu 3 korrigiert
Auf Gemini 1.0 Pro und Gemini 1.5 Flash erreicht SCoRe Selbstkorrekturleistung auf Spitzenniveau
Gegenüber den Basis-Gemini-Modellen beträgt die Verbesserung der Selbstkorrektur bei MATH 15,6 Prozentpunkte und bei HumanEval 9,1 Prozentpunkte
In MATH-Inferenzzeit-Scaling-Experimenten zeigt sich ein Bereich, in dem es effektiver ist, Samples für sequenzielle Selbstkorrektur zu verwenden als nur für parallele direkte Generierung

Praktische Implikationen

Selbstkorrekturtraining lässt sich nur schwer allein dadurch umsetzen, dass man korrekte Antwortdaten sammelt und darauf SFT betreibt
Wenn ein Modell zum Testzeitpunkt seine eigenen Fehler korrigieren soll, muss es das Korrekturverhalten auch während des Trainings auf der Verteilung seiner eigenen Antworten lernen
Die zentrale Einschränkung von SCoRe ist, dass während des Trainings eine Reward-Funktion zur Bewertung der Korrektheit benötigt wird, dieser Reward aber zum Testzeitpunkt nicht verwendet wird
Um bei der Bereitstellung ein einzelnes Modell beizubehalten und zugleich die Selbstkorrekturfähigkeit zu steigern, braucht es auch ohne separates Korrekturmodell oder Teacher Supervision ein Multi-Turn-RL mit Reward-Design zur Vermeidung von Kollaps

1 Kommentare

GN⁺ 2024-09-22

Hacker-News-Kommentare

Wirkt wie ein ähnlicher Ansatz wie OpenAIs o1-Modell, aber da das o1-Paper nicht veröffentlicht ist, wird es nicht zitiert.
Leider scheint es auch keinen Hinweis auf eine Veröffentlichung der Gewichte zu geben.
- Dieses Paper scheint Reinforcement Learning als Teil des Haupttrainings oder in einer nachgelagerten Phase zu verwenden, während das Modell danach wie üblich inferiert.
  So könnte o1 auch funktioniert haben, aber die größere Veränderung ist meiner Ansicht nach der Runtime-Denkprozess, bei dem nach Erhalt des Prompts zur Laufzeit nachjustiert wird, indem vor der endgültigen Antwort in Worten „gedacht“ wird.
  Wenn dieses Verständnis stimmt, sind die beiden Ansätze nicht ähnlich. Soweit ich weiß, verwendet OpenAI seit der ersten Version von ChatGPT Reinforcement Learning für alle nachfolgenden Modelle, und genau deshalb konnte man von Anfang an im UI Feedback hinterlassen.
- Ich frage mich, in welcher Hinsicht das ähnlich sein soll.
Das Paper war etwas schwer zu verstehen, weil es die zentrale These nicht direkt erklärt, sondern viel drum herumredet. So wie ich es verstehe, ist das Ziel, LLMs dazu zu bringen, bei schwierigen Problemen genauere Antworten zu geben.
Eine Hypothese ist, dass man dem Modell das Verhalten der Selbstkorrektur beibringen kann, sodass es eine falsche Antwort als Eingabe bekommt und sie zu einer besseren oder richtigen Antwort verbessert.
Zuvor hat man versucht, dieses Verhalten mit verschiedenen Reinforcement-Learning-Methoden zu trainieren, bei denen die Qualität der korrigierten Antwort als Belohnung dient, aber das hat nicht gut funktioniert, und das gelernte Verhalten hat auch nicht gut generalisiert.
Der Kern dieses Papers ist, dass das Modell, wenn es Trainingsbeispiele der Form Answer 1, Reasoning, Corrected Answer sowie das Signal „mache die Corrected Answer besser“ erhält, in Wirklichkeit zwei vollständig gangbare Lösungswege hat. Der eine ist, wie gewünscht Reasoning, Corrected Answer zu verbessern, der andere ist, einfach Answer 1 selbst zu verbessern, sodass Corrected Answer = Answer 1 wird.
In früheren Arbeiten scheint Letzteres tatsächlich passiert zu sein, weshalb das Training des gewünschten Verhaltens scheiterte. Das Modell versucht dann nicht, das Korrekturverhalten zu verbessern, sondern nur die erste Antwort.
Die Lösung dieses Papers ist, das Trainingsverfahren leicht zu ändern, um den ersten Ansatz zu fördern. Es ist also ein Versuch, das gewünschte Verhalten zu trainieren, nämlich frühere Antworten tatsächlich zu korrigieren.
Das Training läuft in zwei Stufen ab. In Stufe 1 wird mit einem KL-Divergenz-Loss erzwungen, dass die erste Antwort unverändert bleibt, während eine verbesserte zweite Antwort belohnt wird. So kann das Modell mit dem Selbstkorrekturverhalten initialisiert werden, ohne dass die Verteilung der ursprünglichen Antworten verschwindet und man später weniger „falsche Antworten“ sieht, weil sie durch das Training aus dem Modell herausgedrängt wurden.
In Stufe 2 darf das Modell auch die erste Antwort verändern, aber die Reward-Funktion wird so angepasst, dass Umkehrungen stärker belohnt werden, bei denen die erste Antwort schlecht und die zweite gut ist. In dieser Phase kann es sowohl die Strategie nutzen, die erste Antwort zu verbessern, als auch die Strategie, die Selbstkorrektur zu verbessern, aber Letztere erhält mehr Reward. Das wirkt wie ein Verfeinerungsschritt, der die Gesamtleistung verbessert und zugleich das Selbstkorrekturverhalten erhält.
Den Metriken nach funktioniert diese Technik besser und generalisiert auch besser.
Ich mache mir aber etwas Sorgen, dass das Modell in Stufe 2 lernen könnte, Answer 1 absichtlich schlechter zu machen, um die Belohnung für Umkehrungen zu maximieren. Es müsste irgendeinen Ausgleichsmechanismus geben, damit Answer 1 nicht schlechter wird, aber ich weiß nicht, ob das in der Reward-Funktion enthalten ist oder ob diese Sorge in der Praxis überhaupt berechtigt ist.
- Dass Antworten oft eher um die eigentliche Idee herumreden, erklärt ein Phänomen ziemlich gut, das man bei vielen LLM-Outputs sieht. Ich habe o1 nicht selbst benutzt, aber es scheint dieses Problem zu beheben.
- Ich frage mich, was mit „der andere ist, einfach Answer 1 selbst zu verbessern, sodass Corrected Answer = Answer 1 wird“ gemeint ist.
  Ist es nicht ohnehin das Ziel, Answer 1 zu verbessern? Nach der Erklärung klingt es eher so, als sei Answer 1 keine Eingabe, sondern eine Ausgabe des LLM.
LLMs können sich sensorische Erfahrungen ihres eigenen Lernprozesses nicht direkt merken. Eine der wichtigsten Arten, wie ich mich selbst korrigiere, ist zu prüfen, wenn ich über etwas sprechen will, wie/warum ich das weiß, und einzuschätzen, ob ich es tatsächlich weiß, ob ich es erfinde oder ob ich es aus einer wenig verlässlichen Quelle aufgeschnappt habe
Wenn ein LLM sich an seinen eigenen Lernprozess in keiner Weise erinnern kann, erscheint Selbstkorrektur schwierig
- Heißt die Lösung also, jeder Trainings-Batch eine Beschreibung einer sensorischen Erfahrung voranzustellen? Zum Beispiel so etwas wie: „Du hast 1997 in einem Café in Paris den folgenden Inhalt gelesen. Während des Lesens hast du ein hervorragendes Baguette, gekochte Eier und überrösteten Kaffee gegessen. Die Frau am Nachbartisch trug einen schönen blauen Hut“
  Und dann das endgültige Modell nachtrainieren, damit es sich daran erinnert, wo es welchen Text gelesen hat, oder damit es sich an keinerlei Erfahrung erinnert, wenn Text auftaucht, den es nicht gelesen hat?
  Wenn das jemand ausprobiert und damit Erfolg hat, breche ich mein Promotionsstudium ab und gehe zurück als Camp-Betreuer
- Scheint in eine ähnliche Richtung zu gehen. Hilft tatsächlich: Source-Aware Training Enables Knowledge Attribution in Language Models (https://arxiv.org/abs/2404.01019)
  Laut Abstract wird Source-Aware Training untersucht, um LLMs diese Fähigkeit zu geben. Konkret wird ein LLM dabei trainiert, (i) das Wissen jedes Dokuments mit einer eindeutigen Kennung des Quelldokuments zu verknüpfen, und anschließend (ii) per Instruction Tuning dazu angehalten, bei gegebenen Prompts die unterstützenden Vortrainingsquellen zu zitieren
- Stimme überhaupt nicht stark zu: https://mypapers.nyc3.cdn.digitaloceanspaces.com/the_phenomenology_of_machine.pdf
  Ebenfalls sehenswert: https://www.sciencedirect.com/science/article/pii/S1571064523001094
  Die Trainingsweise von o1 wird in dieser Formalisierung als strange particle-Modell beschrieben
- Im Alltagsgebrauch scheint diesem Aspekt zu viel Gewicht gegeben zu werden. Wenn sich Wissen ansammelt, ist besonders bei eher unsystematischem Allgemeinwissen das Muster „Ich weiß nicht, warum ich das weiß, aber die Antwort ist X“ sehr häufig
  Selbst bei systematischem Wissen wie in der Informatik verblassen sensorische Erfahrungen mit der Zeit im Hintergrund. Ich kann zum Beispiel wie viele andere in der Informatik die O()-Leistungsmerkmale recht vieler Algorithmen spontan nennen, aber wo ich einen bestimmten Algorithmus gelernt habe, ist längst verschwommen
  Wenn Menschen sich selbst korrigieren, ist der übliche Prozess keine großartige Operation wie „einschätzen, ob ich das weiß“ oder „mich erinnern, ob ich es aus einer wenig verlässlichen Quelle gehört habe“. Meist gibt es eher ein vages Gefühl von „Ich habe das nicht vollständig verstanden“, und die Selbstkorrektur besteht darin, die Information noch einmal in einer verlässlichen Quelle nachzuschlagen
  Deshalb halte ich sensorische Erfahrung beim Erinnern nicht für so wichtig, wie hier angenommen wird
- Wenn man nicht unter Drogeneinfluss steht oder eine schwere psychische Krise durchlebt, ist das eher Konfabulation als Halluzination
Spoiler: Im Paradigma der autoregressiven Next-Token-Vorhersage lassen sich Halluzinationen nicht beseitigen, auch bekannt als LeCuns Gesetz
Das Problem hier ist, dass Leute Sprachmodelle als deterministische Problemlöser verwenden wollen statt für das, worin sie tatsächlich gut sind: halb-kreative Texterzeugung
- Gibt es so etwas wie LeCuns Gesetz tatsächlich? Bei einer Suche findet man fast nichts außer ein paar HN-Kommentaren mit anderer Bedeutung. Es könnte aus einer wenig bekannten Arbeit stammen, aber bei einer so dünnen Dokumentation wirkt es seltsam, es in diesem Kontext anzuführen
- Ich frage mich, ob jemand versucht hat, die Perplexity der vorherigen Tokens wieder in das Modell einzuspeisen, damit das Modell erkennen kann, dass es von der Spur abkommt
  In so einem Fall könnte man ihm vielleicht beibringen, weniger selbstsichere Antworten zu geben, um die Tendenz zu Halluzinationen zu verringern
- Freut mich, diese Sichtweise zu sehen
  Ich erkläre es Leuten oft so: Stell dir ein Unternehmen vor, das nur aus einer PR-Abteilung besteht. Es ist sehr gut darin, Pressemitteilungen zu verfassen und Fragen von Journalisten zu beantworten, aber weil der Rest des Unternehmens fehlt, gibt es nichts, das den ausgegebenen Text sinnvoll einschränkt
  In einem anderen Universum, in dem die Leute das verstanden hätten, wären LLMs nie für ernste Dinge verwendet worden, sondern vor allem für unterhaltsame kleine Kunstprojekte
- LeCuns Argumentation ist ernsthaft mangelhaft. Sie ist überhaupt nicht rigoros, und man sollte ohne Begründung keine so weitreichende Schlussfolgerung ziehen
- Das Wort „niemals“ an sich ist nicht das Problem. Menschen verhalten sich ähnlich
  Kernfusion muss nur ein einziges Mal richtig gelöst werden
Ist das im Grunde eine Form von Knowledge Distillation?
Ich mag es nicht, dass AI-Kritiker den Ausdruck Halluzination popularisiert haben. Dadurch wird ein statistisches Gebilde vermenschlicht, als würde es einen tiefen Denkprozess durchlaufen, der dem menschlichen Geist ähnelt.
Nein, es halluziniert nicht. Es lügt auch nicht und denkt sich nichts aus. Es gibt einfach Daten aus, je nachdem, was die zugrunde liegenden Gewichte auslösen.
Wenn das ein gewöhnlicher JSON-API-Endpunkt wäre, würde niemand sagen, die API halluziniere; man würde sagen, sie sei kaputt, also: „Diese API ist miserabel.“
- Ich sehe es umgekehrt. Menschen glauben, der menschliche Geist betreibe „tiefes Denken“, aber in Wirklichkeit könnte er einfach nur ein statistisches Gebilde sein.
- Der präzisere Begriff ist Konfabulation. Das ist das Phänomen, fehlende Informationen zu ergänzen, ohne sich bewusst zu sein, dass man es tut.
  Da kein neuronales System seine Lerndaten perfekt speichern kann, konfabuliere wir alle bis zu einem gewissen Grad.
  Menschliche „Halluzinationen“ sind dagegen eher ein spezifischer Zusammenbruch der sensorischen Rückkopplungsschleifen. So einen Prozess gibt es bei LLMs von vornherein nicht.
  Halluzinationen entstehen, wenn interne sensorische Rückkopplungsschleifen den tatsächlichen sensorischen Input überlagern und dadurch falsche sensorische Erfahrungen oder Signalverläufe erzeugt und verarbeitet werden. Diese falsche fortlaufende Erfahrung kann reale sensorische Informationen teilweise enthalten oder auch nicht.
  Wenn wir träumen, halluzinieren wir. Eine von der realen Wahrnehmung entkoppelte Schleife sensorischer Erfahrung läuft frei, hat dabei aber auch einen produktiven Zweck.
  Der Grund für Rückkopplung in der Wahrnehmung ist, dass die Interpretation sensorischer Eingaben als Hinweis dient, um die Interpretation der Eingaben im nächsten Moment zu erleichtern. Wenn neue Eingaben jedoch stark von der Erwartung abweichen, ist es wichtig, die laufende Interpretation zurückzusetzen und die Richtung schnell neu auszurichten.
  Um Fehlinterpretationen an echte Kontextänderungen anzupassen, ist es nicht nur wichtig, zur Interpretation des rohen Inputs zurückzukehren; ein solcher Reset signalisiert auch, dass etwas Neues oder Unerwartetes passiert ist, und löst daher mit hoher Wahrscheinlichkeit Lernen aus.
  Deshalb war die Wahl des Begriffs „Halluzination“ unglücklich und irreführend.
- Schlechte Nachricht, aber der Begriff wurde in der Deep-Learning-Forschung schon lange vor dem Aufkommen von LLMs verwendet. Kritiker haben also nicht irgendetwas popularisiert oder versucht, die Schwächen von LLMs zu rechtfertigen; es war schlicht der Name, den Forschende dem Phänomen in ihrer Arbeit gegeben haben.
  Beispiele für Arbeiten, die den Begriff schon vor LLMs in diesem Sinn verwendet haben:
  2021: The Curious Case of Hallucinations in Neural Machine Translation (https://arxiv.org/abs/2104.06683)
  2019: Identifying Fluently Inadequate Output in Neural and Statistical Machine Translation (https://aclanthology.org/W19-6623/)
Auch wenn man einen intelligenten Algorithmus nutzt, um einen dummen, nicht intelligenten Nächste-Wort-Vorhersager anzuleiten, bleibt es am Ende doch nur ein nicht intelligenter Algorithmus.
Es stimmt, dass damit Müll eleganter sortiert wird, aber Müll bleibt es trotzdem.
Ich hatte gehofft, dass ein eher reinforcement-learning-artiger Ansatz einen eher Transformer-artigen Ansatz ersetzen würde, aber das ist wohl eher ein unerfüllbarer Traum.

Die Selbstkorrekturfähigkeit von Sprachmodellen mit Reinforcement Learning trainieren

Das von SCoRe adressierte Problem der Selbstkorrektur

Wo bestehende Ansätze scheitern

Ergebnisse der SFT-basierten Selbstkorrekturexperimente

Zwei Fehlermodi

Die Trainingsstruktur von SCoRe

Warum Reward Shaping nötig ist

Leistung und Beispiele

Praktische Implikationen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare