Reinforcement Learning für das Training der Selbstkorrektur von Sprachmodellen
-
Notwendigkeit der Selbstkorrektur
- Die Fähigkeit großer Sprachmodelle (LLMs) zur Selbstkorrektur ist sehr wünschenswert, aber bei modernen LLMs nicht effektiv
- Bestehende Trainingsmethoden für Selbstkorrektur erfordern mehrere Modelle oder ein leistungsfähigeres Modell beziehungsweise andere Formen der Überwachung
-
SCoRe-Ansatz
- SCoRe ist ein Online-Reinforcement-Learning-Ansatz mit mehreren Turns, der die Fähigkeit von LLMs zur Selbstkorrektur durch die Verwendung vollständig selbst erzeugter Daten deutlich verbessert
- Um SCoRe zu entwickeln, wird gezeigt, dass eine Variante des überwachten Fine-Tunings (SFT) auf offline erzeugten Korrekturverläufen von Modellen nicht ausreicht, um Selbstkorrekturverhalten zu vermitteln
- Training mit SFT leidet unter einer Verteilungsdiskrepanz zwischen den Trainingsdaten und den eigenen Antworten des Modells oder bevorzugt nur bestimmte Modi des Korrekturverhaltens, was beim Testen nicht effektiv ist
-
Lösung von SCoRe
- Der Trainingsprozess wird so angepasst, dass unter der Verteilung der selbst erzeugten Korrekturverläufe des Modells trainiert wird und mit geeigneter Regularisierung wirksame Selbstkorrekturstrategien für den Testzeitpunkt erlernt werden
- Es wird eine erste RL-Phase ausgeführt, um eine Policy-Initialisierung zu erzeugen, und ein Reward-Bonus wird verwendet, um die Selbstkorrektur während des Trainings zu verstärken
-
Leistungsergebnisse
- Bei Anwendung auf die Modelle Gemini 1.0 Pro und 1.5 Flash erzielt SCoRe auf den Benchmarks MATH und HumanEval Verbesserungen der Selbstkorrekturleistung von 15,6 % bzw. 9,1 %
Zusammenfassung von GN⁺
- Diese Arbeit schlägt eine Methode vor, um die Fähigkeit großer Sprachmodelle zur Selbstkorrektur mithilfe von Reinforcement Learning deutlich zu verbessern
- Der SCoRe-Ansatz nutzt selbst erzeugte Daten, um das Problem der Verteilungsdiskrepanz des Modells zu lösen und wirksame Korrekturstrategien für den Testzeitpunkt zu erlernen
- Die Forschung zeigt insbesondere bei Gemini-Modellen deutliche Leistungsverbesserungen
- Die Fähigkeit zur Selbstkorrektur ist ein wichtiger Faktor, um die Zuverlässigkeit und Genauigkeit von Sprachmodellen zu erhöhen
- Ein Projekt mit ähnlicher Funktionalität ist die GPT-Serie von OpenAI
1 Kommentare
Hacker-News-Kommentare
Ähnelt dem Ansatz von OpenAIs o1-Modell
Answer 1, Reasoning, Corrected Answerund das Signal „Verbessere die Corrected Answer“ erhält, zwei Möglichkeiten hatReasoning, Corrected Answerzu verbessernAnswer 1zu verbessern, sodassCorrected AnswermitAnswer 1identisch wirdLLMs haben keine direkte Erinnerung an ihr eigenes Training
Es gibt die Frage, ob dies eine Art Wissensdestillation ist
Es gibt die Ansicht, dass man Halluzinationen im autoregressiven Paradigma der Vorhersage des nächsten Tokens nicht beseitigen kann
Es gibt Unmut darüber, dass AI-Experten den Begriff „Halluzination“ popularisiert haben
Ein intelligenter Algorithmus, der einen nichtintelligenten Next-Word-Predictor anleitet, ist immer noch ein nichtintelligenter Algorithmus