2 Punkte von GN⁺ 2024-09-22 | 1 Kommentare | Auf WhatsApp teilen

Reinforcement Learning für das Training der Selbstkorrektur von Sprachmodellen

  • Notwendigkeit der Selbstkorrektur

    • Die Fähigkeit großer Sprachmodelle (LLMs) zur Selbstkorrektur ist sehr wünschenswert, aber bei modernen LLMs nicht effektiv
    • Bestehende Trainingsmethoden für Selbstkorrektur erfordern mehrere Modelle oder ein leistungsfähigeres Modell beziehungsweise andere Formen der Überwachung
  • SCoRe-Ansatz

    • SCoRe ist ein Online-Reinforcement-Learning-Ansatz mit mehreren Turns, der die Fähigkeit von LLMs zur Selbstkorrektur durch die Verwendung vollständig selbst erzeugter Daten deutlich verbessert
    • Um SCoRe zu entwickeln, wird gezeigt, dass eine Variante des überwachten Fine-Tunings (SFT) auf offline erzeugten Korrekturverläufen von Modellen nicht ausreicht, um Selbstkorrekturverhalten zu vermitteln
    • Training mit SFT leidet unter einer Verteilungsdiskrepanz zwischen den Trainingsdaten und den eigenen Antworten des Modells oder bevorzugt nur bestimmte Modi des Korrekturverhaltens, was beim Testen nicht effektiv ist
  • Lösung von SCoRe

    • Der Trainingsprozess wird so angepasst, dass unter der Verteilung der selbst erzeugten Korrekturverläufe des Modells trainiert wird und mit geeigneter Regularisierung wirksame Selbstkorrekturstrategien für den Testzeitpunkt erlernt werden
    • Es wird eine erste RL-Phase ausgeführt, um eine Policy-Initialisierung zu erzeugen, und ein Reward-Bonus wird verwendet, um die Selbstkorrektur während des Trainings zu verstärken
  • Leistungsergebnisse

    • Bei Anwendung auf die Modelle Gemini 1.0 Pro und 1.5 Flash erzielt SCoRe auf den Benchmarks MATH und HumanEval Verbesserungen der Selbstkorrekturleistung von 15,6 % bzw. 9,1 %

Zusammenfassung von GN⁺

  • Diese Arbeit schlägt eine Methode vor, um die Fähigkeit großer Sprachmodelle zur Selbstkorrektur mithilfe von Reinforcement Learning deutlich zu verbessern
  • Der SCoRe-Ansatz nutzt selbst erzeugte Daten, um das Problem der Verteilungsdiskrepanz des Modells zu lösen und wirksame Korrekturstrategien für den Testzeitpunkt zu erlernen
  • Die Forschung zeigt insbesondere bei Gemini-Modellen deutliche Leistungsverbesserungen
  • Die Fähigkeit zur Selbstkorrektur ist ein wichtiger Faktor, um die Zuverlässigkeit und Genauigkeit von Sprachmodellen zu erhöhen
  • Ein Projekt mit ähnlicher Funktionalität ist die GPT-Serie von OpenAI

1 Kommentare

 
GN⁺ 2024-09-22
Hacker-News-Kommentare
  • Ähnelt dem Ansatz von OpenAIs o1-Modell

    • Im Paper wird die Freigabe der Gewichte nicht erwähnt
    • Das Paper war schwer zu verstehen, weil es das Thema nicht direkt erklärt, sondern eher darum herumredet
    • Es gibt die Theorie, dass man das Verhalten der „Selbstkorrektur“ trainieren kann, um die Trefferquote von LLMs bei schwierigen Problemen zu erhöhen
    • Es wurde versucht, dieses Verhalten mit verschiedenen Reinforcement-Learning-Methoden zu trainieren, aber das funktionierte nicht gut
    • Die Aussage des Papers ist, dass ein Modell, wenn es Answer 1, Reasoning, Corrected Answer und das Signal „Verbessere die Corrected Answer“ erhält, zwei Möglichkeiten hat
      • Reasoning, Corrected Answer zu verbessern
      • Answer 1 zu verbessern, sodass Corrected Answer mit Answer 1 identisch wird
    • Frühere Forschung zeigte, dass überwiegend Letzteres passiert und dadurch das gewünschte Verhalten nicht erfolgreich trainiert wurde
    • Das Paper ändert die Trainingsmethode leicht, um das Modell dazu zu bringen, Ersteres zu verwenden
    • Im ersten Schritt wird das Modell durch einen KL-Divergenz-Verlust dazu gezwungen, die erste Antwort beizubehalten und zugleich die zweite Antwort zu verbessern
    • Im zweiten Schritt darf die erste Antwort verändert werden, aber die Reward-Funktion wird so angepasst, dass „flips“ höher belohnt werden
    • Diese Methode verbessert das Modell insgesamt und erhält gleichzeitig das Selbstkorrekturverhalten
    • Es gibt Bedenken, dass das Modell in Schritt 2 die erste Antwort absichtlich schlechter schreiben könnte, um die Belohnung zu maximieren
  • LLMs haben keine direkte Erinnerung an ihr eigenes Training

    • Menschen prüfen, wie/warum sie etwas wissen, bevor sie sagen, was sie wissen
    • LLMs erinnern sich nicht an ihr Training, daher ist Selbstkorrektur schwierig
  • Es gibt die Frage, ob dies eine Art Wissensdestillation ist

  • Es gibt die Ansicht, dass man Halluzinationen im autoregressiven Paradigma der Vorhersage des nächsten Tokens nicht beseitigen kann

    • Das Problem sei der Versuch, Sprachmodelle als deterministische Problemlöser zu verwenden
  • Es gibt Unmut darüber, dass AI-Experten den Begriff „Halluzination“ popularisiert haben

    • Das lässt AI so erscheinen, als würde sie einen tiefen Denkprozess durchlaufen
    • AI gibt lediglich auf Basis von Daten Ausgaben aus
    • Wenn ein JSON-API-Endpunkt falsche Daten ausgibt, würde man sagen: „Diese API ist kaputt“
  • Ein intelligenter Algorithmus, der einen nichtintelligenten Next-Word-Predictor anleitet, ist immer noch ein nichtintelligenter Algorithmus

    • Er sortiert Müll eleganter, aber es bleibt Müll
    • Man hatte gehofft, dass Reinforcement-Learning-Ansätze den Transformer-Ansatz ersetzen würden, aber das war nur ein Traum