LADDER: Verbesserung der Problemlösungsfähigkeiten von LLMs durch Selbstverbesserung
-
Einführung in LADDER: LADDER ist ein Framework, das komplexe Probleme schrittweise in einfachere Formen umwandelt, sodass große Sprachmodelle (LLMs) ihre Problemlösungsfähigkeiten selbst verbessern können. Ohne bestehende Datensätze oder menschliches Feedback nutzt es die Fähigkeiten des Modells selbst, um einfachere Problemtransformationen zu erzeugen.
-
Wirksamkeit: LADDER verbesserte die Genauigkeit von Llama 3.2 3B im Bereich mathematischer Integration von 1 % auf 82 % und ermöglichte es Qwen2.5 7B Deepseek-R1 Distilled, in der MIT Integration Bee Qualifikation 73 % zu erreichen.
-
Einführung in TTRL: TTRL (Test-Time Reinforcement Learning) ist eine Methode, bei der während der Inferenz Reinforcement Learning über Transformationen von Testproblemen durchgeführt wird. Dadurch erzielte Qwen2.5 7B Deepseek-R1 Distilled in der MIT Integration Bee Qualifikation mit 90 % einen neuen Bestwert und übertraf die Leistung von OpenAI o1.
-
Bedeutung der Ergebnisse: Diese Resultate zeigen, dass autonomes und strategisches Lernen auch ohne Architekturskalierung oder menschliche Aufsicht erhebliche Fähigkeitsverbesserungen erreichen kann.
1 Kommentare
Hacker-News-Kommentare
Ich frage mich, was diese Woche gerade passiert. In den letzten zwei Tagen habe ich in Machine Learning mehrfach interessante Durchbrüche gesehen
Das erinnert mich an ein Zitat des bekannten Zahlentheoretikers Hendrik Lenstra
Ihr Test-Time-Reinforcement-Learning-Ansatz wirkt auf mich etwas fragwürdig
Sie zeigen die Wirksamkeit von LADDER beim Thema mathematische Integration. Die Genauigkeit von Llama 3.2 3B wird von 1 % auf 82 % gesteigert
Frank Herbert wusste das bereits. Das ist eine Implementierung der rekursiven Selbstprüfung der Mentaten, wie sie in Dune beschrieben wird
Test-Time-Training/Reinforcement Learning ist ein geeigneter Ansatz für mathematische KI der Zukunft. Es ist wahrscheinlich eine der wenigen Methoden, mit denen sich für ein gegebenes Problem enorme Mengen an Rechenleistung einsetzen lassen. Alphaproof hat das bereits getan, aber es ist gut, dass es erneut gemacht wurde und gute Ergebnisse liefert
Etwas off-topic, aber ihre Website ist wunderschön. Es fühlt sich an, als hätte ich eine Goldmine gefunden
Manche Namen sind einfach zu eingängig
Gegen Ende des Papers erwähnen sie zwei Aufgaben aus der Qualifikationsprüfung der MIT Integration Bee 2025. Sie sagen, dass das System weiterhin falsche Antworten geliefert habe