1 Punkte von GN⁺ 2025-03-08 | 1 Kommentare | Auf WhatsApp teilen

LADDER: Verbesserung der Problemlösungsfähigkeiten von LLMs durch Selbstverbesserung

  • Einführung in LADDER: LADDER ist ein Framework, das komplexe Probleme schrittweise in einfachere Formen umwandelt, sodass große Sprachmodelle (LLMs) ihre Problemlösungsfähigkeiten selbst verbessern können. Ohne bestehende Datensätze oder menschliches Feedback nutzt es die Fähigkeiten des Modells selbst, um einfachere Problemtransformationen zu erzeugen.

  • Wirksamkeit: LADDER verbesserte die Genauigkeit von Llama 3.2 3B im Bereich mathematischer Integration von 1 % auf 82 % und ermöglichte es Qwen2.5 7B Deepseek-R1 Distilled, in der MIT Integration Bee Qualifikation 73 % zu erreichen.

  • Einführung in TTRL: TTRL (Test-Time Reinforcement Learning) ist eine Methode, bei der während der Inferenz Reinforcement Learning über Transformationen von Testproblemen durchgeführt wird. Dadurch erzielte Qwen2.5 7B Deepseek-R1 Distilled in der MIT Integration Bee Qualifikation mit 90 % einen neuen Bestwert und übertraf die Leistung von OpenAI o1.

  • Bedeutung der Ergebnisse: Diese Resultate zeigen, dass autonomes und strategisches Lernen auch ohne Architekturskalierung oder menschliche Aufsicht erhebliche Fähigkeitsverbesserungen erreichen kann.

1 Kommentare

 
GN⁺ 2025-03-08
Hacker-News-Kommentare
  • Ich frage mich, was diese Woche gerade passiert. In den letzten zwei Tagen habe ich in Machine Learning mehrfach interessante Durchbrüche gesehen

    • Ein Google-Forschungsteam hat herausgefunden, dass sich NNs und CLAs über digitale Logikgatter kombinieren lassen. Dadurch können viele nichtlineare Probleme auf einfache und effiziente digitale Schaltungen reduziert werden
    • Es erscheinen weiterhin neue Entdeckungen rund um neuronale Netze und Logik/Intelligenz, und ich stelle mir immer wieder vor, wie nah wir dem Verständnis der Prinzipien von Intelligenz inzwischen gekommen sind
  • Das erinnert mich an ein Zitat des bekannten Zahlentheoretikers Hendrik Lenstra

    • Es gibt den Spruch: "Zu jedem unlösbaren Problem gibt es ein einfacheres unlösbares Problem"
  • Ihr Test-Time-Reinforcement-Learning-Ansatz wirkt auf mich etwas fragwürdig

    • TTRL funktioniert, indem das Sprachmodell gebeten wird, einfachere Versionen der Testfälle zu erzeugen. Wenn ein einfacheres Problem vorliegt, wird darauf Reinforcement Learning durchgeführt, um die Modellleistung für das ursprüngliche Problem zu verbessern
    • Das Problem ist, dass zur Verifikation der einfacheren Probleme ein numerischer Integrator verwendet wird. Ich kann mir Szenarien vorstellen, in denen kaum vereinfachte Probleme erzeugt werden und das Modell effektiv auf den eigentlichen Testfällen trainieren kann. Das wäre so, als würde man auf dem Testset trainieren
    • Der Rest des Papers ist in Ordnung
  • Sie zeigen die Wirksamkeit von LADDER beim Thema mathematische Integration. Die Genauigkeit von Llama 3.2 3B wird von 1 % auf 82 % gesteigert

    • Schon dass diese Methode überhaupt funktioniert, ist interessant. Besonders interessant ist, dass sie bei Mathematik gut funktioniert
    • Dieses Paper ist Teil der aktuellen Bewegung, die Grenze zwischen Training und Inferenz zu verwischen. Ein Teil ihrer Methode besteht darin, Fragen, deren Antwort man nicht kennt, in einfachere Fragen zu zerlegen und mit einem numerischen "Checker" GRPO durchzuführen. Dieses verstärkte Modell kann dann mehr Fragen beantworten
    • Ich denke, Menschen denken oft ähnlich. Man grübelt über etwas nach, wälzt es im Kopf, arbeitet mit Analogien und so weiter. Test-Time-Training hinzuzufügen ist eine Möglichkeit, mehr zu "denken", als nur dem Kontext für feste Inferenz Tokens hinzuzufügen
    • So wie DeepSeek und o1/o3 zeigen, dass sich die Kapazität durch Token-Generierung und -Bewertung zur Inferenzzeit steigern lässt, scheint sich die Kapazität auch durch automatisiertes Fine-Tuning zur Inferenzzeit steigern zu lassen
    • Ich hoffe, dass wir, sobald sich diese Techniken etabliert haben, auf neue Weise darüber sprechen und nachdenken können. Auf einer gewissen Ebene sind sie alle Teil desselben grundlegenden Prozesses
    • Jedenfalls sehr cool
  • Frank Herbert wusste das bereits. Das ist eine Implementierung der rekursiven Selbstprüfung der Mentaten, wie sie in Dune beschrieben wird

  • Test-Time-Training/Reinforcement Learning ist ein geeigneter Ansatz für mathematische KI der Zukunft. Es ist wahrscheinlich eine der wenigen Methoden, mit denen sich für ein gegebenes Problem enorme Mengen an Rechenleistung einsetzen lassen. Alphaproof hat das bereits getan, aber es ist gut, dass es erneut gemacht wurde und gute Ergebnisse liefert

  • Etwas off-topic, aber ihre Website ist wunderschön. Es fühlt sich an, als hätte ich eine Goldmine gefunden

  • Manche Namen sind einfach zu eingängig

  • Gegen Ende des Papers erwähnen sie zwei Aufgaben aus der Qualifikationsprüfung der MIT Integration Bee 2025. Sie sagen, dass das System weiterhin falsche Antworten geliefert habe

    • Sie sagen, diese Fragen gehörten zu den komplexesten im Test, aber die erste Frage ist einfach nur
    • ∫ ∛(x · ∜(x · ∜(x · √(x · √(x · ⋯ ))))) dx
    • Das entspricht der Berechnung von 1/3 + 1/(34) + 1/(34*5) + ... Das ist keine besonders fortgeschrittene Mathematik