LADDER: Ein LLM, das sich durch rekursive Problemzerlegung selbst verbessert

(arxiv.org)

1 Punkte von GN⁺ 2025-03-08 | 1 Kommentare | Auf WhatsApp teilen

LADDER ist ein Framework, das schwierige Probleme in leichtere Varianten hinunterbricht und sie anschließend wieder nach oben bearbeitet, um die Problemlösungsfähigkeiten von LLMs ohne menschliches Feedback oder kuratierte Daten zu verbessern.
Der Kern besteht darin, einen Schwierigkeitsgradienten bis zu einem Niveau zu erzeugen, das das Modell lösen kann, und die Lösungen überprüfbarer Teilprobleme als Sprungbrett für schwierigere Probleme zu nutzen.
Bei Aufgaben zur mathematischen Integration verbesserte Llama 3.2 3B seine Genauigkeit bei Problemen auf Bachelor-Niveau von 1 % auf 82 %; in den Beiträgen wird der Ausgangswert auch mit 2 % angegeben.
Qwen2.5 7B Deepseek-R1 Distilled erreichte allein mit LADDER in der Vorrunde der MIT Integration Bee 73 % und übertraf damit GPT-4o mit 42 % sowie die typische menschliche Leistung von 15–30 %.
TTRL wendet auch zur Testzeit Problemvariationen und Reinforcement Learning an, steigerte die Genauigkeit in derselben Prüfung von 73 % auf 90 % und erzielte eine höhere aktuelle Spitzenleistung als OpenAI o1.

Der Lernengpass, auf den LADDER abzielt

Reinforcement Learning ist für das Training von LLMs effektiv, benötigt aber überprüfbare Aufgaben, die zur aktuellen Fähigkeit des Modells passen und deren Ergebnis sich kontrollieren lässt.
Wenn ein Problem im Verhältnis zu den Modellfähigkeiten zu schwierig ist, kann es zu einem Kollaps kommen, bei dem das Lernen stoppt oder die Leistung schlechter wird.
In komplexen Reasoning-Bereichen ist der Abstand zwischen einfachen und fortgeschrittenen Aufgaben groß, daher ist eine Schwierigkeitsstruktur wichtig, die schrittweises Lernen ermöglicht.
LADDER startet bei komplexen Problemen und nutzt rekursive Problemzerlegung, bei der das Modell mehrere leichtere Varianten erzeugt und jede Variante wiederum Untervarianten erstellt.
Sobald es bei Problemen ankommt, die das Modell zuverlässig lösen kann, werden deren Lösungen als Sprungbrett verwendet, um schwierigere Varianten zu lösen.

Selbstgesteuertes Lernen und Verifikationsbedingungen

Statt von Menschen erstellter Datensätze oder Feedbacks erzeugt das Modell mit seinen vorhandenen Fähigkeiten einen natürlichen Schwierigkeitsgradienten.
Für das Lernen sind überprüfbare Rewards nötig; diese Studie verwendet numerische Integration, um Lösungen zu überprüfen.
Das Framework lässt das Modell den eigenen Fortschritt bewerten und den Lernpfad anpassen, sodass Reinforcement Learning ohne menschliches Eingreifen angewendet werden kann.
Rekursive Problemzerlegung und selbstgesteuertes Lernen werden mit GRPO-basiertem Reinforcement Learning kombiniert.
Die Erzeugung und Verifikation von Problemvarianten funktionieren in einer Struktur, die einen verlässlichen Verifikationsmechanismus voraussetzt.

Integrations-Benchmark und TTRL-Ergebnisse

Im Benchmark für mathematische Integration zeigte LADDER Leistungssteigerungen, die über das mit standardmäßigem pass@k-Sampling erreichbare Niveau hinausgehen.
Llama 3.2 3B erreichte bei Integrationsproblemen auf Bachelor-Niveau eine Genauigkeit von bis zu 82 %.
- Im Abstract wird die Ausgangsgenauigkeit mit 1 % angegeben.
- In den Beiträgen wird die Ausgangsgenauigkeit mit 2 % angegeben.
Qwen2.5 7B Deepseek-R1 Distilled erreichte nach Anwendung von LADDER in der Vorrunde der MIT Integration Bee 2025 eine Genauigkeit von 73 %.
- GPT-4o liegt bei 42 %.
- Die typische menschliche Leistung liegt bei 15–30 %.
TTRL (Test-Time Reinforcement Learning) ist ein Mikro-Lernprozess, der zur Testzeit dynamisch Problemvarianten erzeugt und Reinforcement Learning auf jede Testinstanz anwendet.
TTRL nutzt den beim Training verwendeten Verifikationsmechanismus auch zur Inferenzzeit, um Antworten weiter zu verfeinern.
Bei der MIT Integration Bee steigerte TTRL die 73 % bei ausschließlicher Nutzung von LADDER auf 90 % und erzielte eine höhere aktuelle Spitzenleistung als OpenAI o1.
Dieses Ergebnis zeigt, dass auch ohne Architektur-Skalierung oder menschliche Aufsicht durch strategische Problemzerlegung und verifikationsbasiertes Selbstlernen große Leistungssteigerungen möglich sind.

1 Kommentare

GN⁺ 2025-03-08

Hacker-News-Meinungen

Es ist fast schon erstaunlich, wie viele ML-Durchbrüche diese Woche zu sehen sind.
Allein in den letzten zwei Tagen habe ich mindestens drei interessante und vielversprechende Ergebnisse gesehen, und ein Google-Forschungsteam hat gezeigt, dass sich neuronale Netze und CLA über digitale Logikgatter miteinander verbinden lassen.
Dadurch entsteht sogar die Möglichkeit, mehrere nichtlineare Probleme auf einfache, effiziente digitale Schaltungen zu reduzieren; das war heute auch auf der HN-Startseite: https://news.ycombinator.com/item?id=43286161
Da ständig kopfzerbrechende Ergebnisse zu neuronalen Netzen, Logik und Intelligenz im Allgemeinen erscheinen, fragt man sich, wie nah wir daran sind, wirklich aus ersten Prinzipien zu verstehen, wie Intelligenz funktioniert.
- Solche Dinge waren im vergangenen Jahr ungefähr das, was Leute als Geheimrezepte zurückgehalten haben.
  Nach der Open-Source-Veröffentlichung von DeepSeek ist ihr Wert stark gesunken, und Unternehmen scheinen sich dafür zu entscheiden, sie in Reputationsgewinn umzumünzen, bevor ihnen jemand zuvorkommt.
  Ich habe im September 2023 mit einem Llama-2-Finetuning genau dasselbe ausprobiert, bekam aber keine Freigabe, es mit irgendjemandem zu teilen.
- Spannend ist, dass man in der Branche offenbar endlich erkennt, dass man mit naivem Scaling allein nicht zu AGI kommt, und nun viele neue Ansätze in AI/ML auftauchen.
  Das hat den Vorteil, dass auch kleinere Player mit echter Innovation konkurrieren und beitragen können; es steht auch im Kontrast zu der Stimmung, die große Player wie OpenAI/MS jahrelang erzeugen wollten, nämlich dass Open Source niemals aufholen könne.
  In den letzten Jahren wurden zu viele Ressourcen, zu viel Zeit und zu viel Geld in die reine Skalierung von GPU-Rechenleistung verschwendet.
  Gary Marcus weist seit einigen Jahren darauf hin, und die enttäuschenden Ergebnisse von GPT-4.5 nach rund zwei Jahren Training wirken wie ein Beleg dafür.
- Im Moment fühlt es sich an wie ein neuer Obstgarten voller niedrig hängender Früchte.
  Unabhängig vom endgültigen Nutzen ist es glänzend, es gibt viel Hype und große Überraschungen, und es ist schwer, mit dem hineinströmenden Geld Schritt zu halten.
  Deshalb interessieren sich viele der fähigsten Leute dafür, und entsprechend häufen sich die Versuche, Durchbrüche zu erzielen.
- LLM-Durchbrüche entwickeln sich zu so etwas wie neuen Batterie-Durchbrüchen.
  Uns fehlt nur noch die Fähigkeit, die Trade-offs sauber zu quantifizieren.
- Das scheint damit zusammenzuhängen, dass wichtige Konferenzen bald mit der Paper-Einreichung beginnen.
  Einige Konferenzen verbieten in den Wochen vor der Einreichung die Veröffentlichung von Preprints, daher könnten die Leute ihre Arbeiten in Eile hochgeladen haben.
Das erinnert an ein Zitat des berühmten Zahlentheoretikers Hendrik Lenstra: „Zu jedem unlösbaren Problem gibt es ein einfacheres Problem, das ebenfalls unlösbar ist.“
- Ich frage mich, ob dieses Zitat echt ist.
  George Pólyas Satz „Wenn du ein vorliegendes Problem nicht lösen kannst, versuche zuerst, ein einfacheres verwandtes Problem zu lösen“ ist mir vertraut, aber für das Lenstra-Zitat habe ich keine Quelle gefunden.
- Das lässt sich nicht schön induktiv fortsetzen.
  Es sei denn, es war als Beleidigung gemeint.
Ihr Ansatz des Reinforcement Learning zur Testzeit wirkt etwas verdächtig.
Soweit ich es verstehe, lässt TTRL das Sprachmodell einfachere Versionen der Testfälle erzeugen und führt dann Reinforcement Learning auf diesen vereinfachten Problemen aus, in der Hoffnung, dass sich dadurch auch die Leistung auf dem ursprünglichen Problem verbessert.
Das Problem ist, dass zur Verifikation der vereinfachten Probleme ein numerischer Integrator verwendet wird.
Man kann sich vorstellen, dass dabei Probleme erzeugt werden, die sich kaum vom Original unterscheiden, und dass das Modell mit Kenntnis der richtigen Antwort sehr nah an den Testfällen trainiert wird.
Es sieht so aus, als würde auf dem Test-Set trainiert, auch wenn der Rest des Papers in Ordnung ist.
- Die Aufgabe, die das Modell löst, scheint eher symbolische Integration zu sein.
  Das sind Probleme, die selbst dann schwer zu lösen sind, wenn das Modell für das ursprüngliche Problem ein numerisches Integrator-Tool verwenden darf.
LADDER wurde als effektiv bei mathematischer Integration gezeigt und soll die Genauigkeit von Llama 3.2 3B bei Aufgaben auf Undergraduate-Niveau von 1 % auf 82 % gesteigert haben.
- Man sollte auch berücksichtigen, dass moderne Term-Rewriting-Systeme bei symbolischer Integration sehr gut abschneiden: https://rulebasedintegration.org/
Frank Herbert wusste es bereits.
Im Grunde ist das ziemlich nah an einer Implementierung der rekursiven Selbstprüfung der Mentaten aus Dune.
Test-Time Learning/Reinforcement Learning scheint definitiv der richtige Ansatz für künftige Mathematik-KI zu sein.
Es ist eine der wenigen Möglichkeiten, irrwitzige Mengen an Rechenressourcen auf ein bestimmtes Problem zu werfen, etwa 10^5 GPUs über mehrere Tage, und auch dann Fortschritt zu erwarten, wenn die Skalierung der Inferenz zur Testzeit zunächst nicht gut greift.
Man kann etwa an MCTS auf einer Go-Stellung mit schlechten Value-/Policy-Netzen denken.
AlphaProof hat so etwas bereits gemacht, aber es ist schön, wieder gute Ergebnisse in diese Richtung zu sehen.
- Der interessante Punkt ist, wie weit sich die verbesserte Leistung in ein kleineres LLM destillieren lässt.
  Dann hätte man einen Policy-Improver, also Reinforcement Learning zur Testzeit für ähnliche Probleme, und könnte besser nachbilden, wie AlphaZero funktioniert.
  Außerdem könnte man sehen, wie stark ein kleines neuronales Netz wie 32B theoretisch werden kann.
Zur Einordnung: Zum Team von Tufa Labs gehört das durch ARC-AGI bekannte MindsAI-Team.
https://tufalabs.ai/team.html
Manche Namen sind einfach zu verlockend: https://arxiv.org/abs/1507.02672
Am Ende des Papers werden zwei Aufgaben aus der Vorrunde der MIT Integration Bee 2025 erwähnt, bei denen das System immer wieder falsch lag.
Es heißt zwar, diese Aufgaben seien die komplexeste Achse der Prüfung gewesen, aber die erste ist einfach ∫ ∛(x · ∜(x · ∜(x · √(x · √(x · ⋯ ))))) dx, und letztlich muss man 1/3 + 1/(34) + 1/(34*5) + ... berechnen.
Daher kann man das kaum als sehr fortgeschrittene Mathematik bezeichnen.
- Trotzdem ist es ein 7B-Modell.
  Das Problem ist nicht fortgeschritten, aber das Modell ist auch nicht besonders fortgeschritten.
Dass das überhaupt auch nur ein wenig funktioniert, ist ziemlich interessant; noch interessanter ist, dass es insbesondere in der Mathematik sehr gut zu funktionieren scheint.
Allerdings ist dieses Paper Teil des laufenden Trends der verschwimmenden Grenze zwischen Training und Inferenz.
Ein Teil der Methode besteht darin, Fragen, deren Antwort man nicht kennt, in einfachere Fragen zu zerlegen und diese mit GRPO und einem numerischen Checker per Reinforcement Learning zu bearbeiten.
Das so verstärkte Modell kann dann mehr Fragen beantworten.
Mir gefällt dieser Ansatz.
Menschen machen viel Ähnliches: über etwas grübeln, es im Kopf drehen und wenden und Analogien bilden.
Mit Test-Time Learning kann man wesentlich mehr Denken leisten, als bei fester Inferenz einfach nur weitere Tokens in den Kontext zu hängen.
So wie DeepSeek und o1/o3 gezeigt haben, dass man Fähigkeiten durch Token-Erzeugung und Bewertung zur Inferenzzeit erweitern kann, scheint man Fähigkeiten auch durch automatisches Finetuning zur Inferenzzeit steigern zu können.
Wenn sich solche Techniken etablieren, hoffe ich, dass neue Weisen entstehen, darüber zu sprechen und darüber nachzudenken.
Auf einer gewissen Ebene wirken sie alle wie Teile desselben grundlegenden Prozesses, und in jedem Fall ist es wirklich großartig.

LADDER: Ein LLM, das sich durch rekursive Problemzerlegung selbst verbessert

Der Lernengpass, auf den LADDER abzielt

Selbstgesteuertes Lernen und Verifikationsbedingungen

Integrations-Benchmark und TTRL-Ergebnisse

Verwandte Beiträge

1 Kommentare

Hacker-News-Meinungen