LIMO: Weniger ist mehr für Reasoning

(arxiv.org)

3 Punkte von GN⁺ 2025-02-10 | 1 Kommentare | Auf WhatsApp teilen

LIMO zeigt entgegen der verbreiteten Annahme, dass komplexes mathematisches Reasoning große Mengen überwachter Daten erfordert, dass sich fortgeschrittene Reasoning-Fähigkeiten mit nur 800 Samples herausarbeiten lassen
Durch einfaches Supervised Fine-Tuning (SFT) auf Qwen2.5-32B-Instruct wurden eine Genauigkeit von 63,3 % auf AIME24 und 95,6 % auf MATH500 erreicht und damit die 6,5 % bzw. 59,2 % bisheriger Fine-Tuning-Modelle deutlich übertroffen
Obwohl die Trainingsdaten nur etwa 1 % früherer Ansätze ausmachen, zeigt das Modell auf verschiedenen Benchmarks und in bislang ungesehenen Szenarien eine bessere Generalisierung als Modelle, die mit 100-mal mehr Daten trainiert wurden
Im Kern steht die Hypothese, dass im Basismodell bereits kodiertes Domänenwissen und wenige hochwertige Beispiele, die den Lösungsprozess anleiten, wie kognitive Templates wirken
Der Engpass beim Reasoning-Lernen hängt weniger von der Aufgabenkomplexität selbst ab als vom Vollständigkeitsgrad des Vortrainingswissens und der Qualität der Post-Training-Beispiele, die zur Nutzung von Reasoning Chains anregen

Welche bestehende Annahme die LIMO-Hypothese infrage stellt

Beim bisherigen Reasoning-Training dominierte die Sicht, dass zum Lösen von Mathematik- und Programmieraufgaben Zehntausende bis Hunderttausende Beispiele nötig seien
Solche Ansätze nutzen große Mengen überwachter Daten, um dem Modell mehrstufige Logik, die Anwendung von Domänenwissen und strukturierte Lösungswege zu zeigen
Es gab zwar erfolgreiche Beispiele, doch die Sammlung großer Datenmengen und das Training verursachen erhebliche Rechenkosten
Die LIMO-Hypothese geht davon aus, dass die Schwelle zum Hervorbringen komplexen Reasonings stärker von zwei Bedingungen abhängt als vom Schwierigkeitsgrad der Aufgabe
- ob das notwendige Wissen in den Modellparametern latent vorhanden ist
- ob wenige Beispiele den Problemlösungsprozess wirksam zeigen und die Nutzung des Rechenraums zur Inferenzzeit ermöglichen

Warum auch wenig Daten ausreichen können

Aktuelle Basismodelle enthalten bereits in der Vortrainingsphase deutlich mehr mathematische Inhalte
- Die gesamten Trainingsdaten von Llama 2 umfassen 1,8T Token
- Llama 3 verwendet 3,7T Token für mathematisches Reasoning
Dadurch verlagert sich der Schwerpunkt des Reasoning-Trainings von der Einspeisung neuen Mathematikwissens hin zum Abrufen bereits kodierten Wissens
Auch die Erweiterung der Rechenleistung zur Inferenzzeit ist eine wichtige Bedingung
- Techniken zur Verlängerung langer Reasoning Chains steigern die Reasoning-Fähigkeit deutlich
- Rechenaufwand zur Inferenzzeit fungiert wie ein kognitiver Arbeitsraum, in dem das Modell sein Vortrainingswissen entfalten und anwenden kann
LIMO geht davon aus, dass die Kombination aus reichhaltigem Vortrainingswissen und ausreichenden Rechenressourcen zur Inferenzzeit Reasoning-Fähigkeiten nicht mit Massendaten, sondern mit wenigen hochwertigen Samples aktivieren kann

Wie die 800 Samples ausgewählt werden

Der LIMO-Ansatz beginnt nicht mit dem Sammeln vieler Daten, sondern mit einer strengen Selektion, um hochwertige Samples zu finden
Auf einen großen Pool von QA-Paaren wird mehrstufiges Filtering angewendet
- Zunächst erfolgt ein grobes Schwierigkeits-Filtering, um einfache Aufgaben zu entfernen
- Danach werden mit einer feineren Schwierigkeitsbewertung anspruchsvolle Aufgaben identifiziert
- Wissenspunkte werden diversifiziert, um eine breite Abdeckung zu sichern
Die Reasoning Chains werden gesondert geprüft
- logische Konsistenz
- Klarheit der einzelnen Schritte
- Korrektheit der Lösung
Durch diesen Prozess entsteht schließlich ein kleines, aber starkes Dataset mit 800 Trainings-Samples

Benchmark-Leistung

LIMO basiert auf Qwen2.5-32B-Instruct und führt einfaches SFT nur mit den ausgewählten 800 Samples durch
Die wichtigsten Ergebnisse sind
- 63,3 % Genauigkeit auf AIME24
- 95,6 % Genauigkeit auf MATH500
Frühere Fine-Tuning-Modelle erreichten 6,5 % auf AIME24 und 59,2 % auf MATH500 und lagen damit deutlich hinter LIMO
Der benötigte Trainingsdatensatz entspricht nur etwa 1 % früherer Ansätze
Auf verschiedenen Mathematik- und multidisziplinären Benchmarks zeigte das Modell starke Out-of-Distribution-Generalisierung und insgesamt eine absolute Verbesserung von 45,8 %
Auch in mehreren zuvor ungesehenen Szenarien war die Leistung höher als bei Modellen, die mit 100-mal mehr Daten trainiert wurden

Beiträge und veröffentlichte Materialien

Der zentrale Beitrag von LIMO ist die formale Ausarbeitung der Less-Is-More Reasoning Hypothesis, wonach sich komplexe Reasoning-Fähigkeiten mit wenigen Beispielen herausarbeiten lassen
Entsprechend den LIMO-Prinzipien wurde ein Dataset aufgebaut und Qwen2.5-32B-Instruct mit einfachem SFT feinabgestimmt
Die Experimente zeigen wettbewerbsfähige Leistung auf schwierigen Benchmarks für mathematisches Reasoning sowie starke Out-of-Distribution-Leistung
Analysen und Ablation Studies überprüfen die Wirksamkeit der Prinzipien zur Datenauswahl und untersuchen die Anwendbarkeit in Abhängigkeit von Wissensstand des Basismodells, Modellgröße und Architekturunterschieden
Untersucht wurde außerdem, wie viel Mindestdatenmenge für wettbewerbsfähige Leistung erforderlich ist
Modell, Code und das selektierte Dataset sind über das GitHub-Repository öffentlich verfügbar

1 Kommentare

GN⁺ 2025-02-10

Meinungen auf Hacker News

Ein beeindruckendes Ergebnis, aber zwei Punkte sind erwähnenswert: Das Modell wurde auf Basis von Qwen-2.5 Instruct feinabgestimmt, das bereits durch Pretraining und überwachtes Fine-Tuning Millionen sorgfältig ausgewählter Mathematikbeispiele enthalten dürfte.
Außerdem wurde für LIMO mit aktuellen Modellen wie R1 ein Pool von 10 Millionen Mathematikaufgaben gefiltert, um 817 perfekte Mathematikbeispiele zu erstellen.
Mit anderen Worten: Es ist bereits viel Intelligenz eingeflossen, um möglichst informationsreiche und destillierte Fine-Tuning-Daten zu erzeugen. Daher bin ich mir nicht sicher, ob das beeindruckender oder weniger beeindruckend ist, als einfach den gesamten ursprünglichen Pool von 10 Millionen Beispielen feinzujustieren und dasselbe Ergebnis zu erzielen.
Letzteres wäre als Schlagzeile allerdings wohl weniger attraktiv gewesen.
- Die Autoren nennen genau diese beiden Punkte auch im Abstract als kritische Bedingungen, um komplexes Reasoning hervorzurufen: ein extrem ausgereiftes, vortrainiertes Basismodell und eine Sammlung extrem hochwertiger Beispiele für das Post-Training.
  Beim Fine-Tuning auf dem ursprünglichen Pool von 10 Millionen Beispielen würde man intuitiv erwarten, dass enorme Mengen an Fine-Tuning-Daten nötig sind, um die Leistung zu verschieben; mit nur 817 Beispielen lässt sich der Gradient nur schwer stark verändern.
  Dieser ursprüngliche Pool erzwingt faktisch eine ziemlich starke Regularisierung.
  Derzeit wächst das Interesse daran zu zeigen, dass kleine Datenmengen und Skalierung zur Inferenzzeit große Erträge bringen.
  Aktuelle Beispiele sind TinyZero: https://github.com/Jiayi-Pan/TinyZero und s1 Simple Test Time Scaling: https://arxiv.org/abs/2501.19393.
- Ich verstehe nicht, warum so stark kritisiert wird, dass man Informationen aus früheren Modellen nutzt, um effizientere Modelle zu bauen.
  Auf Vorarbeiten aufzubauen, um Fortschritt zu erzielen, ist nicht falsch, und Effizienzsteigerung ist ebenfalls Fortschritt.
  Man kritisiert ja auch niemanden dafür, dass er beim Kombucha-Brauen den SCOBY nicht Mikrobe für Mikrobe zusammengesetzt hat.
- Man könnte auch sagen, dass in der Auswahl von 817 Stichproben aus 10 Millionen 12.290 Bit Information stecken.
- Man kann es sich so vorstellen: Es gibt ein Lehrbuch, das einem das nötige Verständnis vermittelt, um bei Mathematikwettbewerben hohe Punktzahlen zu erzielen, und es enthält weniger als 1.000 erklärende Aufgaben.
  Das ist für sich genommen eine große Entdeckung in Sachen Metakognition.
- Das Paper und diese Erklärung ähneln ziemlich stark der Aufgabe, für Schüler, die das Grundlagenlernen abgeschlossen haben, ein möglichst informationsreiches und destilliertes Lehrbuch mit kognitiven Beispielen zu erstellen, um ihnen Reasoning auf der nächsten Stufe beizubringen.
  Die Fortschritte bei LLMs in den letzten Jahren haben gezeigt, dass sich menschliche „Reasoning“-Antworten dadurch vorhersagen lassen, dass man plausible menschliche Reaktionen modelliert, als seien sie von einem LLM generiert.
  Anders gesagt: Viele Antworten sind weniger sorgfältig durchdachtes Reasoning als vielmehr eine Kette der Token-Generierung.
  Das wird noch deutlicher, wenn man neben jemandem sitzt, der beim Lösen eines Problems „mit sich selbst spricht“.
  Was tokgen bedeutet, versteht man, wenn man Gesprächen im Restaurant zuhört.
  Viele Gespräche sind weniger tiefes Nachdenken als Reaktionen, die nahezu perfekt vorhersagbar auf einen Prompt folgen.
  Um sie von Äußerungen zu unterscheiden, die nach einer Pause und Überlegung kommen, kann man die Labels thought und token generation verwenden, also tokgen.
Ich bin kein Experte auf diesem Gebiet, aber ich denke, dass ein auf dem Internet vortrainiertes Modell bereits den Großteil der Fähigkeiten erwirbt, die für mathematisches Reasoning nötig sind.
Da das Ziel jedoch darin besteht, die Verteilung des nächsten Wortes im gesamten Internet vorherzusagen, und der Großteil der Internettexte keine solchen Reasoning-Texte sind, nutzt es diese Fähigkeit normalerweise wohl nicht besonders stark.
Das ist ähnlich wie vor einigen Jahren bei Bildgenerierungsmodellen, als das Anhängen von „unreal engine“ an den Prompt die Ergebnisqualität deutlich verbesserte.
Das Modell war darauf trainiert, die Verteilung von Internetbildern zu generieren, von denen die meisten nicht besonders beeindruckend sind; Bilder mit „unreal engine“ waren jedoch meist hochwertige Screenshots, wodurch sich auch die generierte Verteilung in Richtung höherer Qualität verschob.
Deshalb ergibt es Sinn, dass sich mathematische Reasoning-Fähigkeiten schon mit wenigen Trainingsbeispielen verbessern: Das Modell besitzt die latenten Fähigkeiten größtenteils bereits, und es müssen nur einige Verbindungen angepasst werden, damit es diese Fähigkeiten tatsächlich nutzt.
- Das ähnelt ziemlich stark dem, was Anthropic gemacht hat, als sie Aktivierungswerte analysierten und manipulierten, um Golden Gate Claude zu erzeugen oder Merkmale wie „buggy code“ zu maximieren bzw. zu minimieren[0].
  [0]: https://www.anthropic.com/news/mapping-mind-language-model
- Wenn man noch etwas ergänzt: Mustererkennung und Fortsetzung können auch auf Bewertungen symbolischen Reasonings angewendet werden.
  Das sieht man zum Beispiel, wenn man die Semantik einer funktionalen Programmiersprache als Rewrite-Regeln definiert.
  Wenn ein Modell ein Problem in eine hinreichend präzise Sprache übersetzen, mit in einem LLM codierten generativen Programmen Pattern Matching beginnen und logische Implikationen auswerten kann, betritt man ein sehr interessantes Feld.
  Autoregressive Vorhersage kann sich in symbolische, schrittweise Auswertung und Berechnung verwandeln, während das LLM im Hintergrund weiterhin die Auswahl der Auswertungen und die Zielsuche steuert.
  Wenn im Basismodell bereits genug Inhalt vorhanden ist, um eine präzisere Sprache sauber daran anzuschließen, braucht man zur Verstärkung solcher Auswertungsregeln wohl nicht zwingend ein riesiges Korpus.
- Das Reasoning, das R1 überwiegend zeigt, klingt für mich wie Ausdrucksweise aus der fünften Klasse, was die obige Erklärung stützt.
  Wenn man das für mathematisches Reasoning nötige Wissen aber weiter komprimiert, könnte am Ende vielleicht eine Kombination aus Kategorientheorie und etwas regelbasiertem wie Prolog herauskommen.
- Das könnte bedeuten, dass ein Basismodell durch Fine-Tuning mit überwachtem Lernen oder Reinforcement Learning im Allgemeinen nicht wirklich inhärent intelligenter wird, sondern dass nur das anfängliche selbstüberwachte Lernen während des Pretrainings das bewirkt.
  Natürlich wäre es auch seltsam, wenn keine Menge an Reinforcement Learning ein LLM wirklich intelligenter machen könnte.
Nach meiner Vermutung sind manche Bereiche wie Mathematik zwar allgemein, haben aber – etwa durch alle möglichen Zahlen – eine ungewöhnlich große effektive Vokabulargröße, sodass das Training teurer wird, wenn man sie so trainiert wie Bereiche mit normal großem Vokabular.
Wenn man in solchen Problemfeldern Schlussfolgerungsschritte trainiert, kann man relativ wenige allgemeine Begriffe wie „Addition“, „Inverses“ und „Lösen“ verstärken.
Dadurch wird die Arithmetik von Zahlenkombinationen von den einzelnen Aufgaben entkoppelt und die einmalige richtige Antwort weniger betont.
Man muss N Schlussfolgerungsbeispiele und M Arithmetikbeispiele trainieren, nicht N*M vollständige Mathematikaufgaben.
Deshalb muss man zwar mehr Ressourcen fürs Reasoning einsetzen, kann aber mit weniger Training bessere Antworten erhalten.
Abseits der Theorie scheint mir für Anwendungen ein Ansatz gut, bei dem man mit einem solchen allgemeinen Reasoning-Prozess die finale Formel strukturiert und sie dann an einen traditionellen Evaluator übergibt.
Dann müssen Reasoning und dessen Training nur bis zur symbolischen Manipulation gelangen.
Das ist ein Ansatz wie bei Wolfram Alpha, wo die Verarbeitung natürlicher Sprache viel später an den Evaluator übergeben wird.
- Eine verwandte Frage: Gab es schon ein LLM als perfekten Taschenrechner?
  Also eines, dem man einen Ausdruck mit Standardoperationen wie +/- und ganzen Zahlen gibt und das immer das korrekte Ergebnis zurückgibt.
  Ich kann mich nicht erinnern, dazu ein Paper gesehen zu haben, bin aber auch kein Experte.
Ich glaube, ich habe kürzlich zwei Dinge gelesen, die einander zu widersprechen scheinen: die Aussage, dass LLMs das Beweisen von Theoremen niemals generalisieren können, und die Aussage dieses Papers, dass „moderne LLMs bereits reichhaltiges mathematisches Wissen im Parameterraum haben können und sich die Aufgabe vom Wissenserwerb zur Wissensinduktion verschiebt“.
Inzwischen weiß ich nicht mehr, was nun stimmt.
- Um diese bittere Pille zu schlucken, muss man wohl anerkennen, dass das gesamte menschliche Wissen praktisch eine vergleichsweise „kleine“ endliche Verteilung ist und Modelle inzwischen groß genug geworden sind, um darauf Pattern Matching zu betreiben, weshalb LLMs „generalisieren“ können.
- Vielleicht können LLMs den richtigen Suchraum für ein Problem erzeugen, aber der Prozess, darin die Lösung zu identifizieren, ist ineffizient?
  Anders gesagt: Die meisten Schüler, die Skripte zu Oberstufenmathematik durchgearbeitet haben, tragen in sich die Möglichkeit, bei der Olympiade eine Goldmedaille zu gewinnen.
  Denn die Mathematik selbst geht nicht weit über den Oberstufenstoff hinaus.
  Aber einen tatsächlichen Schüler auf Goldmedaillenniveau bei der Olympiade zu bringen, ist schwierig und könnte etwas Ähnliches wie P vs. NP sein.
- Ob Übertreiber oder Skeptiker: Man wird viele Leute sehen, die immer wieder überprüfbare Dinge behaupten.
  Manchmal bleiben sie bei derselben Behauptung, selbst wenn man Screenshots hat, die ihr widersprechen.
  Gerade bei Skeptikern kann man die Top-LLMs selbst ausprobieren und prüfen: „Tut es tatsächlich etwas, von dem jemand behauptet, es gehe nicht?“
  Oft tut es das tatsächlich.
  Bei Papers, die Skeptiker in letzter Zeit eingereicht haben, sieht man manchmal, dass sie Aussagen über aktuelle LLMs machen, aber nur Versionen testen, die mehr als ein Jahr alt sind.
  Genau so etwas ist kürzlich tatsächlich passiert.^
  Wenn man sicher sein will, was stimmt, bleibt einem nur, es selbst auszuprobieren und zu beurteilen, was wahr ist.
  ^ https://x.com/tylercowen/status/1881051976102035880
- Man kann reichhaltiges mathematisches Wissen haben und trotzdem schlecht im Beweisen von Theoremen sein.
  Umgekehrt kann man auch ohne reichhaltiges mathematisches Wissen gut darin sein, Beweise für Wettbewerbsaufgaben zu finden.
  Möglich ist auch, dass jemand reichhaltiges mathematisches Wissen hat und gut Theoreme beweist, aber vor allem im eigenen Spezialgebiet.
- Aussagen wie „LLMs können X niemals“ scheinen mir einfach immer falsch zu sein.
So wie Bild-Diffusionsmodelle gezeigt haben, dass sie eine plausible Annäherung an die gesamte visuelle Welt in einem 5-GB-Modell zusammenfassen können: Lassen sich auch Reasoning-Muster ähnlich komprimieren?
Gibt es tatsächlich so wenige bereichsübergreifend verwendete Reasoning-Muster, dass man sie mit einem vergleichsweise kleinen Trainingsset erfassen kann?
- Ich denke, wirklich allgemeine „Reasoning-Muster“, also Strategien oder Ansätze, gibt es nicht besonders viele.
  Angewandtes Reasoning erfordert jedoch nicht nur Reasoning-Muster, sondern auch ein Repertoire an domänenspezifisch gültigen Schlussfolgerungsschritten, die man gemäß diesem Ansatz anwenden kann.
  Außerdem braucht es eine Kombination von Fähigkeiten, um Blockaden zu überwinden, wenn Wissen und gelernte Schlussfolgerungsschritte ausgeschöpft sind und man die Lösung dennoch nicht erreicht hat.
  In Bereichen wie Mathematik kann man mit einer kleinen Zahl mathematisch spezialisierter Schlussfolgerungsschritte ziemlich weit kommen, aber auch die Mathematik selbst hat viele Teilgebiete wie Algebra, Geometrie, Analysis und Topologie.
  Soweit ich weiß, sind die Techniken eines Feldes für ein anderes Feld nur in dem Maße nützlich, wie man das Problem in das andere Gebiet abbilden kann.
Ich frage mich, ob eine sorgfältig ausgewählte Menge von 817 Mathematikaufgaben auch als Lehrbuch nützlich wäre, um Mathematikstudierende mit vielfältigen Aufgaben zu trainieren.
Wenn man, wie in der LIMO-Hypothese, mit einem kleinen Datensatz feintunen und damit das Potenzial zu effizientem Reasoning in kleinen Modellen freisetzen kann, könnte es zu einer erheblichen Machtverschiebung von großen zu kleinen Modellen kommen.
Wenn dieser Prozess wiederholt möglich ist, scheint er nahezu unbegrenzte Kraft bereitzustellen.
Allerdings muss der Datensatz bestimmte Eigenschaften haben, um diesen Kreislauf zu speisen.
Er muss dem Modell beibringen, das Reasoning an die Modellgröße anzupassen, und sollte auf eine Art validiert werden, die einer minimalen Überdeckung ähnelt: mit kleinem Verzweigungsfaktor im Suchraum die Tiefe der Schlussfolgerungsketten zu erweitern und tiefe Muster zu erkennen.
Es ist interessant zu sehen, wie das Feld immer mehr zu LLM-Pädagogik wird.
Reasoning ist die Kunst der Vorhersage.
Es bedeutet, viele Beobachtungen der Realität zu einem kleinen Modell der Realität zu destillieren, das neue Beobachtungen ausreichend gut vorhersagt.
„Was ist das einfachste Modell, das den größten Teil dessen erklärt, was ich sehe?“ ist die zentrale Frage, auf die der Geist eine Antwort sucht.
Wenn wir die Kunst erlernen, solche Modelle zu bauen, gleichen wir neue Probleme per Pattern Matching mit unserem Modell ab und lassen dieses Modell das Ergebnis vorhersagen.

LIMO: Weniger ist mehr für Reasoning

Welche bestehende Annahme die LIMO-Hypothese infrage stellt

Warum auch wenig Daten ausreichen können

Wie die 800 Samples ausgewählt werden

Benchmark-Leistung

Beiträge und veröffentlichte Materialien

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News