- Das Tiny Recursion Model (TRM) erreicht selbst mit einem kleinen neuronalen Netz von rund 7M Parametern eine hohe Leistung von 45 % auf ARC-AGI-1 und 8 % auf ARC-AGI-2
- Es zeigt, dass sich auch ohne großes Sprachmodell schwierige Probleme mit einem rekursiven Schlussfolgerungsansatz lösen lassen
- Das Modell vereinfacht die komplexe Struktur des bestehenden Hierarchical Reasoning Model (HRM) und lässt nur den wesentlichen rekursiven Schlussfolgerungsprozess bestehen
- TRM verbessert die Qualität der Antworten kontinuierlich mit einem kleinen und effizienten Modell, ganz ohne Bezug auf das menschliche Gehirn, komplexe mathematische Theoreme oder Hierarchien
- Die Arbeit betont, dass bei der Lösung schwieriger Probleme neue Ansätze wichtiger sein können als die Größe des Modells
Überblick
- In dieser Arbeit wird ein neues rekursives Schlussfolgerungsmodell namens Tiny Recursion Model (TRM) vorgeschlagen
- Obwohl TRM nur aus sehr kleinen 7M Parametern besteht, erreicht es bemerkenswerte Genauigkeiten von 45 % auf ARC-AGI-1 und 8 % auf ARC-AGI-2
- Das Modell zeigt experimentell, dass selbst Modelle, die nicht von Großunternehmen mit Millionenbudgets trainiert wurden, durch effizientes rekursives Schließen komplexe Probleme gut lösen können
- Während sich die Branche derzeit übermäßig stark auf die Nutzung von LLMs konzentriert, deutet TRM darauf hin, dass neue Richtungen für Schließen und Lernen wichtig sind
Abgrenzung zu früheren Arbeiten
- Beim bestehenden Hierarchical Reasoning Model (HRM) bestand eine starke Abhängigkeit von biologischer Logik, komplexen hierarchischen Strukturen und mathematischen Theoremen wie Fixpunktsätzen
- TRM entfernt diese Komplexität und vereinfacht sowohl Entwurf als auch Implementierung intuitiv, indem nur der am stärksten vereinfachte Kernmechanismus des rekursiven Schließens erhalten bleibt
- Entscheidend ist, dass sich die Antwortgenauigkeit auch ohne Struktur des menschlichen Gehirns oder theoretischen Unterbau durch einen rekursiven, sich selbst wiederholenden Prozess kontinuierlich verbessern lässt
Funktionsweise von TRM
- Ausgangspunkt ist die Einbettung der Eingabefrage x, der initialen Antwort y und des verborgenen Zustands z
- Über maximal K Verbesserungsschritte werden die folgenden beiden Phasen wiederholt ausgeführt:
- i) Ausgehend von der aktuellen Frage x, der Antwort y und dem verborgenen Zustand z wird der verborgene Wert z n-mal wiederholt aktualisiert (rekursives reasoning)
- ii) Aus der aktuellen Antwort y und dem neuen verborgenen Zustand z wird die Antwort y erneut aktualisiert, um eine bessere Antwort zu erzeugen
- Dieser rekursive Wiederholungsprozess verbessert die Antwortqualität kontinuierlich ohne Erhöhung der Modellparameter und senkt zugleich das Risiko von Overfitting
Fazit
- Die Forschung zu TRM zeigt, dass Modellgröße nicht zwingend ein notwendiger Erfolgsfaktor ist
- Experimente zeigen, dass ein kleines neuronales Netz allein mit dem Prinzip des rekursiven Schließens Ergebnisse erzielen kann, die an große Modelle heranreichen
- Die Arbeit unterstreicht für die zukünftige KI-Forschung die Bedeutung der Entwicklung effizienter und kreativer neuer Richtungen
- Weitere Details finden sich im Paper
1 Kommentare
Hacker-News-Kommentare
Ich würde jedem dringend empfehlen, den HRM-bezogenen Blogbeitrag der ARC-AGI-Organisatoren genau zu lesen.
Daraus geht hervor, dass unter denselben Bedingungen für Datenaugmentation und „test time training“ selbst ein grundlegender Transformer fast an die im HRM berichteten „großartigen Ergebnisse“ herankommt.
Auch diese Arbeit scheint sich bei ARC-AGI unter ähnlichen Bedingungen zu vergleichen.
Ich möchte ebenfalls hervorragende Reasoning-Leistung mit kleineren Modellen sehen.
Aber man muss zuerst verstehen, was ARC-AGI eigentlich misst, welche üblichen Setups für den Vergleich kommerzieller LLMs verwendet werden und welche speziellen Setups in HRM oder dieser Arbeit genutzt werden.
Benchmark-Namen neigen dazu, überzogene Erwartungen zu erzeugen, und sowohl bei HRM als auch bei dieser Arbeit sehe ich genau das.
Man muss die HRM-Analyse nicht übertrieben detailliert lesen, und TRM hat gegenüber HRM eine stärker disentangled Struktur, wodurch Ablation deutlich einfacher wird.
Der eigentliche Wert des arcprize-HRM-Blogs liegt meiner Meinung nach darin, die Bedeutung von Ablation-Tests hervorzuheben.
ARC-AGI wurde als Challenge für alle Modelle konzipiert.
Man ging offenbar davon aus, dass dafür Reasoning-Fähigkeiten auf dem Niveau großer Sprachmodelle nötig wären, aber das scheint ein Missverständnis gewesen zu sein.
Ich würde gern fragen, ob HRM und TRM speziell auf den kleinen Datensatz aus ARC-AGI-Beispielen trainiert wurden, während LLMs das nicht wurden.
Oder worin genau der hervorgehobene Unterschied besteht.
Eher als ein „grundlegender Transformer“ ist es eine „Transformer-ähnliche Architektur mit rekurrenter Struktur“.
Das bleibt dennoch ein interessantes Experimentierthema.
Es hat klar Vorteile, aber ich halte es nicht wirklich für einen besseren Transformer.
Die übermäßige Aufmerksamkeit, die es derzeit bekommt, wirkt etwas überzogen.
Das erinnert mich wieder an die Analogie zwischen Finite-Impulse-Response- (FIR) Filtern (klassische LLMs) und Infinite-Impulse-Response- (IIR) Filtern (rekursive Modelle).
Es ist weder eine brillante noch eine originelle Analogie, aber bei FIR braucht man für ähnliche Cutoff-Eigenschaften viel mehr Koeffizienten als bei IIR.
Zum Beispiel kann man mit der window design method ein IIR in ein FIR umwandeln, und dabei wird die rekursive Struktur entfaltet und bei endlicher Tiefe gestoppt.
Ähnlich ergibt das Unrolling von TRM eine wiederholte Struktur aus Attention+FF-Blöcken, der in traditionellen LLM-Architekturen nur das globale Feedback fehlt.
Außerdem implementiert TRM im Unterschied zu echtem IIR einen endlichen Cutoff und ist strukturell deshalb eher FIR/LLM ähnlich.
Ein Vergleich mit einer ähnlich entfalteten TRM-Struktur wäre ebenfalls interessant.
Wobei das auch einfach ein Gedanke aus schlafmangelbedingtem Delirium sein könnte.
Der Ansatz geht von der Beobachtung aus, dass die Hidden Layers der meisten tiefen Sequenzmodelle gegen einen Fixpunkt konvergieren, und sucht diesen Fixpunkt dann direkt per Root Finding.
Dieser Ansatz ist äquivalent zum Ausführen eines Feedforward-Netzes mit unendlicher Tiefe und geteilten Gewichten, und Backpropagation ist dabei auch per impliziter Differentiation möglich.
(arXiv-Paper-Link)
Das Interessante an Deep-Equilibrium-Modellen ist, dass schon eine einzige Schicht einem Deep-Learning-Netz mit vielen gestapelten Schichten äquivalent sein kann.
Alles, was man braucht, ist Rekurrenz.
Die Anzahl der Iterationen passt sich selbst an die Schwierigkeit der Aufgabe an.
Ich habe HRM zu Lernzwecken implementiert und gute Leistung bei Pathfinding erzielt.
Danach habe ich Ablation-Experimente gemacht und bin zum gleichen Schluss gekommen wie das ARC-AGI-Team, nämlich dass die HRM-Architektur selbst kaum eine Rolle spielt.
Das ist etwas enttäuschend.
Ich denke, im latent space reasoning steckt dennoch Potenzial.
Implementierungs-Repository
Replikation und der Austausch von Erfahrungen sind wirklich wichtig.
Ich frage mich, ob das im arXiv-Paper gezeigte Ergebnis tatsächlich skalierbar ist.
Wenn sich das auch in realen Anwendungen bewährt, wäre es definitiv revolutionär.
Andererseits führt es auch zu der amüsanten Vorstellung, dass die astronomischen Investitionen in heutige AI-Datacenter-Infrastruktur damit auf einen Schlag sinnlos werden könnten.
(Natürlich nicht für lange.)
Wenn man über HRM spricht, sollte man unbedingt auch die arcprize-HRM-Analyse heranziehen.
Diese Arbeit wirkt wie eine vereinfachte Version von HRM und scheint sich direkt auf die Ablation-Studien aus dieser Analyse zu stützen.
Wichtig ist auch, dass HRM keine breit einsetzbare Struktur wie ein gewöhnliches transformerbasiertes LLM ist.
Es gibt bislang keine Belege dafür, dass HRM bei allgemeinen generativen AI-Aufgaben funktioniert.
Ich lese das Paper gerade, aber auch diese Architektur scheint ähnlich wie HRM für Aufgaben wie räumliches Schließen à la ARC-AGI geeignet zu sein und müsste noch in eine allgemeinere Architektur integriert werden.
Ich denke, hier greift das Jevons-Paradoxon.
Wenn die Kosten für AI/Strom sinken, steigt die Nachfrage noch stärker.
Die Vorstellung, dass die AI-Blase platzt, weil AI-Technologie so gut wird, dass die Effizienz extrem steigt, ist durchaus plausibel.
Zur Aussage, dass AI-Datacenter-Investitionen sinnlos werden könnten:
GPU-Rechenleistung wird nicht nur für Text-Reasoning verwendet, und besonders die Nachfrage nach Videogenerierung dürfte selbst bei Durchbrüchen noch eine Weile schwer zu sättigen sein.
Falls solche Ergebnisse tatsächlich erreicht werden, wird die Branche diese Methode wahrscheinlich fast sofort übernehmen, um noch größere und leistungsfähigere Modelle zu trainieren.
„TRM mit 7M Parametern erreicht 45 % Testgenauigkeit auf ARC-AGI-1 und 8 % auf ARC-AGI-2, höher als die meisten LLMs wie Deepseek R1, o3-mini und Gemini 2.5 Pro, bei weniger als 0,01 % der Parameter.“
Das ist wirklich beeindruckend.
Rein strukturell erinnert mich das übrigens an Jeff Hawkins’ in „On Intelligence“ vorgeschlagenes Hierarchical Temporal Memory.
(Natürlich ohne die Sparsity-Eigenschaft, aber die hierarchischen und zeitlichen Elemente sind ähnlich.)
HTM-Wiki, Numenta
Zusammenfassung
Das Hierarchical Reasoning Model (HRM) ist ein neuartiger Ansatz, bei dem zwei kleine neuronale Netze rekursiv mit unterschiedlichen Takten ausgeführt werden.
Es ist biologisch inspiriert und übertrifft mit einem kleinen Modell (27M Parameter) und kleinen Datenmengen (rund 1000 Beispiele) große LLMs bei schwierigen Puzzle-Aufgaben wie Sudoku, Maze und ARC-AGI.
Die Architektur ist noch nicht vollständig verstanden, und die Leistung ist möglicherweise nicht optimal.
Wir schlagen eine deutlich einfachere rekursive Reasoning-Methode vor (TRM, Tiny Recursive Model), und dieses Modell zeigt mit einem kleinen Netz aus 2 Schichten eine wesentlich bessere Generalisierung als HRM.
Mit nur 7M Parametern übertrifft es große LLMs (45 % Testgenauigkeit auf ARC-AGI-1, 8 % auf ARC-AGI-2, bei weniger als 0,01 % der Parameter).
Ich frage mich aber, ob es nicht irgendwo versteckte Einschränkungen gibt.
Es ist interessant zu sehen, dass Rekurrenz bei ARC-Problemen so gute Ergebnisse liefert.
Wer sich für Rekurrenz interessiert, sollte sich auch die folgenden Arbeiten ansehen, in denen dieses Modell auf andere Probleme angewendet wird.
Insgesamt gefällt mir diese transformer-/RNN-artige Linie.
Im Kern ist es eine Struktur, in der ein EBM eine Energielandschaft lernt und zur Lösung hinzieht.
Es fühlt sich an, als würde man diskrete Probleme schrittweise konvexer lösen.
Das erinnert auch an neural cellular automata sowie flow matching/diffusion.
Auch für Regelungsprobleme wirkt dieser Ansatz vielversprechend.
Man bewegt sich fortlaufend durch den Zustandsraum und wählt in jedem Schritt nur gültige Aktionen.
Ich frage mich, ob das nicht im Wesentlichen dasselbe ist wie ein neuralese Chain-of-Thought (CoT).
z/z_L wird explizit als Reasoning-Embedding bezeichnet, und dieses verändert oder erhält sich über den rekursiven Prozess hinweg, während das Ausgabe-Embedding (z_H/y) schrittweise verfeinert wird.
Ist das nicht im Grunde genau eine neuralese CoT-/Reasoning-Kette?