Hierarchisches Reasoning-Modell
(arxiv.org)- Das Hierarchische Reasoning-Modell (Hierarchical Reasoning Model, HRM) überwindet bei der Ausführung komplexer zielgerichteter Handlungen in der KI die Grenzen bestehender LLM-basierter Chain-of-Thought-Verfahren, darunter instabile Aufgabenzerlegung, hoher Datenbedarf und Latenzprobleme
- Inspiriert vom hierarchischen Verarbeitungsprinzip des menschlichen Gehirns führt HRM eine neue rekurrente Struktur ein, die aus einem High-Level-Modul für abstrakte Planung und einem Low-Level-Modul für die schnelle Verarbeitung detaillierter Operationen besteht
- HRM zeigt mit rund 27 Millionen Parametern und nur 1.000 Trainingsbeispielen herausragende Leistung bei anspruchsvollen Reasoning-Problemen
- Ohne Pretraining und ohne Chain-of-Thought-Daten erreicht es bei komplexen Sudoku-Aufgaben und der Suche nach optimalen Pfaden in großen Labyrinthen eine nahezu perfekte Genauigkeit
- HRM zeigt gegenüber bestehenden großen Modellen eine hohe Effizienz und starke Leistung und deutet auf einen möglichen Wendepunkt für General Computing und allgemeine Intelligenzsysteme hin
Überblick
Im Bereich der KI ist Reasoning eine zentrale Aufgabe bei der Planung und Ausführung komplexer zielgerichteter Handlungen. Bestehende große Sprachmodelle (LLMs) verwenden meist die Chain-of-Thought-(CoT)-Technik, doch diese hat Grenzen wie fragile Aufgabenzerlegung, hohen Datenbedarf und hohe Latenz.
- Ausgehend von der hierarchischen Verarbeitung über mehrere Zeitskalen im menschlichen Gehirn wurde das Hierarchical Reasoning Model (HRM) vorgeschlagen
- HRM besteht aus zwei abhängigen rekurrenten Modulen (High-Level/Low-Level) und führt sequentielles Reasoning in einem einzelnen Forward-Pass ohne explizite Überwachung der Zwischenschritte aus
- Mit 27 Millionen Parametern erzielt es mit nur 1.000 Beispielen Leistung auf dem neuesten Stand der Technik
Strukturelle Grenzen bisheriger Deep Learning- und LLM-Modelle
- Deep Learning begann mit dem Ansatz, die Ausdrucksstärke durch größere Netzwerktiefe zu erhöhen, doch Transformer-basierte LLMs sind strukturell flach und stoßen bei der Tiefe an Grenzen
- Transformer mit fester Tiefe unterliegen bei komplexem logischem Reasoning oder algorithmischen Problemen grundlegenden Beschränkungen der Rechenkomplexität
- Chain-of-Thought stützt sich auf eine von Menschen definierte sprachbasierte schrittweise Zerlegung, sodass das gesamte Reasoning leicht zusammenbricht, wenn Fehler oder eine falsche Reihenfolge auftreten
- CoT bringt außerdem Probleme wie hohen Datenbedarf, viele erzeugte Tokens und langsame Ausführung mit sich
Designprinzipien von HRM
Entworfen nach dem Vorbild der hierarchischen Verarbeitung über mehrere Zeitskalen im menschlichen Gehirn
- Hierarchische Verarbeitung: Das Gehirn verarbeitet Informationen in oberen und unteren Bereichen hierarchisch und zeitlich getrennt
- Trennung der Zeitskalen: Höhere Bereiche arbeiten langsamer, niedrigere schneller, was effiziente Steuerung ermöglicht
- Rekurrente Verbindungen: Durch wiederholtes Feedback werden interne Repräsentationen feinjustiert und so tiefes Reasoning ermöglicht
HRM-Modellarchitektur
- Besteht aus Eingabenetzwerk, rekurrentem Low-Level-Modul, rekurrentem High-Level-Modul und Ausgabenetzwerk
- Die Eingabe wird in Vektoren eingebettet
- Das Low-Level-Modul wird mehrfach auf Basis seines vorherigen Zustands, des aktuellen High-Level-Zustands und der Eingabe aktualisiert
- Das High-Level-Modul wird am Ende jedes Zyklus nur einmal aktualisiert und erhält dabei den Endzustand des Low-Level-Moduls
- Abschließend wird aus dem Zustand des High-Level-Moduls die Vorhersage erzeugt
Mechanismus der hierarchischen Konvergenz (hierarchical convergence)
- Herkömmliche RNNs konvergieren zu schnell, sodass zusätzliche Berechnungsschritte bedeutungslos werden können
- Bei HRM konvergiert das Low-Level-RNN in jedem Zyklus zunächst stabil zu einem lokalen Gleichgewichtspunkt; anschließend liefert das High-Level-Modul neuen Kontext, sodass das Low-Level-Modul erneut starten kann
- Dank dieser hierarchischen Konvergenzstruktur sind tiefe Operationen über viele Schritte möglich, und zugleich lässt sich die Konvergenzgeschwindigkeit angemessen steuern
1-Step-Approximations-Gradiententraining
- Bei Abhängigkeit von BPTT (Backpropagation Through Time) müssen die Zustände vieler Schritte gespeichert werden, was einen hohen Speicherbedarf verursacht
- HRM trainiert, indem in High-Level- und Low-Level-Modul der Gradient allein aus dem letzten Zustand approximiert wird; dadurch bleibt der Speicherverbrauch bei O(1) und ein biologisch realistischeres Verfahren wird möglich
- Mathematisch basiert dies auf den Prinzipien des Deep Equilibrium Model (DEQ)
Deep Supervision & Adaptive Computation Time (ACT)
Deep Supervision
- Es wird regelmäßiges Feedback bereitgestellt; bei jedem Forward-Pass-(Segment) wird eine Ausgabe erzeugt, und der Trainingsverlust jedes Segments wird separat berechnet
- Beim Übergang zum nächsten Segment wird der Zustand vom Graphen getrennt (
detach), was Stabilität und Leistung tiefer rekurrenter Strukturen verbessert
Adaptive Computation Time (ACT)
- Durch Übernahme des Prinzips des Wechsels zwischen automatischem und bewusstem Denken beim Menschen wird mit Q-Learning dynamisch gelernt, wie oft Segmente wiederholt werden sollen
- Ein Q-Head sagt für jedes Segment die Q-Werte für die Aktionen Halt/Continue voraus
- Q-Learning berechnet den Gesamtverlust unter gleichzeitiger Berücksichtigung von Vorhersagegenauigkeit und optimalem Abbruchzeitpunkt
Leistung und Architekturmerkmale
-
Bei Sudoku-Extreme (9x9), großen Labyrinthen (30x30) und ähnlichen Problemen, an denen bisherige CoT-Modelle scheiterten, löst HRM die Aufgaben mit rund 1.000 Datensätzen nahezu perfekt
-
Im ARC-AGI-(Abstraction and Reasoning Corpus)-Benchmark erreicht es mit nur 27M Parametern 40,3 % Leistung (CoT-basiertes o3-mini-high 34,5 %, Claude 3.7 8K 21,2 %)
-
Zusätzliche Leistungssteigerung ist in der Inferenz möglich, indem nur die Zahl der Rechenschritte erhöht wird; zusätzliche Architekturänderungen oder erneutes Training sind dafür nicht nötig, sodass Rechenressourcen flexibel genutzt werden können
-
HRM nutzt intern eine Transformer-basierte Sequence-to-Sequence-Struktur,
- nach der Embedding-Schicht verwenden sowohl Low-Level- als auch High-Level-Modul encoder-only Transformer-Blöcke
- Funktionen moderner LLMs wie Rotary Positional Encoding, Gated Linear Units und RMSNorm werden eingesetzt
- für die Parameter wird truncated LeCun Normal zur Initialisierung verwendet sowie der Adam-atan2-Optimierer mit konstanter Lernrate
Fazit
- HRM zeigt mit einer biologisch inspirierten hierarchisch-rekurrenten Struktur und effizienten, tiefen Lernverfahren, dass im Vergleich zu bisherigen Ansätzen überlegene allgemeine Reasoning-Fähigkeiten auch mit wenig Daten und wenigen Parametern möglich sind
- Es ist ein wichtiges Beispiel dafür, dass sich General Computing und Intelligenzsysteme über die Tiefengrenzen von Deep Learning/LLMs hinaus weiterentwickeln könnten
1 Kommentare
Hacker-News-Kommentare
Beim groben Überfliegen von Abstract und Einleitung wirken die Ergebnisse des Hierarchical Reasoning Model (HRM) wirklich überraschend
Es erscheint mir sehr zweifelhaft, dass ein Modell mit 27M Parametern mit nur 1.000 Datenpunkten "von Grund auf" trainiert wird
Genau!
„Nachdem die T-Schritte abgeschlossen sind, übernimmt das obere Modul (H-Modul) den resultierenden Zustand des unteren Moduls und aktualisiert ihn; dabei startet es den Rechenpfad des unteren Moduls neu und leitet eine neue Konvergenzphase ein“
Als ich die Aufteilung in hlm/llm-Struktur gelesen habe, musste ich sofort an die Struktur des menschlichen Gehirns denken
Man sollte eine skeptische Perspektive bewahren
Der Code der Autoren ist unter https://github.com/sapientinc/HRM veröffentlicht
Bei Machine-Learning-Papern ist ein gesunder Skeptizismus unverzichtbar
Ich denke, skeptische Prüfung durch Reproduktionsexperimente und Ergebnisvergleiche ist der beste Weg
Nur weil noch kein Peer Review erfolgt ist, sollte man noch kein vorschnelles Urteil fällen
Zu erwarten, dass ein Paper direkt nach seiner Veröffentlichung schon peer-reviewt ist, wirkt auf mich so, als kenne man den Prozess nicht gut
Als Kognitionspsychologe denke ich schon seit Langem, dass wir grob in diese Richtung mit AI gehen müssen
Wenn ich es richtig verstehe, sieht HRM 1.000 Sudoku-Paare (Puzzle, Lösung) und lernt daraus selbst die Regeln
Danach kann es neue, zuvor ungesehene Puzzles mit 55 % Genauigkeit lösen
Mit einer Million Trainingsbeispielen wird es nahezu perfekt
Erstaunlich ist vor allem, dass es überhaupt kein Pretraining gibt
AlphaZero hat dagegen die Regeln (Schach, Go) eingebaut und lernt nur die Strategie, während HRM sogar die Regeln selbst lernt
Ich werde das selbst im GitHub-Repository nachprüfen
AlphaZero hat die Regeln eingebaut, MuZero und spätere Modelle arbeiten jedoch ohne eingebaute Regeln
Ich habe direkt mit dem Source Code experimentiert:
pyproject.toml(also faktisch nicht wirklich 1.000)
Ich bin gespannt, vielleicht auch ein wenig beunruhigt, ob das HRM-Modell bald mit MoE (Mixture of Experts) kombiniert wird
Der wirtschaftliche Druck, LLMs noch leistungsfähiger zu machen, ist enorm, daher könnte so eine Kombination schon innerhalb eines Monats entstehen
Das Paper behandelt nur Puzzle-Probleme wie Sudoku, nicht aber Frage-Antwort-Systeme oder zentrale LLM-Anwendungsfelder
Schade, dass eine Verbindung mit der nächsten Generation von LLMs nicht diskutiert wird
MoE hat zwar mit Konzeptclustern zu tun, aber künftig müssten auch Konzepttiefe, Zahl der Hierarchieebenen und Lernzeit im latenten Raum enthalten sein, ähnlich wie wir beim Lesen eines Mathematikbuchs anders lesen als bei einem kurzen Artikel
HRM ist für Puzzles entworfen, bei denen wenige Regeln komplex ineinandergreifen
Auch ich bin etwas misstrauisch, weil es kaum Diskussionen über andere Anwendungen jenseits von Sudoku oder über die Grenzen des Ansatzes gibt
Beim Überfliegen des Papers hatte ich den Eindruck, dass sich auch MoE-LLM-Systeme – ob autoregressiv, diffusiv, energiebasiert oder anders – mit HRM-Strukturen hierarchisch verschachteln ließen
Mir gefällt der neurowissenschaftlich inspirierte Ansatz, und im ganzen Paper scheint mir nichts besonders problematisch zu sein
Ich habe selbst keine Replikation durchgeführt, aber was die Autoren gebaut haben, ist zumindest ein Solver für Constraint-Satisfaction-Probleme, der möglicherweise recht allgemein einsetzbar ist
Es ist ein System, das mit wenigen Beispielen sogar die Constraint-Regeln selbst lernt, und falls das stimmt, ist schon das allein hochinteressant
Der direkte Vergleich mit CoT-Modellen wirkt auf mich allerdings nicht besonders überzeugend
CoT-Modelle können prinzipiell beliebige komplexe Probleme lösen, während HRM für jedes spezialisierte Puzzle separat trainiert werden muss und man daher schwer von Allgemeingültigkeit sprechen kann
Nur weil zum Beispiel die Schach-Engine Stockfish besser Schach spielt als ein LLM, heißt das nicht, dass Stockfish „intelligenter“ ist
Gute Idee, aber ich hatte beim Paper ein leichtes Gefühl von Marketing-Übertreibung
Stimme zu! Schon für sich genommen ist das eine enorme Leistung
Du sagst, CoT-Modelle könnten im Wesentlichen jede komplexe Aufgabe lösen; mich würde interessieren, worauf sich das stützt
Wenn dieses Paper stimmt, wären die Auswirkungen enorm, deshalb beobachte ich es weiterhin sehr aufmerksam