6 Punkte von GN⁺ 2025-07-28 | 1 Kommentare | Auf WhatsApp teilen
  • Das Hierarchische Reasoning-Modell (Hierarchical Reasoning Model, HRM) überwindet bei der Ausführung komplexer zielgerichteter Handlungen in der KI die Grenzen bestehender LLM-basierter Chain-of-Thought-Verfahren, darunter instabile Aufgabenzerlegung, hoher Datenbedarf und Latenzprobleme
  • Inspiriert vom hierarchischen Verarbeitungsprinzip des menschlichen Gehirns führt HRM eine neue rekurrente Struktur ein, die aus einem High-Level-Modul für abstrakte Planung und einem Low-Level-Modul für die schnelle Verarbeitung detaillierter Operationen besteht
  • HRM zeigt mit rund 27 Millionen Parametern und nur 1.000 Trainingsbeispielen herausragende Leistung bei anspruchsvollen Reasoning-Problemen
  • Ohne Pretraining und ohne Chain-of-Thought-Daten erreicht es bei komplexen Sudoku-Aufgaben und der Suche nach optimalen Pfaden in großen Labyrinthen eine nahezu perfekte Genauigkeit
  • HRM zeigt gegenüber bestehenden großen Modellen eine hohe Effizienz und starke Leistung und deutet auf einen möglichen Wendepunkt für General Computing und allgemeine Intelligenzsysteme hin

Überblick

Im Bereich der KI ist Reasoning eine zentrale Aufgabe bei der Planung und Ausführung komplexer zielgerichteter Handlungen. Bestehende große Sprachmodelle (LLMs) verwenden meist die Chain-of-Thought-(CoT)-Technik, doch diese hat Grenzen wie fragile Aufgabenzerlegung, hohen Datenbedarf und hohe Latenz.

  • Ausgehend von der hierarchischen Verarbeitung über mehrere Zeitskalen im menschlichen Gehirn wurde das Hierarchical Reasoning Model (HRM) vorgeschlagen
  • HRM besteht aus zwei abhängigen rekurrenten Modulen (High-Level/Low-Level) und führt sequentielles Reasoning in einem einzelnen Forward-Pass ohne explizite Überwachung der Zwischenschritte aus
  • Mit 27 Millionen Parametern erzielt es mit nur 1.000 Beispielen Leistung auf dem neuesten Stand der Technik

Strukturelle Grenzen bisheriger Deep Learning- und LLM-Modelle

  • Deep Learning begann mit dem Ansatz, die Ausdrucksstärke durch größere Netzwerktiefe zu erhöhen, doch Transformer-basierte LLMs sind strukturell flach und stoßen bei der Tiefe an Grenzen
  • Transformer mit fester Tiefe unterliegen bei komplexem logischem Reasoning oder algorithmischen Problemen grundlegenden Beschränkungen der Rechenkomplexität
  • Chain-of-Thought stützt sich auf eine von Menschen definierte sprachbasierte schrittweise Zerlegung, sodass das gesamte Reasoning leicht zusammenbricht, wenn Fehler oder eine falsche Reihenfolge auftreten
  • CoT bringt außerdem Probleme wie hohen Datenbedarf, viele erzeugte Tokens und langsame Ausführung mit sich

Designprinzipien von HRM

Entworfen nach dem Vorbild der hierarchischen Verarbeitung über mehrere Zeitskalen im menschlichen Gehirn

  • Hierarchische Verarbeitung: Das Gehirn verarbeitet Informationen in oberen und unteren Bereichen hierarchisch und zeitlich getrennt
  • Trennung der Zeitskalen: Höhere Bereiche arbeiten langsamer, niedrigere schneller, was effiziente Steuerung ermöglicht
  • Rekurrente Verbindungen: Durch wiederholtes Feedback werden interne Repräsentationen feinjustiert und so tiefes Reasoning ermöglicht

HRM-Modellarchitektur

  • Besteht aus Eingabenetzwerk, rekurrentem Low-Level-Modul, rekurrentem High-Level-Modul und Ausgabenetzwerk
  • Die Eingabe wird in Vektoren eingebettet
  • Das Low-Level-Modul wird mehrfach auf Basis seines vorherigen Zustands, des aktuellen High-Level-Zustands und der Eingabe aktualisiert
  • Das High-Level-Modul wird am Ende jedes Zyklus nur einmal aktualisiert und erhält dabei den Endzustand des Low-Level-Moduls
  • Abschließend wird aus dem Zustand des High-Level-Moduls die Vorhersage erzeugt

Mechanismus der hierarchischen Konvergenz (hierarchical convergence)

  • Herkömmliche RNNs konvergieren zu schnell, sodass zusätzliche Berechnungsschritte bedeutungslos werden können
  • Bei HRM konvergiert das Low-Level-RNN in jedem Zyklus zunächst stabil zu einem lokalen Gleichgewichtspunkt; anschließend liefert das High-Level-Modul neuen Kontext, sodass das Low-Level-Modul erneut starten kann
  • Dank dieser hierarchischen Konvergenzstruktur sind tiefe Operationen über viele Schritte möglich, und zugleich lässt sich die Konvergenzgeschwindigkeit angemessen steuern

1-Step-Approximations-Gradiententraining

  • Bei Abhängigkeit von BPTT (Backpropagation Through Time) müssen die Zustände vieler Schritte gespeichert werden, was einen hohen Speicherbedarf verursacht
  • HRM trainiert, indem in High-Level- und Low-Level-Modul der Gradient allein aus dem letzten Zustand approximiert wird; dadurch bleibt der Speicherverbrauch bei O(1) und ein biologisch realistischeres Verfahren wird möglich
  • Mathematisch basiert dies auf den Prinzipien des Deep Equilibrium Model (DEQ)

Deep Supervision & Adaptive Computation Time (ACT)

Deep Supervision

  • Es wird regelmäßiges Feedback bereitgestellt; bei jedem Forward-Pass-(Segment) wird eine Ausgabe erzeugt, und der Trainingsverlust jedes Segments wird separat berechnet
  • Beim Übergang zum nächsten Segment wird der Zustand vom Graphen getrennt (detach), was Stabilität und Leistung tiefer rekurrenter Strukturen verbessert

Adaptive Computation Time (ACT)

  • Durch Übernahme des Prinzips des Wechsels zwischen automatischem und bewusstem Denken beim Menschen wird mit Q-Learning dynamisch gelernt, wie oft Segmente wiederholt werden sollen
  • Ein Q-Head sagt für jedes Segment die Q-Werte für die Aktionen Halt/Continue voraus
  • Q-Learning berechnet den Gesamtverlust unter gleichzeitiger Berücksichtigung von Vorhersagegenauigkeit und optimalem Abbruchzeitpunkt

Leistung und Architekturmerkmale

  • Bei Sudoku-Extreme (9x9), großen Labyrinthen (30x30) und ähnlichen Problemen, an denen bisherige CoT-Modelle scheiterten, löst HRM die Aufgaben mit rund 1.000 Datensätzen nahezu perfekt

  • Im ARC-AGI-(Abstraction and Reasoning Corpus)-Benchmark erreicht es mit nur 27M Parametern 40,3 % Leistung (CoT-basiertes o3-mini-high 34,5 %, Claude 3.7 8K 21,2 %)

  • Zusätzliche Leistungssteigerung ist in der Inferenz möglich, indem nur die Zahl der Rechenschritte erhöht wird; zusätzliche Architekturänderungen oder erneutes Training sind dafür nicht nötig, sodass Rechenressourcen flexibel genutzt werden können

  • HRM nutzt intern eine Transformer-basierte Sequence-to-Sequence-Struktur,

    • nach der Embedding-Schicht verwenden sowohl Low-Level- als auch High-Level-Modul encoder-only Transformer-Blöcke
    • Funktionen moderner LLMs wie Rotary Positional Encoding, Gated Linear Units und RMSNorm werden eingesetzt
    • für die Parameter wird truncated LeCun Normal zur Initialisierung verwendet sowie der Adam-atan2-Optimierer mit konstanter Lernrate

Fazit

  • HRM zeigt mit einer biologisch inspirierten hierarchisch-rekurrenten Struktur und effizienten, tiefen Lernverfahren, dass im Vergleich zu bisherigen Ansätzen überlegene allgemeine Reasoning-Fähigkeiten auch mit wenig Daten und wenigen Parametern möglich sind
  • Es ist ein wichtiges Beispiel dafür, dass sich General Computing und Intelligenzsysteme über die Tiefengrenzen von Deep Learning/LLMs hinaus weiterentwickeln könnten

1 Kommentare

 
GN⁺ 2025-07-28
Hacker-News-Kommentare
  • Beim groben Überfliegen von Abstract und Einleitung wirken die Ergebnisse des Hierarchical Reasoning Model (HRM) wirklich überraschend

    • Beeindruckend ist, dass HRM mit nur 1.000 Input-Output-Beispielen und ohne Pretraining oder Chain-of-Thought-(CoT-)Supervision Probleme löst, an denen selbst bisherige State-of-the-Art-LLMs scheitern
    • Zum Beispiel erreicht es bei komplexen Sudoku-Aufgaben (Extreme Full) und beim Finden optimaler Pfade in 30x30-Labyrinthen eine nahezu perfekte Genauigkeit, während CoT-Ansätze hier bei 0 % Genauigkeit bleiben
    • Auch bei der Abstraction and Reasoning Corpus (ARC) AGI Challenge erreicht HRM mit 27M Parametern und einem 30x30-Grid (900 Token) 40,3 % und übertrifft damit deutlich größere Modelle wie o3-mini-high oder Claude 3.7 8K
    • Ich werde mir das Paper auf jeden Fall genauer anschauen
  • Es erscheint mir sehr zweifelhaft, dass ein Modell mit 27M Parametern mit nur 1.000 Datenpunkten "von Grund auf" trainiert wird

    • Ich verstehe auch nicht, warum sie es nicht mit anderen Modellen vergleichen, die unter denselben Bedingungen trainiert wurden, also mit derselben Datenaufbereitung
    • Stattdessen vergleichen sie nur mit allgemeinen externen LLMs, die diese 1.000 Beispiele womöglich nie im Training gesehen haben
    • Das wirkt für mich irgendwie nach Overfitting
  • Genau!

    • HRM nutzt zwei voneinander abhängige rekurrente Module (oberes Modul: abstrakte, langsame Planung; unteres Modul: schnelle und detaillierte Operationen)
    • Durch diese Struktur besitzt HRM mit wenigen Parametern (27 Millionen) und einem kleinen Datensatz (~1.000 Beispiele) trotzdem tiefgehende Rechenfähigkeit
    • HRM übertrifft auf anspruchsvollen Benchmarks (Extreme Sudoku, Maze-Hard, ARC-AGI) aktuelle CoT-Modelle
    • Beispielsweise mit 96 % Genauigkeit bei Sudoku und 40,3 % bei ARC-AGI-2 vor großen Modellen wie Claude 3.7 und DeepSeek R1
    • Es braucht eine Erklärung dafür, wie solche Ergebnisse zustande kommen ... ich sollte es selbst auf dem Rechner laufen lassen
  • „Nachdem die T-Schritte abgeschlossen sind, übernimmt das obere Modul (H-Modul) den resultierenden Zustand des unteren Moduls und aktualisiert ihn; dabei startet es den Rechenpfad des unteren Moduls neu und leitet eine neue Konvergenzphase ein“

    • Wenn das untere RNN seine Berechnung abgeschlossen hat, bewertet das obere Modul das Ergebnis, gibt dem unteren RNN neuen Kontext und wiederholt die Schleife
    • Das untere RNN führt wiederholt Backpropagation-Lernen aus, während das obere Modul periodisch eingreift und nachjustiert, bis eine bessere Ausgabe entsteht
    • „Neurowissenschaftliche Evidenz deutet darauf hin, dass solche kognitiven Modi gemeinsame neuronale Schaltkreise teilen, darunter den präfrontalen Cortex und das Default-Mode-Network. Das Gehirn reguliert also die ‚Ausführungszeit‘ dieser Schaltkreise dynamisch je nach Aufgabenkomplexität und möglicher Belohnung“
    • Die Autoren haben aus diesem Mechanismus des Gehirns eine „adaptive halting“-Strategie für HRM abgeleitet, also eine Strategie des „schnellen/langsamen Denkens“
    • Im Grunde ist das ein Scheduler, der den Einsatz von Rechenressourcen je nach Aufgabenschwierigkeit und vorhandenen Daten automatisch anpasst
    • Mir gefällt sehr, dass im ganzen Paper immer wieder Parallelen zum echten Gehirn gezogen werden
    • Ich denke, AGI wird nur möglich sein, wenn solche primitiven Bausteine in extremer Komplexität kombiniert werden und dabei unzählige spezialisierte „Module“ für Kooperation, Konkurrenz, Kommunikation, Nebenläufigkeit usw. genutzt werden
    • Das menschliche Gehirn muss evolutionär ebenfalls so funktioniert haben, um kognitive Fähigkeiten zu erreichen; bei langsamem und stromsparendem biologischem Gewebe scheint das die einzige Lösung zu sein
  • Als ich die Aufteilung in hlm/llm-Struktur gelesen habe, musste ich sofort an die Struktur des menschlichen Gehirns denken

  • Man sollte eine skeptische Perspektive bewahren

    • Besonders Ideen wie das Umgehen von Backpropagation sind zwar sehr interessant
    • Allerdings scheint das Ganze noch kein Peer Review durchlaufen zu haben, und auch im Ergebnisteil ist die Evaluierungsmethode nicht besonders konkret, Zahlen stehen nur in der Hauptgrafik
    • Auch unterscheiden sich die Werte vom Benchmarks-(ARC2-)Leaderboard und den tatsächlichen Zahlen; aktuell liegt die Spitze dort bei 19 %, während HRM eher bei 5 % liegt
    • Das lässt sich direkt unter https://www.kaggle.com/competitions/arc-prize-2025/leaderboard prüfen
  • Der Code der Autoren ist unter https://github.com/sapientinc/HRM veröffentlicht

    • Im AI/ML-Bereich sind Preprint-Paper mit funktionsfähigem Code viel wertvoller als offiziell peer-reviewte Paper
    • Preprints kann jeder prüfen und reproduzieren, während Standard-Peer-Review auf eine winzige Zahl beschäftigter Gutachter angewiesen ist, die teilweise nicht einmal ordentlich bezahlt werden
    • Wenn die Behauptungen der Autoren stimmen, wird sich das ohnehin durchsetzen; wenn nicht, wird es vergessen werden
    • Praktisch ist das eine Open-Source-artige, verteilte, globale Prüfung; vielleicht unordentlich, aber weit wirksamer als klassische Paper-Begutachtung
  • Bei Machine-Learning-Papern ist ein gesunder Skeptizismus unverzichtbar

    • Mit der zunehmenden Zahl an Papern wird traditionelles Peer Review zunehmend wirkungslos
    • Reviewer haben in der Praxis oft gar nicht die nötige Fachkompetenz für das jeweilige Thema oder sind Studierende
    • Echtes Peer Review ist der Prozess, bei dem andere Fachleute auf arXiv usw. die Ergebnisse selbst implementieren, unabhängig reproduzieren und in Folgearbeiten zitieren
    • Dieser Kommentar-Thread selbst ist das eigentliche Peer Review
  • Ich denke, skeptische Prüfung durch Reproduktionsexperimente und Ergebnisvergleiche ist der beste Weg

    • Nächsten Monat habe ich zehn Tage Urlaub; ich will mir anschauen, was die Autoren an Quellcode und Datensätzen veröffentlicht haben, und dann selbst versuchen, es zu reproduzieren
  • Nur weil noch kein Peer Review erfolgt ist, sollte man noch kein vorschnelles Urteil fällen

    • Auch die Paper zu mamba1 und mamba2 waren anfangs nicht peer-reviewt
    • Ich stimme aber zu, dass starke Behauptungen starke Belege brauchen, und versuche derzeit selbst lokal, die Ergebnisse zu reproduzieren
  • Zu erwarten, dass ein Paper direkt nach seiner Veröffentlichung schon peer-reviewt ist, wirkt auf mich so, als kenne man den Prozess nicht gut

    • Um Forschung in ein Peer Review zu bringen, muss sie zuerst überhaupt einmal „veröffentlicht“ werden
  • Als Kognitionspsychologe denke ich schon seit Langem, dass wir grob in diese Richtung mit AI gehen müssen

    • Siehe Fuzzy Trace Theory[1]; dabei bildet das Gedächtnis Repräsentationen auf verschiedenen Ebenen von wortgetreuen Details bis hin zum zusammenfassenden gist und kombiniert bzw. ruft sie daraus ab
    • Die Kombination aus zusammenfassender Repräsentation und Detailinformationen ermöglicht starke Generalisierung und flexible Abrufpfade
    • [1] https://pmc.ncbi.nlm.nih.gov/articles/PMC4979567/
  • Wenn ich es richtig verstehe, sieht HRM 1.000 Sudoku-Paare (Puzzle, Lösung) und lernt daraus selbst die Regeln

    • Danach kann es neue, zuvor ungesehene Puzzles mit 55 % Genauigkeit lösen

    • Mit einer Million Trainingsbeispielen wird es nahezu perfekt

    • Erstaunlich ist vor allem, dass es überhaupt kein Pretraining gibt

    • AlphaZero hat dagegen die Regeln (Schach, Go) eingebaut und lernt nur die Strategie, während HRM sogar die Regeln selbst lernt

    • Ich werde das selbst im GitHub-Repository nachprüfen

    • AlphaZero hat die Regeln eingebaut, MuZero und spätere Modelle arbeiten jedoch ohne eingebaute Regeln

      • MuZero übertrifft AlphaZero, und EfficientZero reduziert sogar den Trainingsaufwand
      • In Umgebungen wie Atari-Spielen sind sie sehr stark
    • Ich habe direkt mit dem Source Code experimentiert:

      • Für wissenschaftliche Reproduzierbarkeit würde ich mir wünschen, dass sie die Library-Versionen unbedingt angeben, idealerweise in einer pyproject.toml
      • Die 1.000 Sudoku-Beispiele werden in Wirklichkeit per handcodiertem Permutationsalgorithmus datenerweitert, sodass der effektive Datensatz ungefähr eine Million Beispiele umfasst
        (also faktisch nicht wirklich 1.000)
  • Ich bin gespannt, vielleicht auch ein wenig beunruhigt, ob das HRM-Modell bald mit MoE (Mixture of Experts) kombiniert wird

    • Der wirtschaftliche Druck, LLMs noch leistungsfähiger zu machen, ist enorm, daher könnte so eine Kombination schon innerhalb eines Monats entstehen

    • Das Paper behandelt nur Puzzle-Probleme wie Sudoku, nicht aber Frage-Antwort-Systeme oder zentrale LLM-Anwendungsfelder

    • Schade, dass eine Verbindung mit der nächsten Generation von LLMs nicht diskutiert wird

    • MoE hat zwar mit Konzeptclustern zu tun, aber künftig müssten auch Konzepttiefe, Zahl der Hierarchieebenen und Lernzeit im latenten Raum enthalten sein, ähnlich wie wir beim Lesen eines Mathematikbuchs anders lesen als bei einem kurzen Artikel

    • HRM ist für Puzzles entworfen, bei denen wenige Regeln komplex ineinandergreifen

      • Weil es nur wenige Regeln gibt, kann ein kleines Modell sie lernen, und weil das Modell klein ist, kann man es iterativ viele Male laufen lassen, um alle Wechselwirkungen zu verarbeiten
      • Sprachmodellierung muss jedoch unzählige Formulierungen und ihre Beziehungen speichern, daher dürfte ein ähnlich kleines Modell dort kaum ausreichen
      • Zum Glück reichen im Sprachbereich meist schon wenige Rechenschritte, um brauchbare Ergebnisse zu erhalten
      • Würde man ein so großes Modell wie ein LLM in HRM-artige Schleifen stecken, wäre es so langsam, dass ein praktischer Einsatz schwer wäre
      • Man könnte sich höchstens eine Kombination aus dem eigentlichen LLM und einem kleinen HRM vorstellen, das nur Constraint-Satisfaction-Aufgaben separat übernimmt
    • Auch ich bin etwas misstrauisch, weil es kaum Diskussionen über andere Anwendungen jenseits von Sudoku oder über die Grenzen des Ansatzes gibt

  • Beim Überfliegen des Papers hatte ich den Eindruck, dass sich auch MoE-LLM-Systeme – ob autoregressiv, diffusiv, energiebasiert oder anders – mit HRM-Strukturen hierarchisch verschachteln ließen

    • Daraus könnte man vielleicht auch neue Benchmarks für Effizienz und Qualität entwickeln
  • Mir gefällt der neurowissenschaftlich inspirierte Ansatz, und im ganzen Paper scheint mir nichts besonders problematisch zu sein

    • Ich habe selbst keine Replikation durchgeführt, aber was die Autoren gebaut haben, ist zumindest ein Solver für Constraint-Satisfaction-Probleme, der möglicherweise recht allgemein einsetzbar ist

    • Es ist ein System, das mit wenigen Beispielen sogar die Constraint-Regeln selbst lernt, und falls das stimmt, ist schon das allein hochinteressant

    • Der direkte Vergleich mit CoT-Modellen wirkt auf mich allerdings nicht besonders überzeugend

    • CoT-Modelle können prinzipiell beliebige komplexe Probleme lösen, während HRM für jedes spezialisierte Puzzle separat trainiert werden muss und man daher schwer von Allgemeingültigkeit sprechen kann

    • Nur weil zum Beispiel die Schach-Engine Stockfish besser Schach spielt als ein LLM, heißt das nicht, dass Stockfish „intelligenter“ ist

    • Gute Idee, aber ich hatte beim Paper ein leichtes Gefühl von Marketing-Übertreibung

    • Stimme zu! Schon für sich genommen ist das eine enorme Leistung

      • Man muss den Hype zwar einhegen, aber mit diesem kleinen Modell solche Ergebnisse zu erzielen, ist erstaunlich
      • Für bestimmte Probleme sind maßgeschneiderte Modelle effizienter und verlässlicher, also muss man nicht unter dem Label „allgemein“ ineffiziente Strukturen erzwingen
    • Du sagst, CoT-Modelle könnten im Wesentlichen jede komplexe Aufgabe lösen; mich würde interessieren, worauf sich das stützt

      • Ich frage mich, ob es dafür mathematische Belege gibt
      • Persönlich halte ich CoT eher für eine Art Hack, um die Grenzen heutiger LLMs zu umgehen
  • Wenn dieses Paper stimmt, wären die Auswirkungen enorm, deshalb beobachte ich es weiterhin sehr aufmerksam

    • Das Grundkonzept klingt plausibel, aber bis unabhängige Validierung von Dritten vorliegt, bleibe ich vorsichtig
    • Ich würde es gern auch direkt in der Praxis überprüfen