1 Punkte von GN⁺ 2025-06-16 | 1 Kommentare | Auf WhatsApp teilen
  • In letzter Zeit rückt wie bei großen Sprachmodellen (LLMs) auch die Skalierbarkeit von Reinforcement Learning (RL) in den Fokus
  • Tatsächlich zeigen AlphaGo, LLMs usw. starke Leistung, doch eingesetzt werden dabei vor allem On-Policy-RL-Algorithmen
  • Q-Learning als repräsentativer Algorithmus für Off-Policy RL skaliert bei langen Problemen (großer Horizon) wegen des Problems der akkumulierten Verzerrung schlecht
  • Experimentelle Ergebnisse zeigen, dass selbst bei stark erhöhter Datenmenge und Rechenleistung standardmäßige Q-Learning-Familien bei komplexen langfristigen Aufgaben Leistungsgrenzen haben
  • Es gibt nur lokale Lösungsansätze wie hierarchische Methoden, die das Horizon-Problem abschwächen, daher wird ein grundsätzlich skalierbares neues Off-Policy-RL-Ziel benötigt

Ist RL skalierbar?

  • In letzter Zeit sind Next-Token-Prediction bei Sprachmodellen, Diffusionsmodelle und kontrastive Lernverfahren Ziele, die gut skalieren, wenn man Daten und Compute erhöht
  • In Spielen, Mathematik, Coding usw. gab es auch bei RL starke Erfolge, und in vielen Fällen wurden On-Policy-RL-Algorithmen (z. B. PPO, REINFORCE) eingesetzt
  • On-Policy RL kann immer nur neue Rollouts verwenden, also Daten, die direkt mit der neuesten Policy erzeugt wurden
  • Dieser Ansatz ist in Simulationen oder bei LLMs kein großes Problem, aber in realen Umgebungen wie Robotik sehr ineffizient
  • So dauert es in Robotikexperimenten oft mehrere Monate, bis genügend Daten gesammelt sind, und es ist passive menschliche Intervention nötig

Das Aufkommen von Off-Policy RL

  • Off-Policy RL ist sehr sample-efficient, weil sämtliche früheren Daten wiederverwendet werden können
  • Besonders Q-Learning wird breit eingesetzt und zeigt Erfolge etwa beim Echtzeit-Laufen von Roboterhunden
  • Q-Learning minimiert den Temporal-Difference-(TD)-Loss, und fast alle Off-Policy-RL-Verfahren folgen diesem Prinzip
  • Um RL auf reale Probleme anzuwenden, ist letztlich die Schlüsselfrage: Ist auch Q-Learning skalierbar?

Die Skalierungsgrenzen von Q-Learning

  • Der Autor argumentiert, dass Q-Learning derzeit nicht gut skaliert, sobald lange Horizon-Probleme (mehr als 100 Entscheidungsstufen) auftreten
  • „Skalierbarkeit“ bedeutet hier, ob ein Problem allein durch mehr Daten und Rechenressourcen lösbar bleibt, selbst wenn Tiefe/Schwierigkeit ('depth') zunimmt
  • Wie mehrere Arbeiten experimentell gezeigt haben, geht es nicht nur darum, die Zahl der bearbeitbaren Probleme ('width') zu erhöhen
  • Die These des Autors: Die Q-Learning-Familie ist auf der Tiefenachse (Schwierigkeit) schlecht skalierbar, und algorithmische Innovation ist zwingend nötig
  • Es gibt dafür zwei Hauptgründe: das Ausbleiben empirischer Erfolgsgeschichten und systematische jüngste Experimente

Empirische Belege

  • AlphaGo, AlphaZero und MuZero sind alle modellbasiertes, On-Policy RL und gehören nicht zur TD-Learning-Familie
  • OpenAI Five nutzt ebenfalls On-Policy-Methoden wie PPO
  • Auch RL für LLMs basiert überwiegend auf On-Policy-Varianten aus der Policy-Gradient-Familie
  • Q-Learning oder ähnliche Off-Policy-RL-Verfahren haben fast keine groß angelegten realen Erfolgsgeschichten auf dem Niveau von AlphaGo oder LLMs
  • Der Autor schreibt, dass ihm nach Sichtung zahlreicher Arbeiten und Praxisbeispiele keine großen Erfolgsgeschichten auf Q-Learning-Basis bekannt sind

Ursache der Q-Learning-Grenzen: Horizon und akkumulierte Verzerrung

  • Bei Q-Learning ist das gebootstrappte TD-Target (Vorhersageziel aus Schätzwerten) stets verzerrt; diese Verzerrung akkumuliert entlang des Time-Horizon
  • Andere hochskalierbare Ziele wie Token-Prediction, Diffusion oder kontrastives Lernen haben dagegen keine akkumulierte Verzerrung in ihren Vorhersagezielen
  • Je länger der Horizon (Entscheidungslänge), desto stärker begrenzt der akkumulierte Fehler die Skalierung von Q-Learning
  • Deshalb wird zur Abschwächung oft ein kleinerer Discount-Factor gewählt
  • On-Policy-Wertschätzungsverfahren wie Policy Gradient sind dank Techniken wie GAE relativ weniger stark vom Horizon-Problem betroffen

Überprüfung der Skalierungsgrenzen durch Experimente

  • In einer aktuellen Arbeit wurden für Ultra-Long-Horizon-Aufgaben mit OGBench u. a. schwierige Tasks mit mehreren tausend Schritten entworfen
  • In der Umgebung wurden Störfaktoren minimiert, etwa durch „nahezu unendliche“ Daten, starke Modelle und geringere Lasten für Repräsentationsnetzwerke
  • Bestehende Offline-RL-Verfahren (BC, IQL, CRL, SAC+BC usw.) konnten selbst mit extrem großen Datensätzen keine komplexen Aufgaben lernen
  • Es wurden Ablation-Tests zu allen Variablen durchgeführt – Daten- und Modellgröße, Trainingszeit, Hyperparameter –, doch die Leistungsgrenze ließ sich nicht überwinden
  • Nur Methoden zur Reduktion des Horizon (Entscheidungslänge) hatten klaren Effekt auf die Skalierung der Leistung

Wirkung von Methoden zur Horizon-Reduktion

  • Nur Horizon-Reduktion wie n-step return oder hierarchisches RL zeigte entscheidenden Nutzen für die Skalierung von RL
  • Horizon-Reduktion beschleunigt nicht nur das Lernen, sondern verbessert auch die Endleistung selbst drastisch
  • Solche Ansätze lösen das Grundproblem jedoch nicht, sondern verkürzen den Horizon nur um einen konstanten Faktor
  • Es braucht neue algorithmische Ansätze, die den Horizon-Fluch auflösen können

Bedarf an einem neuen skalierbaren Off-Policy-RL-Ziel

  • Die bisherige Forschung zeigt, dass man den Horizon-Fluch nicht grundsätzlich überwinden kann, indem man nur Daten- oder Modellgröße erhöht
  • Letztlich wird eine Off-Policy-RL-Variante benötigt, die auch für langfristige Probleme beliebiger Länge skalierbar ist
  • Wenn dieses Ziel erreicht wird, könnten Roboter, LLMs und verschiedenste Entscheidungs-Agenten ein breiteres Spektrum realer Probleme lösen

Ideen und Vorschläge für künftige Forschung

  • Über zweistufige Hierarchien hinaus ließe sich eine einfache und skalierbare neue hierarchische Struktur vorschlagen, die mit Horizons beliebiger Länge umgehen kann
  • Modellbasiertes RL (model-based RL) könnte durch die Verbindung von überwachungsbasiertem Modellieren und On-Policy RL skalierbar sein
  • Auch die Erforschung neuer Familien wie quasimetric RL oder contrastive RL, die TD Learning vollständig ausschließen, könnte nützlich sein
  • Die bereitgestellte Evaluierungsumgebung und der offene Code können als Benchmark für Skalierungstests verschiedenster neuer RL-Algorithmen dienen

Danksagung

  • Der Autor dankt den vielen Forschenden, die bei Paper und Beitrag mitgearbeitet oder Feedback gegeben haben
  • Der Inhalt basiert auf Arbeiten wie [Horizon Reduction Makes RL Scalable] und wird ausdrücklich als persönliche Meinung des Autors gekennzeichnet

1 Kommentare

 
GN⁺ 2025-06-16
Hacker-News-Kommentare
  • Ich denke, die Skalierungsgrenzen von Q-Learning haben noch größere Ursachen als im Blog erwähnt. Die Anzahl der Zustände, mit denen ein Agent umgehen muss, wächst mit zunehmendem Horizont meist exponentiell. Dadurch steigt auch der Datenbedarf exponentiell, wenn man ein Q trainieren will, das diese Zustände abdeckt. Im Gegensatz dazu lernt On-Policy-Lernen nur die wichtigen Zustände, sodass sich die Trainingsdaten trotz exponentiellem Zustandsraum auf die Stellen konzentrieren, an denen sie tatsächlich gebraucht werden, was das Problem relativ vereinfacht

    • Ich stimme der im Artikel beschriebenen Analyse des Overapproximation Bias bei Q-Learning zu. Der Max-Operator in Q-Learning neigt dazu, Rauschen entlang der Zeitachse zu verstärken. Es gibt erfolgreiche Beispiele, in denen Methoden zur Bias-Reduktion, wie in diesem Paper, die Leistung von RL-Agenten verbessert haben. Studien zeigen auch, dass dieses Phänomen stärker in Zuständen auftritt, die vom Netzwerk selten besucht werden. Eine Stärke des Deep Learning ist, dass Leistung möglich wird, wenn trotz exponentiell wachsender Zustandszahl eine lernbare Struktur vorhanden ist. Der entscheidende Punkt ist, das richtige Trainingsziel zu wählen, und der Artikel argumentiert, dass Q-Learning hier Grenzen hat. Ich frage mich, ob modellbasierte RL-Systeme wie MuZero eine Lösung sein könnten. MuZero erhöht die Trainingseffizienz durch Reanalyse früherer Trajektorien, und Monte Carlo Tree Search (MCTS) ist eine prinzipielle Methode, den Horizont durch das Ausrollen mehrerer Schritte zu verkürzen. Auch innerhalb von MCTS kann das Problem mit dem Max-Operator auftreten, aber mit zunehmender Suchtiefe lässt sich das eher ausgleichen

    • Dieser Thread könnte hilfreich sein. Aus völlig unfachlicher Sicht würde ich sagen, dass manche Aufgaben trotz ihrer „Tiefe“ noch eine gewisse Homogenität haben, sodass Lernen auch dann möglich ist, wenn die Sample-Qualität etwas schlechter ist. Solche Aufgaben würde ich gern „ergodisch“ nennen. Aber ich denke, es gibt ganz klar auch Aufgaben, bei denen das nicht gilt

    • Ich frage mich, ob das ähnlich ist wie der Unterschied zwischen allgemeiner Gitter-Monte-Carlo-Integration und importance-sampling-basierter Monte-Carlo-Integration

    • Eindrücke zu Majorana-1 teilen

  • Schade, dass im Blog Offline-Ansätze wie Decision Transformers und Trajectory Transformers nicht erwähnt werden. Dank des Attention-Mechanismus umgehen sie das Credit-Assignment-Problem und zeigen bei Long-Horizon-Aufgaben gute Leistung. Viele RL-Forschende sehen diese Ansätze allerdings nicht als „echtes RL“ an, weil sie Credit nur außerhalb des Context Window zuweisen können. Deshalb gelten sie oft als schwer auf Aufgaben mit unendlichem Horizont anwendbar. Aber wenn das Context Window über 1 Million liegt, frage ich mich, ob das in der Praxis überhaupt ein großes Problem ist. Siehe Decision-Transformer-Paper, Trajectory-Transformer-Paper

    • Das TFP-Paper zitiert Decision Transformers. Das Credit-Assignment-Problem lässt sich nicht allein durch die Transformer-Architektur umgehen; Transformer sind eine Struktur für Sequenzmodellierungsprobleme, bei denen die Reihenfolge wichtig ist, etwa Credit Assignment in RL. Die Schwierigkeit des Problems wird durch die Datensparsamkeit bestimmt, und die Wahl der Architektur allein „umgeht“ das nicht
  • Ich finde, das fasst den Kern von RL gut zusammen. Ganz simpel gesagt bewegt man sich ständig weiter und verfolgt ein Ziel, dessen Position sich aber ebenfalls laufend verändert, je nachdem, wie man sich bewegt. Das heißt: Bei value-based RL gibt es keine absolute Ground Truth; es ist ein Spiel, bei dem man nur beide Seiten an den eigenen Schätzungen ausrichtet. Ich halte das aber nicht für hoffnungslos. Im Gegenteil: Ich glaube, dass RL bald praktisch nutzbar wird, und ein Grund dafür war bisher der Mangel an verlässlichen World Models oder Dynamikfunktionen. Genau dort gibt es jetzt große Fortschritte

  • Dieses Paper bzw. dieser Blog richtet sich an Leute mit bereits vorhandenem RL-Wissen. Wer tiefer in RL einsteigen will, dem empfehle ich die Einführungsvorlesung von David Silver (Deep Mind)

  • Die grundlegende Grenze des Off-Policy-Lernens ist, dass ineffektive frühe Explorationsdaten für das Lernen weiterentwickelter Policies kaum hilfreich sind. Beispiele wären grobe Anfängerfehler im Schach, sinnlose Züge oder Verhaltensweisen, mit denen man Rätsel nicht lösen kann. Daten werden in dem Moment Off-Policy, in dem die jeweilige Handlung von der aktuellen Policy abweicht, also von dem, was der Agent tatsächlich wählen würde. Letztlich geht es im Kern daher um bessere Generalisierung und höhere Sample-Effizienz

    • Ich frage mich, ob diese Behauptung nicht zu allgemein ist. Wie würde man zum Beispiel den Fall erklären, in dem ein Hund mit Off-Policy-Lernen in 20 Minuten laufen gelernt hat? Mich würde interessieren, ob es dazu eine differenziertere Sicht gibt
  • Wenn Menschen langfristige Aufgaben lernen, zerlegen sie die Gesamtaufgabe durch wiederholtes Training in Teilaufgaben mit kurzem Horizont und kombinieren diese Teilskills später hierarchisch

    • Vielleicht naiv, aber für mich wirkt das am Ende eher wie ein Problem des Ansatzes als des Algorithmus. Ein Modell kann Long-Horizon-Aufgaben von Anfang an nur schwer lösen, lernt aber zunächst Skills mit kurzem Horizont und bündelt sie dann, um längere Aufgaben zu bewältigen. Menschen machen das ähnlich: Sie lernen komplexe Tätigkeiten nicht als Folge feinster Einzelbewegungen nacheinander, sondern eignen sich kleine Einheiten an und zerlegen die Arbeit hierarchisch. Beim Fliegen eines Flugzeugs oder im Sport lernt man ja auch erst Schritt für Schritt die Grundlagen
  • Menschen nutzen tatsächlich sowohl On-Policy- als auch Off-Policy-Lernen. Beim Erkunden der Folgen des eigenen Handelns lernen sie On-Policy, und durch das Beobachten von Demonstrationen anderer Expertinnen und Experten lernen sie auch Off-Policy. Der Unterschied zu RL ist aber, dass Menschen gute und schlechte Handlungen unterscheiden und nur das „Gute“ zum Lernen herausfiltern. In den meisten Off-Policy-RL-Verfahren werden dagegen auch schlechte Handlungen als Daten verwendet, was das gesamte Training verlangsamt

    • Ich würde noch ergänzen, dass man gute und schlechte Handlungen nicht immer klar unterscheiden kann. In Demonstrationen von Expertinnen und Experten gibt es Fälle, die aus Sicht von Anfängern „völlig falsch“ aussehen, aber zu deutlich besseren Ergebnissen führen. Manchmal sind solche „von der Lehrbuchlinie abweichenden“ Taktiken eben nur möglich, weil die Person wirklich sehr gut ist
  • Mir gefällt der Inhalt des Blogs, aber schade ist, dass die Verwendung unerklärter Abkürzungen und Fachbegriffe seinen Nutzen für ein breiteres Publikum verringert. Es wäre gut gewesen, Begriffe und Abkürzungen zu erklären, um die Zugänglichkeit zu erhöhen

    • Gerade bei solchen Blogposts, die inhaltlich sehr gehaltvoll sind, aber viel Vorwissen voraussetzen und dadurch schwer zugänglich werden, können KI-Tools enorm bei Erklärungen und vereinfachten Erläuterungen helfen. Ich habe kürzlich die browserbasierte Dia verwendet und fand sie effektiv. Auch wenn man den Text in andere KI-Modelle kopiert und einfügt, bekommt man oft eine kompakte Zusammenfassung und Erklärungen zu offenen Fragen

    • Man merkt deutlich, dass so ein Text explizit für RL-Forschende geschrieben wurde. Die Schlussfolgerung ist im Grunde: „Kann bitte jemand einen Weg finden, Q-Learning skalierbar zu machen!“

    • Ich finde eher, genau das macht den Text sauberer

  • Die Stärke von Off-Policy-Verfahren wie Q-Learning ist, dass sie selbst mit suboptimalen Daten letztlich gegen die optimale Lösung konvergieren. Zum Beispiel könnte man auch einfach Schachdaten ohne jede Strategie sammeln und sie als Input für Q-Learning verwenden, und am Ende trotzdem eine optimale Policy lernen lassen, auch wenn es mit guten Daten natürlich schneller ginge

    • Ich denke, genau diese Bedingung ist die Definition einer „ergodischen“ Aufgabe, auch wenn ich das Wort hier leicht abgewandelt benutze. Aber ich glaube, dass es auch Aufgaben gibt, die nicht ergodisch sind