- In letzter Zeit rückt wie bei großen Sprachmodellen (LLMs) auch die Skalierbarkeit von Reinforcement Learning (RL) in den Fokus
- Tatsächlich zeigen AlphaGo, LLMs usw. starke Leistung, doch eingesetzt werden dabei vor allem On-Policy-RL-Algorithmen
- Q-Learning als repräsentativer Algorithmus für Off-Policy RL skaliert bei langen Problemen (großer Horizon) wegen des Problems der akkumulierten Verzerrung schlecht
- Experimentelle Ergebnisse zeigen, dass selbst bei stark erhöhter Datenmenge und Rechenleistung standardmäßige Q-Learning-Familien bei komplexen langfristigen Aufgaben Leistungsgrenzen haben
- Es gibt nur lokale Lösungsansätze wie hierarchische Methoden, die das Horizon-Problem abschwächen, daher wird ein grundsätzlich skalierbares neues Off-Policy-RL-Ziel benötigt
Ist RL skalierbar?
- In letzter Zeit sind Next-Token-Prediction bei Sprachmodellen, Diffusionsmodelle und kontrastive Lernverfahren Ziele, die gut skalieren, wenn man Daten und Compute erhöht
- In Spielen, Mathematik, Coding usw. gab es auch bei RL starke Erfolge, und in vielen Fällen wurden On-Policy-RL-Algorithmen (z. B. PPO, REINFORCE) eingesetzt
- On-Policy RL kann immer nur neue Rollouts verwenden, also Daten, die direkt mit der neuesten Policy erzeugt wurden
- Dieser Ansatz ist in Simulationen oder bei LLMs kein großes Problem, aber in realen Umgebungen wie Robotik sehr ineffizient
- So dauert es in Robotikexperimenten oft mehrere Monate, bis genügend Daten gesammelt sind, und es ist passive menschliche Intervention nötig
Das Aufkommen von Off-Policy RL
- Off-Policy RL ist sehr sample-efficient, weil sämtliche früheren Daten wiederverwendet werden können
- Besonders Q-Learning wird breit eingesetzt und zeigt Erfolge etwa beim Echtzeit-Laufen von Roboterhunden
- Q-Learning minimiert den Temporal-Difference-(TD)-Loss, und fast alle Off-Policy-RL-Verfahren folgen diesem Prinzip
- Um RL auf reale Probleme anzuwenden, ist letztlich die Schlüsselfrage: Ist auch Q-Learning skalierbar?
Die Skalierungsgrenzen von Q-Learning
- Der Autor argumentiert, dass Q-Learning derzeit nicht gut skaliert, sobald lange Horizon-Probleme (mehr als 100 Entscheidungsstufen) auftreten
- „Skalierbarkeit“ bedeutet hier, ob ein Problem allein durch mehr Daten und Rechenressourcen lösbar bleibt, selbst wenn Tiefe/Schwierigkeit ('depth') zunimmt
- Wie mehrere Arbeiten experimentell gezeigt haben, geht es nicht nur darum, die Zahl der bearbeitbaren Probleme ('width') zu erhöhen
- Die These des Autors: Die Q-Learning-Familie ist auf der Tiefenachse (Schwierigkeit) schlecht skalierbar, und algorithmische Innovation ist zwingend nötig
- Es gibt dafür zwei Hauptgründe: das Ausbleiben empirischer Erfolgsgeschichten und systematische jüngste Experimente
Empirische Belege
- AlphaGo, AlphaZero und MuZero sind alle modellbasiertes, On-Policy RL und gehören nicht zur TD-Learning-Familie
- OpenAI Five nutzt ebenfalls On-Policy-Methoden wie PPO
- Auch RL für LLMs basiert überwiegend auf On-Policy-Varianten aus der Policy-Gradient-Familie
- Q-Learning oder ähnliche Off-Policy-RL-Verfahren haben fast keine groß angelegten realen Erfolgsgeschichten auf dem Niveau von AlphaGo oder LLMs
- Der Autor schreibt, dass ihm nach Sichtung zahlreicher Arbeiten und Praxisbeispiele keine großen Erfolgsgeschichten auf Q-Learning-Basis bekannt sind
Ursache der Q-Learning-Grenzen: Horizon und akkumulierte Verzerrung
- Bei Q-Learning ist das gebootstrappte TD-Target (Vorhersageziel aus Schätzwerten) stets verzerrt; diese Verzerrung akkumuliert entlang des Time-Horizon
- Andere hochskalierbare Ziele wie Token-Prediction, Diffusion oder kontrastives Lernen haben dagegen keine akkumulierte Verzerrung in ihren Vorhersagezielen
- Je länger der Horizon (Entscheidungslänge), desto stärker begrenzt der akkumulierte Fehler die Skalierung von Q-Learning
- Deshalb wird zur Abschwächung oft ein kleinerer Discount-Factor gewählt
- On-Policy-Wertschätzungsverfahren wie Policy Gradient sind dank Techniken wie GAE relativ weniger stark vom Horizon-Problem betroffen
Überprüfung der Skalierungsgrenzen durch Experimente
- In einer aktuellen Arbeit wurden für Ultra-Long-Horizon-Aufgaben mit OGBench u. a. schwierige Tasks mit mehreren tausend Schritten entworfen
- In der Umgebung wurden Störfaktoren minimiert, etwa durch „nahezu unendliche“ Daten, starke Modelle und geringere Lasten für Repräsentationsnetzwerke
- Bestehende Offline-RL-Verfahren (BC, IQL, CRL, SAC+BC usw.) konnten selbst mit extrem großen Datensätzen keine komplexen Aufgaben lernen
- Es wurden Ablation-Tests zu allen Variablen durchgeführt – Daten- und Modellgröße, Trainingszeit, Hyperparameter –, doch die Leistungsgrenze ließ sich nicht überwinden
- Nur Methoden zur Reduktion des Horizon (Entscheidungslänge) hatten klaren Effekt auf die Skalierung der Leistung
Wirkung von Methoden zur Horizon-Reduktion
- Nur Horizon-Reduktion wie n-step return oder hierarchisches RL zeigte entscheidenden Nutzen für die Skalierung von RL
- Horizon-Reduktion beschleunigt nicht nur das Lernen, sondern verbessert auch die Endleistung selbst drastisch
- Solche Ansätze lösen das Grundproblem jedoch nicht, sondern verkürzen den Horizon nur um einen konstanten Faktor
- Es braucht neue algorithmische Ansätze, die den Horizon-Fluch auflösen können
Bedarf an einem neuen skalierbaren Off-Policy-RL-Ziel
- Die bisherige Forschung zeigt, dass man den Horizon-Fluch nicht grundsätzlich überwinden kann, indem man nur Daten- oder Modellgröße erhöht
- Letztlich wird eine Off-Policy-RL-Variante benötigt, die auch für langfristige Probleme beliebiger Länge skalierbar ist
- Wenn dieses Ziel erreicht wird, könnten Roboter, LLMs und verschiedenste Entscheidungs-Agenten ein breiteres Spektrum realer Probleme lösen
Ideen und Vorschläge für künftige Forschung
- Über zweistufige Hierarchien hinaus ließe sich eine einfache und skalierbare neue hierarchische Struktur vorschlagen, die mit Horizons beliebiger Länge umgehen kann
- Modellbasiertes RL (model-based RL) könnte durch die Verbindung von überwachungsbasiertem Modellieren und On-Policy RL skalierbar sein
- Auch die Erforschung neuer Familien wie quasimetric RL oder contrastive RL, die TD Learning vollständig ausschließen, könnte nützlich sein
- Die bereitgestellte Evaluierungsumgebung und der offene Code können als Benchmark für Skalierungstests verschiedenster neuer RL-Algorithmen dienen
Danksagung
- Der Autor dankt den vielen Forschenden, die bei Paper und Beitrag mitgearbeitet oder Feedback gegeben haben
- Der Inhalt basiert auf Arbeiten wie [Horizon Reduction Makes RL Scalable] und wird ausdrücklich als persönliche Meinung des Autors gekennzeichnet
1 Kommentare
Hacker-News-Kommentare
Ich denke, die Skalierungsgrenzen von Q-Learning haben noch größere Ursachen als im Blog erwähnt. Die Anzahl der Zustände, mit denen ein Agent umgehen muss, wächst mit zunehmendem Horizont meist exponentiell. Dadurch steigt auch der Datenbedarf exponentiell, wenn man ein Q trainieren will, das diese Zustände abdeckt. Im Gegensatz dazu lernt On-Policy-Lernen nur die wichtigen Zustände, sodass sich die Trainingsdaten trotz exponentiellem Zustandsraum auf die Stellen konzentrieren, an denen sie tatsächlich gebraucht werden, was das Problem relativ vereinfacht
Ich stimme der im Artikel beschriebenen Analyse des Overapproximation Bias bei Q-Learning zu. Der Max-Operator in Q-Learning neigt dazu, Rauschen entlang der Zeitachse zu verstärken. Es gibt erfolgreiche Beispiele, in denen Methoden zur Bias-Reduktion, wie in diesem Paper, die Leistung von RL-Agenten verbessert haben. Studien zeigen auch, dass dieses Phänomen stärker in Zuständen auftritt, die vom Netzwerk selten besucht werden. Eine Stärke des Deep Learning ist, dass Leistung möglich wird, wenn trotz exponentiell wachsender Zustandszahl eine lernbare Struktur vorhanden ist. Der entscheidende Punkt ist, das richtige Trainingsziel zu wählen, und der Artikel argumentiert, dass Q-Learning hier Grenzen hat. Ich frage mich, ob modellbasierte RL-Systeme wie MuZero eine Lösung sein könnten. MuZero erhöht die Trainingseffizienz durch Reanalyse früherer Trajektorien, und Monte Carlo Tree Search (MCTS) ist eine prinzipielle Methode, den Horizont durch das Ausrollen mehrerer Schritte zu verkürzen. Auch innerhalb von MCTS kann das Problem mit dem Max-Operator auftreten, aber mit zunehmender Suchtiefe lässt sich das eher ausgleichen
Dieser Thread könnte hilfreich sein. Aus völlig unfachlicher Sicht würde ich sagen, dass manche Aufgaben trotz ihrer „Tiefe“ noch eine gewisse Homogenität haben, sodass Lernen auch dann möglich ist, wenn die Sample-Qualität etwas schlechter ist. Solche Aufgaben würde ich gern „ergodisch“ nennen. Aber ich denke, es gibt ganz klar auch Aufgaben, bei denen das nicht gilt
Ich frage mich, ob das ähnlich ist wie der Unterschied zwischen allgemeiner Gitter-Monte-Carlo-Integration und importance-sampling-basierter Monte-Carlo-Integration
Eindrücke zu Majorana-1 teilen
Schade, dass im Blog Offline-Ansätze wie Decision Transformers und Trajectory Transformers nicht erwähnt werden. Dank des Attention-Mechanismus umgehen sie das Credit-Assignment-Problem und zeigen bei Long-Horizon-Aufgaben gute Leistung. Viele RL-Forschende sehen diese Ansätze allerdings nicht als „echtes RL“ an, weil sie Credit nur außerhalb des Context Window zuweisen können. Deshalb gelten sie oft als schwer auf Aufgaben mit unendlichem Horizont anwendbar. Aber wenn das Context Window über 1 Million liegt, frage ich mich, ob das in der Praxis überhaupt ein großes Problem ist. Siehe Decision-Transformer-Paper, Trajectory-Transformer-Paper
Ich finde, das fasst den Kern von RL gut zusammen. Ganz simpel gesagt bewegt man sich ständig weiter und verfolgt ein Ziel, dessen Position sich aber ebenfalls laufend verändert, je nachdem, wie man sich bewegt. Das heißt: Bei value-based RL gibt es keine absolute Ground Truth; es ist ein Spiel, bei dem man nur beide Seiten an den eigenen Schätzungen ausrichtet. Ich halte das aber nicht für hoffnungslos. Im Gegenteil: Ich glaube, dass RL bald praktisch nutzbar wird, und ein Grund dafür war bisher der Mangel an verlässlichen World Models oder Dynamikfunktionen. Genau dort gibt es jetzt große Fortschritte
Dieses Paper bzw. dieser Blog richtet sich an Leute mit bereits vorhandenem RL-Wissen. Wer tiefer in RL einsteigen will, dem empfehle ich die Einführungsvorlesung von David Silver (Deep Mind)
Die grundlegende Grenze des Off-Policy-Lernens ist, dass ineffektive frühe Explorationsdaten für das Lernen weiterentwickelter Policies kaum hilfreich sind. Beispiele wären grobe Anfängerfehler im Schach, sinnlose Züge oder Verhaltensweisen, mit denen man Rätsel nicht lösen kann. Daten werden in dem Moment Off-Policy, in dem die jeweilige Handlung von der aktuellen Policy abweicht, also von dem, was der Agent tatsächlich wählen würde. Letztlich geht es im Kern daher um bessere Generalisierung und höhere Sample-Effizienz
Wenn Menschen langfristige Aufgaben lernen, zerlegen sie die Gesamtaufgabe durch wiederholtes Training in Teilaufgaben mit kurzem Horizont und kombinieren diese Teilskills später hierarchisch
Menschen nutzen tatsächlich sowohl On-Policy- als auch Off-Policy-Lernen. Beim Erkunden der Folgen des eigenen Handelns lernen sie On-Policy, und durch das Beobachten von Demonstrationen anderer Expertinnen und Experten lernen sie auch Off-Policy. Der Unterschied zu RL ist aber, dass Menschen gute und schlechte Handlungen unterscheiden und nur das „Gute“ zum Lernen herausfiltern. In den meisten Off-Policy-RL-Verfahren werden dagegen auch schlechte Handlungen als Daten verwendet, was das gesamte Training verlangsamt
Mir gefällt der Inhalt des Blogs, aber schade ist, dass die Verwendung unerklärter Abkürzungen und Fachbegriffe seinen Nutzen für ein breiteres Publikum verringert. Es wäre gut gewesen, Begriffe und Abkürzungen zu erklären, um die Zugänglichkeit zu erhöhen
Gerade bei solchen Blogposts, die inhaltlich sehr gehaltvoll sind, aber viel Vorwissen voraussetzen und dadurch schwer zugänglich werden, können KI-Tools enorm bei Erklärungen und vereinfachten Erläuterungen helfen. Ich habe kürzlich die browserbasierte Dia verwendet und fand sie effektiv. Auch wenn man den Text in andere KI-Modelle kopiert und einfügt, bekommt man oft eine kompakte Zusammenfassung und Erklärungen zu offenen Fragen
Man merkt deutlich, dass so ein Text explizit für RL-Forschende geschrieben wurde. Die Schlussfolgerung ist im Grunde: „Kann bitte jemand einen Weg finden, Q-Learning skalierbar zu machen!“
Ich finde eher, genau das macht den Text sauberer
Die Stärke von Off-Policy-Verfahren wie Q-Learning ist, dass sie selbst mit suboptimalen Daten letztlich gegen die optimale Lösung konvergieren. Zum Beispiel könnte man auch einfach Schachdaten ohne jede Strategie sammeln und sie als Input für Q-Learning verwenden, und am Ende trotzdem eine optimale Policy lernen lassen, auch wenn es mit guten Daten natürlich schneller ginge