KI, die über Spiele hinaus bis in die Realität lernt: John Carmacks Versuch mit realitätsbasiertem Reinforcement Learning

(twitter.com/ID_AA_Carmack)

17 Punkte von GN⁺ 2025-05-24 | 1 Kommentare | Auf WhatsApp teilen

Zusammenfassung der Vorbereitungsnotizen und Folien zu John Carmacks „Upper Bound 2025“-Vortrag
John Carmack war bei Id Software, Oculus und Keen Technologies tätig und konzentriert sich derzeit auf AGI-Forschung auf Basis von Reinforcement Learning
Er setzt nicht auf LLMs und interessiert sich stattdessen für kontinuierliches, effizientes Lernen, bei dem wie bei Tieren durch Interaktion mit der Umgebung gelernt wird
Auf Basis des klassischen Spiels Atari baute er ein physisches RL-System, das mit Echtzeit-Kamera- und Joystick-Eingaben lernt
Er stellt umfassend die technischen Herausforderungen dar, die gelöst werden müssen, damit RL-Systeme der Realität ähnlicher werden, etwa Geschwindigkeit, Latenz, kontinuierliches Lernen und Vermeidung von Vergessen
Er teilt scharfsinnige, erfahrungsbasierte Einsichten zu CNN-Architekturen, Belohnungsrepräsentation und Explorationsstrategien und stellt bestehende Praktiken infrage

Folien: https://docs.google.com/presentation/d/…
Vorbereitungsnotizen: https://docs.google.com/document/d/…

Quick Background

Als Gründer von Id Software beeinflusste Quake durch den Fortschritt bei GPUs indirekt auch das KI-Feld
Bei Armadillo Aerospace betrieb er 10 Jahre lang Forschung an senkrecht startenden und landenden Raketen
Bei Oculus legte er die Grundlage moderner VR-Technologie
Er gründete Keen Technologies und widmet sich der KI-Forschung mit Fokus auf Reinforcement Learning
Er forscht gemeinsam mit Richard Sutton und teilt dessen Philosophie zum Reinforcement Learning

Where I thought I was going

Not LLMs

LLMs sind „Wissen ohne Lernen“, philosophisch also etwas anderes als das interaktionsbasierte Lernen, das er anstrebt
Es bleibt möglich, dass LLMs RL ersetzen, aber das Lernen aus der Umgebung wie bei Tieren erscheint ihm attraktiver

Games

Dank seiner langen Karriere in der Spieleentwicklung nutzt er Spiele als Experimentierumgebung
Wie in DeepMinds Atari-Forschung prüft er, ob Lernen allein mit pixelbasierten Eingaben möglich ist
Doch die enorme Zahl benötigter Trainingsframes und Effizienzprobleme bleiben Herausforderungen
Multitask-, Online- und effizientes Lernen sind weiterhin ungelöste Probleme

Video

Ursprünglich zog er passives Lernen aus Videos wie beim Fernsehen in Betracht, entschied sich dann aber, sich auf das Lernen in Spielen selbst zu konzentrieren

Missteps

Er begann zu sehr auf Low-Level-Ebene (C++ CUDA) und beschleunigte seine Experimente durch den Wechsel zu PyTorch
Statt Atari begann er mit dem Sega Master System, wechselte aber wegen fehlender Vergleichsdaten
Videobasiertes Lernen legte er auf Eis, da bereits das Lernen innerhalb von Spielen genügend Herausforderungen bietet

Settling in with Atari

Die Vielfalt kommerzieller Spiele hat den Vorteil, Forschungsbias zu reduzieren
Er empfiehlt die direkte Nutzung von ALE (Wrapper wie Gym können Probleme verursachen)
Neuere Modelle lösen die meisten Spiele mit hohen Scores, doch daten-effizientes Lernen wie bei „Atari 100k“ ist wichtiger
Das deterministische Verhalten der Umgebung muss etwa durch die Einführung von Sticky Actions überwunden werden

Reality is not a turn based game

Die Realität wartet nicht auf den Agenten → asynchrone Verarbeitung und Latenz müssen berücksichtigt werden
Scheitert Lernen schon in einer einzelnen Umgebung, deutet das auf ein Problem des Algorithmus selbst hin
Geschwindigkeit: Es werden Policies benötigt, die sich mit hoher Geschwindigkeit auswerten lassen (z. B. mit CUDA Graphs)
Latenz: Die meisten RL-Algorithmen sind anfällig für Latenz → es braucht Strukturen, die Verzögerungen bei der Anwendung der Policy berücksichtigen

Physical Atari

Aufbau eines Atari-Lernsystems in einer physischen Umgebung
Ein realer Joystick, eine Kamera, die auf den Bildschirm schaut, und ein RL-Agent arbeiten in Echtzeit zusammen
Beim Testen mehrerer Spiele werden reale Probleme wie Punkteerkennung, Aktionslatenz und Bedienfehler berücksichtigt
Die Joystick-Bewegung ist instabil, und die Punkteerkennung ist am schwierigsten
Einige Spiele werden ausgeschlossen, weil der Punktestand schwer erkennbar ist

Sparse rewards / Curiosity

RL ist schwach in Umgebungen mit spärlichen Belohnungen → Einsatz von intrinsischer Belohnung und künstlicher Neugier
Parallel wird untersucht, ob der Spielstand selbst anstelle einer Belohnung verwendet werden kann
Es gibt auch Versuche, menschliche Verhaltensmuster nachzubilden, etwa den Wechsel zwischen Spielen und das Aufrechterhalten von Interesse an neuen Spielen

Sequential multi-task learning

Das Problem des Vergessens in kontinuierlichen Lernumgebungen (catastrophic forgetting) ist weiterhin gravierend
Menschen erinnern sich an alte Fähigkeiten, doch aktuelle Modelle brechen beim erneuten Besuch früherer Spiele stark ein
Verbesserungen werden versucht durch Gedächtniserhalt, Anpassung der Lernrate und Gewichtssparsity
Task-IDs zu verwenden gilt als Schummeln, der Wechsel soll implizit erfolgen

Transfer Learning

Durch viele gelernte Spiele sollte das Lernen neuer Spiele schneller werden
OpenAIs Sonic-Challenge lief letztlich wieder auf Training from scratch hinaus
Bei GATO usw. tritt negativer Transfer (negative transfer) auf
Möglicherweise braucht es die Strategie: „Langsam lernen, um schnell zu lernen“
Vorschlag für einen neuen Benchmark: mehrere Spiele nacheinander wiederholt durchlaufen und dabei Scores bewerten

Plasticity vs generalization

Generalisierung bedeutet, etwas zu ignorieren, während Plastizität neue Muster erkennt → beides kann in Konflikt geraten
Generalisierung hat nur eine schwache theoretische Grundlage, etwa den inductive bias von CNNs
Die Wertfunktion im Reinforcement Learning ist ein Produkt der Generalisierung und sehr empfindlich

Exploration

Grenzen zufälliger Aktionswahl → ein einziger Fehler kann über das Überleben entscheiden
Versuche mit strukturierteren Action Spaces und confidence-basierten Policies
Auch zeitbasierte Aktionen müssen bedacht werden → Lernen bei 60fps ist sehr schwierig

Recurrence vs frame stacks

Bei Atari sind Frame-Stacks effektiv, aber rekurrente Strukturen ähneln dem Gehirn stärker
Transformer sind stark im Batch-Lernen, doch allgemeines rekurrentes Online-Lernen ist noch unvollendet

Funktionsapproximation-zentriertes Lernen

NNs übernehmen gleichzeitig Wertschätzung, Generalisierung, probabilistische Mittelung und Policy-Verbesserung
Alle Gewichts-Updates beeinflussen sämtliche Ausgabewerte
Die Kombination aus Initialisierung, Aktivierungsfunktion und Optimizer hat großen Einfluss auf die Leistung

Value representation

Das klassische Reward-Clamping aus DQN ist wirksam zur Stabilisierung des Lernens
Es gibt verschiedene Ansätze wie kategoriale Repräsentation, Nutzung von MSE und MuZeros Value-Kompression
Der Score-Bereich unterscheidet sich je nach Spiel, was beim Multitask-Lernen Probleme verursacht

Conv Nets

CNNs sind weiterhin die Grundarchitektur im RL
Große Bildnetzwerke verschlechtern die Leistung im RL (z. B. ConvNeXT)
Experimente mit veränderter Kernel-Struktur, Parameter Sharing und isotropen CNNs
DenseNet, Dilated CNN usw. verfolgen einen effizienten Informationsfluss
Versuche, CNNs nach biologischen Strukturen zu verbessern

1 Kommentare

GN⁺ 2025-05-24

Hacker-News-Kommentare

Jedes Mal, wenn ich einen Vortrag oder Text von Carmack sehe, möchte ich betonen, wie interessant das immer ist. Auch in diesen Notizen ist die Art beeindruckend, wie er seinen Denkprozess als Ingenieur sorgfältig dokumentiert. Ich war neugierig auf den Teil, in dem er sich als Forschungsrichtung auf Echtzeitlernen konzentriert. Ich verstehe Carmack so, dass er Online Learning in Echtzeit betreibt. Das ist eine spannende Herausforderung, bei der er gute Demos und seine Optimierungserfahrung ausspielen kann, aber wenn man die jüngsten Lehren und Forschungstrends betrachtet, denke ich, dass die Ergebnisse an Grenzen stoßen könnten, solange die Rechenressourcen für Echtzeit-Inferenz und -Lernen nicht vorhanden sind. Das Gehirn ist das einzige Beispiel, das Atari-Spiele löst, und selbst die Rechenleistung des menschlichen Gehirns wurde nie klar berechnet. In diesem Kontext frage ich mich ganz ehrlich, ob es nicht besser wäre, sich eher auf Lerneffizienz zu konzentrieren, statt absichtlich Echtzeitbeschränkungen zu setzen. Natürlich hat es viel Wert, innerhalb solcher Grenzen zu arbeiten, aber selbst Springspinnen lösen mit 100.000 Neuronen komplexe Probleme, also ist das schwer vorherzusagen
- Als Carmack Anfang der 90er seine frühe Forschung zu 3D-Grafik und Echtzeit-Rendering machte, hätten workstationbasierte Offline-Experten wahrscheinlich ähnlich gedacht. Carmacks größte Stärke war immer seine Fähigkeit, unter begrenzten Ressourcen Extreme zu erreichen (id Software, Oculus, Armadillo Aerospace usw.). Wenn man in großen Organisationen oder an bestehende Technologien gebunden ist, hat man eher den Eindruck, dass die Ergebnisse sogar schlechter werden (ich vermute, deshalb ist er auch bei Bethesda-id und Meta gegangen). Ich verstehe Carmacks Stil, sich auf Echtzeit zu konzentrieren, und ich denke nicht, dass er im aktuellen AI-Boom den Ansatz mag, einfach nur mit Computing Power alles zu erzwingen. Zum Glück beschäftigt er sich nicht damit, Investorengeld in das Training von LLMs zu stecken. Im Idealfall würde er wie früher mit großartigen Kollegen Innovationen schaffen, indem er Spitzentechnologie für die breite Masse zugänglich macht (z. B. die Verbreitung von 3D-Grafik)
- Um einen Satz aus den Vortragsnotizen zu zitieren: „Wenn du glaubst, dass bald eine AGI mit physischem Körper kommt, dann gib deinem tanzenden humanoiden Roboter einen Joystick und lass ihn ein völlig unbekanntes Videospiel lernen“ – ein Vorschlag, der einen Reality-Check nötig macht
- Ich möchte betonen, dass Menschen und Tiere über enorme angeborene Fähigkeiten und Vorwissen verfügen, weshalb das Lernen neuer Dinge strukturell viel leichter ist. Das ist weniger ein Unterschied in der Rechenleistung als vielmehr ein anderer Ausgangspunkt des Lernens
- Zur Meinung, dass die Rechenkapazität des menschlichen Gehirns unklar sei: Wenn man tatsächlich die Signalübertragungsgeschwindigkeit von Neuronen misst, gibt es eine Obergrenze für die Anzahl seriell verbundener Neuronen (etwa 100 Stufen), und daraus lässt sich schließen, dass die menschliche Kognition vielleicht weniger komplex ist als gedacht. Natürlich gibt es viel Parallelität und viele Feedback-Schleifen, aber wenn der AGI-Algorithmus irgendwann gefunden wird, könnte meiner Meinung nach eine „Mini“-Version entstehen, die 2025 auf gewöhnlicher Hardware in Echtzeit läuft
Sammlung relevanter Direktlinks:
- Präsentationsfolien
- Textdokument
Es gibt eine interessante Antwort von einem OpenAI-Insider, die ich teilen möchte: X-Link
- Ehrlich gesagt eine ziemlich uninteressante Reaktion. Diese vage Haltung, die externe Meinungen ignoriert, ist ein typisches Zeichen akademischer Unsicherheit. Es gibt keine konkrete Erklärung oder Begründung, also hilft es der Diskussion nicht weiter. Bei „OpenAI-Insider“ gegen „John Carmack und Richard Sutton“ ist klar, auf welcher Seite ich stehe
- Carmack hat direkt auf den Beitrag geantwortet: Carmacks Antwort
- Manche Leute bewerten den gesamten Twitter-Thread, aber wer nicht eingeloggt ist, sieht nur den ersten Tweet, deshalb wirkt es wie eine bloße Abfuhr
- Es ist schon lustig, wenn jemand sagt: „Ich habe eine Lektion gelernt“, aber dann nicht verrät, welche Lektion das eigentlich war
- Als Scherz möchte ich zu dem Tweet „they will learn the same lesson I did“ hinzufügen: „Heißt das, man soll Altman nicht vertrauen?“
Als ich hörte, dass Carmack sich auf AI konzentrieren will, war ich wirklich gespannt. Ich warte darauf, dass das Video hochgeladen wird, und den Folien nach zu urteilen scheint er ein System gebaut zu haben, das Atari-Spiele spielen kann. Ich halte das für ein interessantes Projekt, frage mich aber, ob noch andere Papers oder Ergebnisse folgen werden
- Atari-Spiele sind in der RL-Forschung weithin ein Standardbenchmark. Als Referenz: Arcade Learning Environment. Das Ziel ist die Entwicklung von Algorithmen, die auf verschiedene Aufgaben generalisieren können
- Es gibt bereits viele Agenten, die Atari-Spiele durchspielen oder hohe Punktzahlen erreichen, aber das Feld hat noch einen weiten Weg vor sich. In meiner Masterarbeit habe ich Methoden untersucht, die mit wenig Interaktion lernen; auf reale Roboter angewandt könnte das verhindern, dass ein Roboter Hunderte Jahre lang laufen und hinfallen muss, um Verhalten zu lernen. Es gibt nur wenige Beispiele für Forschung zu höherer Generalisierung, also dazu, mehrere Videospiele zu lernen und neue Spiele ebenfalls intuitiv lernen zu können
- Das Ziel dieses Projekts ist nicht einfach, Atari-Spiele zu „schaffen“, sondern eine allgemeine Methodik, die sich auf komplexere Spiele oder die physische Welt anwenden lässt. Aus Forschungssicht halte ich es aber für effizienter, die Atari-Umgebung in dieser Phase etwa für Echtzeitbedingungen zu modifizieren und damit zu testen, statt gleich komplexere Spiele einzuführen
- Es ist großartig, dass es als Open Source veröffentlicht werden soll. Mit physischen Controllern und Kamera in Echtzeit auf einer Laptop-GPU zu spielen, ist frisch und ungewöhnlich, aber ich bin nicht sicher, ob das für sich genommen schon bahnbrechend ist. Wenn es bei Sample-Effizienz oder Generalisierung gegenüber bisheriger Forschung wirklich herausragend ist, wäre das erstaunlich
- Mein Wunsch ist einfach, dass NPCs in Spielen intelligenter werden
Wie am Anfang der Folien angedeutet, finde ich es etwas schade, dass solche Forschung nicht in einer VR-Umgebung gemacht wurde. Wenn jemand die Fähigkeit hat, JPEG-Kamerafilter, Physiksimulation, Rauschen und sogar Roboter-Simulationsumgebungen gut in VR umzusetzen, dann ist Carmack der Richtige dafür. Echte Roboter zu verwenden ist in Bezug auf die Trainingszeit ein enormer Flaschenhals
Es bringt mich zum Nachdenken, warum AGI überhaupt einen physischen Körper haben müsste und warum wir uns wünschen, dass eine herausragende Intelligenz unser Auto fährt und unser Haus putzt. Eher scheint ein Szenario wie in Dan Simmons’ Roman Hyperion realistisch, in dem AGI in die Cloud verschwindet und Menschen weitgehend ignoriert
- Das muss nicht für immer sein, und auch Menschen würden ihren Körper wohl jederzeit hinter sich lassen, wenn sie könnten. Dauerhaft an physische Schnittstellen gebunden zu sein, hat auch Nachteile
- Ich denke, ein oft genannter Grund in der SF ist auch: „damit AGI nicht den Power-Knopf meines Körpers drücken kann“
Wenn ich über AGI nachdenke, habe ich das Gefühl, dass nicht einmal klar ist, was ein „Konzept“ überhaupt ist. Wir wissen immer noch nicht, was der Denkprozess ist, bei dem ein Konzept aus einem Bereich in einem anderen genutzt wird, oder wie das Gehirn Ideen kombiniert und abstrahiert
- Wenn Dinge wiederholt auftauchen, geben wir ihnen Namen, und Konzepte sind wiederkehrende Denkmuster. Abstraktion, Beziehungen und Metaphern sind alles Werkzeuge, um Muster zwischen Domänen zu übertragen
Als eine Art Gedankenexperiment sollte man fragen: Wenn OpenAIs AGI wirklich unmittelbar bevorstünde, warum würde man dann Zeit und Geld darauf verwenden, das von Ive geführte Hardware-Startup zu übernehmen? Sie könnten stattdessen Robotik angehen, oder wenn es wirklich die ultimative AGI wäre, würden zahllose Unternehmen ohnehin anklopfen, um Hardware- und Softwarelizenzen zu erhalten, was für sich genommen unbegrenzte Einnahmen erzeugen könnte
- AGI allein reicht nicht aus. Selbst wenn man AGI in ein ChatGPT-Interface steckt, müsste AGI „überall“ präsent sein, um tatsächlich Wirkung auf die reale Welt zu entfalten
- Wenn sich ein Unternehmen der Entwicklung von AGI nähert, ist es auch gut möglich, dass es Informationen absichtlich zurückhält, um sich vor staatlicher oder militärischer Regulierung zu verbergen. Wer AGI zuerst erreicht, trägt ein hohes Risiko
- Ich möchte die Richtung aufzeigen, dass AGI sogar Produktdesign übernehmen könnte
Ich denke, Carmack hat die richtige Forschungsrichtung gewählt. Wir müssen über das hinausgehen, was wie jetzt nur über Sprache gelernt wird. AI braucht Physikalität
- AI mit vielfältigen Daten jenseits von Sprache ernsthaft zu trainieren, läuft tatsächlich schon seit einigen Jahren. Die neuesten Frontier-Modelle werden multimodal in einem Modell auf Text, Audio, Video und Bildern trainiert (Gemini, GPT-4o, Grok 3, Claude 3, Llama 4 usw.). Alle Eingaben werden tokenisiert und in einem gemeinsamen Embedding-Raum verarbeitet
- Aus der Perspektive, dass AI Physikalität braucht, ist interessant, dass Carmack früher betont hatte, Simulationsumgebungen seien für AI-Entwicklung besser geeignet und physische Umgebungen in der Praxis ineffizient
- Nvidia ist derselben Meinung. Jim Fan spricht über den „physischen Turing-Test“ und die Zukunft von embodied AI. Video von Jim Fans Vortrag. Auch dort wird betont, dass enorme Rechenressourcen nötig sind, um robuste Simulationsumgebungen zu betreiben
Die Formulierung „Ich war vorsichtig, weil ich neu in der Forschungsgemeinschaft bin“ scheint anzudeuten, dass eine Paper-Einreichung möglich ist
- Es wird klargestellt, dass dieses Projekt kein Produktunternehmen ist, sondern ein Versuch für die Forschung

KI, die über Spiele hinaus bis in die Realität lernt: John Carmacks Versuch mit realitätsbasiertem Reinforcement Learning

Quick Background

Where I thought I was going

Not LLMs

Games

Video

Missteps

Settling in with Atari

Reality is not a turn based game

Physical Atari

Sparse rewards / Curiosity

Sequential multi-task learning

Transfer Learning

Plasticity vs generalization

Exploration

Recurrence vs frame stacks

Funktionsapproximation-zentriertes Lernen

Value representation

Conv Nets

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare