17 Punkte von GN⁺ 2025-05-24 | 1 Kommentare | Auf WhatsApp teilen
  • Zusammenfassung der Vorbereitungsnotizen und Folien zu John Carmacks „Upper Bound 2025“-Vortrag
  • John Carmack war bei Id Software, Oculus und Keen Technologies tätig und konzentriert sich derzeit auf AGI-Forschung auf Basis von Reinforcement Learning
  • Er setzt nicht auf LLMs und interessiert sich stattdessen für kontinuierliches, effizientes Lernen, bei dem wie bei Tieren durch Interaktion mit der Umgebung gelernt wird
  • Auf Basis des klassischen Spiels Atari baute er ein physisches RL-System, das mit Echtzeit-Kamera- und Joystick-Eingaben lernt
  • Er stellt umfassend die technischen Herausforderungen dar, die gelöst werden müssen, damit RL-Systeme der Realität ähnlicher werden, etwa Geschwindigkeit, Latenz, kontinuierliches Lernen und Vermeidung von Vergessen
  • Er teilt scharfsinnige, erfahrungsbasierte Einsichten zu CNN-Architekturen, Belohnungsrepräsentation und Explorationsstrategien und stellt bestehende Praktiken infrage

Quick Background

  • Als Gründer von Id Software beeinflusste Quake durch den Fortschritt bei GPUs indirekt auch das KI-Feld
  • Bei Armadillo Aerospace betrieb er 10 Jahre lang Forschung an senkrecht startenden und landenden Raketen
  • Bei Oculus legte er die Grundlage moderner VR-Technologie
  • Er gründete Keen Technologies und widmet sich der KI-Forschung mit Fokus auf Reinforcement Learning
  • Er forscht gemeinsam mit Richard Sutton und teilt dessen Philosophie zum Reinforcement Learning

Where I thought I was going

Not LLMs

  • LLMs sind „Wissen ohne Lernen“, philosophisch also etwas anderes als das interaktionsbasierte Lernen, das er anstrebt
  • Es bleibt möglich, dass LLMs RL ersetzen, aber das Lernen aus der Umgebung wie bei Tieren erscheint ihm attraktiver

Games

  • Dank seiner langen Karriere in der Spieleentwicklung nutzt er Spiele als Experimentierumgebung
  • Wie in DeepMinds Atari-Forschung prüft er, ob Lernen allein mit pixelbasierten Eingaben möglich ist
  • Doch die enorme Zahl benötigter Trainingsframes und Effizienzprobleme bleiben Herausforderungen
  • Multitask-, Online- und effizientes Lernen sind weiterhin ungelöste Probleme

Video

  • Ursprünglich zog er passives Lernen aus Videos wie beim Fernsehen in Betracht, entschied sich dann aber, sich auf das Lernen in Spielen selbst zu konzentrieren

Missteps

  • Er begann zu sehr auf Low-Level-Ebene (C++ CUDA) und beschleunigte seine Experimente durch den Wechsel zu PyTorch
  • Statt Atari begann er mit dem Sega Master System, wechselte aber wegen fehlender Vergleichsdaten
  • Videobasiertes Lernen legte er auf Eis, da bereits das Lernen innerhalb von Spielen genügend Herausforderungen bietet

Settling in with Atari

  • Die Vielfalt kommerzieller Spiele hat den Vorteil, Forschungsbias zu reduzieren
  • Er empfiehlt die direkte Nutzung von ALE (Wrapper wie Gym können Probleme verursachen)
  • Neuere Modelle lösen die meisten Spiele mit hohen Scores, doch daten-effizientes Lernen wie bei „Atari 100k“ ist wichtiger
  • Das deterministische Verhalten der Umgebung muss etwa durch die Einführung von Sticky Actions überwunden werden

Reality is not a turn based game

  • Die Realität wartet nicht auf den Agenten → asynchrone Verarbeitung und Latenz müssen berücksichtigt werden
  • Scheitert Lernen schon in einer einzelnen Umgebung, deutet das auf ein Problem des Algorithmus selbst hin
  • Geschwindigkeit: Es werden Policies benötigt, die sich mit hoher Geschwindigkeit auswerten lassen (z. B. mit CUDA Graphs)
  • Latenz: Die meisten RL-Algorithmen sind anfällig für Latenz → es braucht Strukturen, die Verzögerungen bei der Anwendung der Policy berücksichtigen

Physical Atari

  • Aufbau eines Atari-Lernsystems in einer physischen Umgebung
  • Ein realer Joystick, eine Kamera, die auf den Bildschirm schaut, und ein RL-Agent arbeiten in Echtzeit zusammen
  • Beim Testen mehrerer Spiele werden reale Probleme wie Punkteerkennung, Aktionslatenz und Bedienfehler berücksichtigt
  • Die Joystick-Bewegung ist instabil, und die Punkteerkennung ist am schwierigsten
  • Einige Spiele werden ausgeschlossen, weil der Punktestand schwer erkennbar ist

Sparse rewards / Curiosity

  • RL ist schwach in Umgebungen mit spärlichen Belohnungen → Einsatz von intrinsischer Belohnung und künstlicher Neugier
  • Parallel wird untersucht, ob der Spielstand selbst anstelle einer Belohnung verwendet werden kann
  • Es gibt auch Versuche, menschliche Verhaltensmuster nachzubilden, etwa den Wechsel zwischen Spielen und das Aufrechterhalten von Interesse an neuen Spielen

Sequential multi-task learning

  • Das Problem des Vergessens in kontinuierlichen Lernumgebungen (catastrophic forgetting) ist weiterhin gravierend
  • Menschen erinnern sich an alte Fähigkeiten, doch aktuelle Modelle brechen beim erneuten Besuch früherer Spiele stark ein
  • Verbesserungen werden versucht durch Gedächtniserhalt, Anpassung der Lernrate und Gewichtssparsity
  • Task-IDs zu verwenden gilt als Schummeln, der Wechsel soll implizit erfolgen

Transfer Learning

  • Durch viele gelernte Spiele sollte das Lernen neuer Spiele schneller werden
  • OpenAIs Sonic-Challenge lief letztlich wieder auf Training from scratch hinaus
  • Bei GATO usw. tritt negativer Transfer (negative transfer) auf
  • Möglicherweise braucht es die Strategie: „Langsam lernen, um schnell zu lernen“
  • Vorschlag für einen neuen Benchmark: mehrere Spiele nacheinander wiederholt durchlaufen und dabei Scores bewerten

Plasticity vs generalization

  • Generalisierung bedeutet, etwas zu ignorieren, während Plastizität neue Muster erkennt → beides kann in Konflikt geraten
  • Generalisierung hat nur eine schwache theoretische Grundlage, etwa den inductive bias von CNNs
  • Die Wertfunktion im Reinforcement Learning ist ein Produkt der Generalisierung und sehr empfindlich

Exploration

  • Grenzen zufälliger Aktionswahl → ein einziger Fehler kann über das Überleben entscheiden
  • Versuche mit strukturierteren Action Spaces und confidence-basierten Policies
  • Auch zeitbasierte Aktionen müssen bedacht werden → Lernen bei 60fps ist sehr schwierig

Recurrence vs frame stacks

  • Bei Atari sind Frame-Stacks effektiv, aber rekurrente Strukturen ähneln dem Gehirn stärker
  • Transformer sind stark im Batch-Lernen, doch allgemeines rekurrentes Online-Lernen ist noch unvollendet

Funktionsapproximation-zentriertes Lernen

  • NNs übernehmen gleichzeitig Wertschätzung, Generalisierung, probabilistische Mittelung und Policy-Verbesserung
  • Alle Gewichts-Updates beeinflussen sämtliche Ausgabewerte
  • Die Kombination aus Initialisierung, Aktivierungsfunktion und Optimizer hat großen Einfluss auf die Leistung

Value representation

  • Das klassische Reward-Clamping aus DQN ist wirksam zur Stabilisierung des Lernens
  • Es gibt verschiedene Ansätze wie kategoriale Repräsentation, Nutzung von MSE und MuZeros Value-Kompression
  • Der Score-Bereich unterscheidet sich je nach Spiel, was beim Multitask-Lernen Probleme verursacht

Conv Nets

  • CNNs sind weiterhin die Grundarchitektur im RL
  • Große Bildnetzwerke verschlechtern die Leistung im RL (z. B. ConvNeXT)
  • Experimente mit veränderter Kernel-Struktur, Parameter Sharing und isotropen CNNs
  • DenseNet, Dilated CNN usw. verfolgen einen effizienten Informationsfluss
  • Versuche, CNNs nach biologischen Strukturen zu verbessern

1 Kommentare

 
GN⁺ 2025-05-24
Hacker-News-Kommentare
  • Jedes Mal, wenn ich einen Vortrag oder Text von Carmack sehe, möchte ich betonen, wie interessant das immer ist. Auch in diesen Notizen ist die Art beeindruckend, wie er seinen Denkprozess als Ingenieur sorgfältig dokumentiert. Ich war neugierig auf den Teil, in dem er sich als Forschungsrichtung auf Echtzeitlernen konzentriert. Ich verstehe Carmack so, dass er Online Learning in Echtzeit betreibt. Das ist eine spannende Herausforderung, bei der er gute Demos und seine Optimierungserfahrung ausspielen kann, aber wenn man die jüngsten Lehren und Forschungstrends betrachtet, denke ich, dass die Ergebnisse an Grenzen stoßen könnten, solange die Rechenressourcen für Echtzeit-Inferenz und -Lernen nicht vorhanden sind. Das Gehirn ist das einzige Beispiel, das Atari-Spiele löst, und selbst die Rechenleistung des menschlichen Gehirns wurde nie klar berechnet. In diesem Kontext frage ich mich ganz ehrlich, ob es nicht besser wäre, sich eher auf Lerneffizienz zu konzentrieren, statt absichtlich Echtzeitbeschränkungen zu setzen. Natürlich hat es viel Wert, innerhalb solcher Grenzen zu arbeiten, aber selbst Springspinnen lösen mit 100.000 Neuronen komplexe Probleme, also ist das schwer vorherzusagen

    • Als Carmack Anfang der 90er seine frühe Forschung zu 3D-Grafik und Echtzeit-Rendering machte, hätten workstationbasierte Offline-Experten wahrscheinlich ähnlich gedacht. Carmacks größte Stärke war immer seine Fähigkeit, unter begrenzten Ressourcen Extreme zu erreichen (id Software, Oculus, Armadillo Aerospace usw.). Wenn man in großen Organisationen oder an bestehende Technologien gebunden ist, hat man eher den Eindruck, dass die Ergebnisse sogar schlechter werden (ich vermute, deshalb ist er auch bei Bethesda-id und Meta gegangen). Ich verstehe Carmacks Stil, sich auf Echtzeit zu konzentrieren, und ich denke nicht, dass er im aktuellen AI-Boom den Ansatz mag, einfach nur mit Computing Power alles zu erzwingen. Zum Glück beschäftigt er sich nicht damit, Investorengeld in das Training von LLMs zu stecken. Im Idealfall würde er wie früher mit großartigen Kollegen Innovationen schaffen, indem er Spitzentechnologie für die breite Masse zugänglich macht (z. B. die Verbreitung von 3D-Grafik)

    • Um einen Satz aus den Vortragsnotizen zu zitieren: „Wenn du glaubst, dass bald eine AGI mit physischem Körper kommt, dann gib deinem tanzenden humanoiden Roboter einen Joystick und lass ihn ein völlig unbekanntes Videospiel lernen“ – ein Vorschlag, der einen Reality-Check nötig macht

    • Ich möchte betonen, dass Menschen und Tiere über enorme angeborene Fähigkeiten und Vorwissen verfügen, weshalb das Lernen neuer Dinge strukturell viel leichter ist. Das ist weniger ein Unterschied in der Rechenleistung als vielmehr ein anderer Ausgangspunkt des Lernens

    • Zur Meinung, dass die Rechenkapazität des menschlichen Gehirns unklar sei: Wenn man tatsächlich die Signalübertragungsgeschwindigkeit von Neuronen misst, gibt es eine Obergrenze für die Anzahl seriell verbundener Neuronen (etwa 100 Stufen), und daraus lässt sich schließen, dass die menschliche Kognition vielleicht weniger komplex ist als gedacht. Natürlich gibt es viel Parallelität und viele Feedback-Schleifen, aber wenn der AGI-Algorithmus irgendwann gefunden wird, könnte meiner Meinung nach eine „Mini“-Version entstehen, die 2025 auf gewöhnlicher Hardware in Echtzeit läuft

  • Sammlung relevanter Direktlinks:

  • Es gibt eine interessante Antwort von einem OpenAI-Insider, die ich teilen möchte: X-Link

    • Ehrlich gesagt eine ziemlich uninteressante Reaktion. Diese vage Haltung, die externe Meinungen ignoriert, ist ein typisches Zeichen akademischer Unsicherheit. Es gibt keine konkrete Erklärung oder Begründung, also hilft es der Diskussion nicht weiter. Bei „OpenAI-Insider“ gegen „John Carmack und Richard Sutton“ ist klar, auf welcher Seite ich stehe

    • Carmack hat direkt auf den Beitrag geantwortet: Carmacks Antwort

    • Manche Leute bewerten den gesamten Twitter-Thread, aber wer nicht eingeloggt ist, sieht nur den ersten Tweet, deshalb wirkt es wie eine bloße Abfuhr

    • Es ist schon lustig, wenn jemand sagt: „Ich habe eine Lektion gelernt“, aber dann nicht verrät, welche Lektion das eigentlich war

    • Als Scherz möchte ich zu dem Tweet „they will learn the same lesson I did“ hinzufügen: „Heißt das, man soll Altman nicht vertrauen?“

  • Als ich hörte, dass Carmack sich auf AI konzentrieren will, war ich wirklich gespannt. Ich warte darauf, dass das Video hochgeladen wird, und den Folien nach zu urteilen scheint er ein System gebaut zu haben, das Atari-Spiele spielen kann. Ich halte das für ein interessantes Projekt, frage mich aber, ob noch andere Papers oder Ergebnisse folgen werden

    • Atari-Spiele sind in der RL-Forschung weithin ein Standardbenchmark. Als Referenz: Arcade Learning Environment. Das Ziel ist die Entwicklung von Algorithmen, die auf verschiedene Aufgaben generalisieren können

    • Es gibt bereits viele Agenten, die Atari-Spiele durchspielen oder hohe Punktzahlen erreichen, aber das Feld hat noch einen weiten Weg vor sich. In meiner Masterarbeit habe ich Methoden untersucht, die mit wenig Interaktion lernen; auf reale Roboter angewandt könnte das verhindern, dass ein Roboter Hunderte Jahre lang laufen und hinfallen muss, um Verhalten zu lernen. Es gibt nur wenige Beispiele für Forschung zu höherer Generalisierung, also dazu, mehrere Videospiele zu lernen und neue Spiele ebenfalls intuitiv lernen zu können

    • Das Ziel dieses Projekts ist nicht einfach, Atari-Spiele zu „schaffen“, sondern eine allgemeine Methodik, die sich auf komplexere Spiele oder die physische Welt anwenden lässt. Aus Forschungssicht halte ich es aber für effizienter, die Atari-Umgebung in dieser Phase etwa für Echtzeitbedingungen zu modifizieren und damit zu testen, statt gleich komplexere Spiele einzuführen

    • Es ist großartig, dass es als Open Source veröffentlicht werden soll. Mit physischen Controllern und Kamera in Echtzeit auf einer Laptop-GPU zu spielen, ist frisch und ungewöhnlich, aber ich bin nicht sicher, ob das für sich genommen schon bahnbrechend ist. Wenn es bei Sample-Effizienz oder Generalisierung gegenüber bisheriger Forschung wirklich herausragend ist, wäre das erstaunlich

    • Mein Wunsch ist einfach, dass NPCs in Spielen intelligenter werden

  • Wie am Anfang der Folien angedeutet, finde ich es etwas schade, dass solche Forschung nicht in einer VR-Umgebung gemacht wurde. Wenn jemand die Fähigkeit hat, JPEG-Kamerafilter, Physiksimulation, Rauschen und sogar Roboter-Simulationsumgebungen gut in VR umzusetzen, dann ist Carmack der Richtige dafür. Echte Roboter zu verwenden ist in Bezug auf die Trainingszeit ein enormer Flaschenhals

  • Es bringt mich zum Nachdenken, warum AGI überhaupt einen physischen Körper haben müsste und warum wir uns wünschen, dass eine herausragende Intelligenz unser Auto fährt und unser Haus putzt. Eher scheint ein Szenario wie in Dan Simmons’ Roman Hyperion realistisch, in dem AGI in die Cloud verschwindet und Menschen weitgehend ignoriert

    • Das muss nicht für immer sein, und auch Menschen würden ihren Körper wohl jederzeit hinter sich lassen, wenn sie könnten. Dauerhaft an physische Schnittstellen gebunden zu sein, hat auch Nachteile

    • Ich denke, ein oft genannter Grund in der SF ist auch: „damit AGI nicht den Power-Knopf meines Körpers drücken kann“

  • Wenn ich über AGI nachdenke, habe ich das Gefühl, dass nicht einmal klar ist, was ein „Konzept“ überhaupt ist. Wir wissen immer noch nicht, was der Denkprozess ist, bei dem ein Konzept aus einem Bereich in einem anderen genutzt wird, oder wie das Gehirn Ideen kombiniert und abstrahiert

    • Wenn Dinge wiederholt auftauchen, geben wir ihnen Namen, und Konzepte sind wiederkehrende Denkmuster. Abstraktion, Beziehungen und Metaphern sind alles Werkzeuge, um Muster zwischen Domänen zu übertragen
  • Als eine Art Gedankenexperiment sollte man fragen: Wenn OpenAIs AGI wirklich unmittelbar bevorstünde, warum würde man dann Zeit und Geld darauf verwenden, das von Ive geführte Hardware-Startup zu übernehmen? Sie könnten stattdessen Robotik angehen, oder wenn es wirklich die ultimative AGI wäre, würden zahllose Unternehmen ohnehin anklopfen, um Hardware- und Softwarelizenzen zu erhalten, was für sich genommen unbegrenzte Einnahmen erzeugen könnte

    • AGI allein reicht nicht aus. Selbst wenn man AGI in ein ChatGPT-Interface steckt, müsste AGI „überall“ präsent sein, um tatsächlich Wirkung auf die reale Welt zu entfalten

    • Wenn sich ein Unternehmen der Entwicklung von AGI nähert, ist es auch gut möglich, dass es Informationen absichtlich zurückhält, um sich vor staatlicher oder militärischer Regulierung zu verbergen. Wer AGI zuerst erreicht, trägt ein hohes Risiko

    • Ich möchte die Richtung aufzeigen, dass AGI sogar Produktdesign übernehmen könnte

  • Ich denke, Carmack hat die richtige Forschungsrichtung gewählt. Wir müssen über das hinausgehen, was wie jetzt nur über Sprache gelernt wird. AI braucht Physikalität

    • AI mit vielfältigen Daten jenseits von Sprache ernsthaft zu trainieren, läuft tatsächlich schon seit einigen Jahren. Die neuesten Frontier-Modelle werden multimodal in einem Modell auf Text, Audio, Video und Bildern trainiert (Gemini, GPT-4o, Grok 3, Claude 3, Llama 4 usw.). Alle Eingaben werden tokenisiert und in einem gemeinsamen Embedding-Raum verarbeitet

    • Aus der Perspektive, dass AI Physikalität braucht, ist interessant, dass Carmack früher betont hatte, Simulationsumgebungen seien für AI-Entwicklung besser geeignet und physische Umgebungen in der Praxis ineffizient

    • Nvidia ist derselben Meinung. Jim Fan spricht über den „physischen Turing-Test“ und die Zukunft von embodied AI. Video von Jim Fans Vortrag. Auch dort wird betont, dass enorme Rechenressourcen nötig sind, um robuste Simulationsumgebungen zu betreiben

  • Die Formulierung „Ich war vorsichtig, weil ich neu in der Forschungsgemeinschaft bin“ scheint anzudeuten, dass eine Paper-Einreichung möglich ist

    • Es wird klargestellt, dass dieses Projekt kein Produktunternehmen ist, sondern ein Versuch für die Forschung