Überblick über DIAMOND 💎
- DIAMOND ist ein Reinforcement-Learning-Agent, der in einem Diffusions-Weltmodell trainiert wird.
- Dieses Modell behandelt visuelle Details in Spielumgebungen wie Atari als besonders wichtig.
- DIAMOND kann auch 3D-Umgebungen simulieren, zum Beispiel CounterStrike: Global Offensive (CSGO).
Forschungshintergrund und Motivation
- Weltmodelle sind ein vielversprechender Ansatz, um Reinforcement-Learning-Agenten sicher und effizient zu trainieren.
- Bestehende Weltmodelle modellieren die Umgebungsdynamik meist mithilfe von Sequenzen diskreter latenter Variablen.
- Eine solche Komprimierung kann jedoch visuelle Details übergehen, die für Reinforcement Learning wichtig sind.
- Diffusionsmodelle haben sich als führender Ansatz für die Bildgenerierung etabliert.
- DIAMOND wurde inspiriert von diesem Paradigmenwechsel entwickelt.
Leistung und Ergebnisse von DIAMOND
- DIAMOND erreicht im Atari-100k-Benchmark einen durchschnittlichen human-normalisierten Score von 1,46.
- Damit ist es der leistungsstärkste Agent, der innerhalb eines Weltmodells trainiert wurde.
- Der Code von DIAMOND ist auf GitHub öffentlich verfügbar.
Funktionsweise von DIAMOND
- Das Diffusionsmodell wird darauf trainiert, das nächste Frame des Spiels vorherzusagen.
- Dabei simuliert es die Reaktion der Umgebung unter Berücksichtigung der Aktionen des Agenten und vorheriger Frames.
- Die autoregressive Generierung hilft dem Agenten, das Spiel zu erlernen.
- Für ein schnelles Weltmodell muss die Anzahl der Denoising-Schritte reduziert werden.
- Auf DDPM basierende Modelle sind bei wenigen Denoising-Schritten instabil, während auf EDM basierende Modelle stabil bleiben.
Die Bedeutung visueller Details
- DIAMOND modelliert wichtige visuelle Details besser.
- Es erfasst visuelle Details besser als das auf diskreten Tokens basierende IRIS.
- Auf Atari 100k zeigt es eine um 46 % bessere Leistung als Menschen.
Zusammenfassung von GN⁺
- DIAMOND unterstreicht die Bedeutung visueller Details im Reinforcement Learning.
- Mit Diffusionsmodellen lassen sich visuelle Details besser erfassen.
- Es zeigt Leistungsverbesserungen in Spielen wie Atari und CSGO.
- Für Forschende in verwandten Bereichen kann es ein interessantes und nützliches Material sein.
- Projekte mit ähnlichen Funktionen sind unter anderem DreamerV2 und PlaNet.
1 Kommentare
Hacker-News-Kommentare
Ein Nutzer erwähnt, dass das verlinkte Video seinen Träumen sehr ähnlich sei, und erklärt, dass er eine ähnliche Erfahrung mache, wenn er im Traum versucht, hoch zu springen
Es wird erklärt, dass das 300M-Parameter-Modell mit einer GTX4090 über 12 Tage auf 5M Frames trainiert wurde
Es wird erwähnt, dass ein großes Tech-Unternehmen 2015 an etwas Ähnlichem gearbeitet habe
Es wird angemerkt, dass Arbeiten im industriellen Maßstab wie große LLMs ziemlich erstaunlich wären
Es wird erklärt, dass dies verwendet werden könnte, um in Game Engines realistische Physik-Näherungen zu erzeugen
Es wird die Frage aufgeworfen, ob jemand, der das tatsächlich ausprobiert hat, dabei eine Spielkarte aufbaut oder ob es eher eine seltsame halluzinatorische Erfahrung ist
Jemand behauptet, das Grundkonzept von Stable Diffusion zu verstehen, und fragt sich, ob es Forschung dazu gibt, dies auf der Ebene von 3D-Assets zu versuchen
Jemand wundert sich über Menschen, die das "Höllenrauschen" in NN-Bildern und -Videos nicht erkennen
Es wird auf Arbeiten von Schmidhubers Gruppe aus dem Jahr 2018 verwiesen und ein Link dazu geteilt
Es wird erwähnt, dass es interessant wäre, das Modell mit realem Filmmaterial zu trainieren, das mit aktuellem GTA zusammenhängt, um die Grafik älterer Spiele aufzuwerten
Jemand fragt sich, ob es eine Möglichkeit gibt, dies mit Sprachmodellen zu kombinieren, und argumentiert, dass Sprache auf Weltmodellen basieren sollte
Jemand hält Sprachmodelle für ineffizient und stellt sich ein als Strukturtechnik-Werkzeug trainiertes "Spiel" vor
Es wird erklärt, dass dieses Netzwerk Teil eines Systems sein könnte, das die Welt versteht und nützliche Handlungen vorhersagt oder Fragen beantwortet
Jemand fragt sich, wie dieses Modell mit starken Schleifen reagieren würde, wenn man neue Bilder oder Karten als Ausgangspunkt verwendet