1 Punkte von GN⁺ 2024-10-14 | 1 Kommentare | Auf WhatsApp teilen

Überblick über DIAMOND 💎

  • DIAMOND ist ein Reinforcement-Learning-Agent, der in einem Diffusions-Weltmodell trainiert wird.
  • Dieses Modell behandelt visuelle Details in Spielumgebungen wie Atari als besonders wichtig.
  • DIAMOND kann auch 3D-Umgebungen simulieren, zum Beispiel CounterStrike: Global Offensive (CSGO).

Forschungshintergrund und Motivation

  • Weltmodelle sind ein vielversprechender Ansatz, um Reinforcement-Learning-Agenten sicher und effizient zu trainieren.
  • Bestehende Weltmodelle modellieren die Umgebungsdynamik meist mithilfe von Sequenzen diskreter latenter Variablen.
  • Eine solche Komprimierung kann jedoch visuelle Details übergehen, die für Reinforcement Learning wichtig sind.
  • Diffusionsmodelle haben sich als führender Ansatz für die Bildgenerierung etabliert.
  • DIAMOND wurde inspiriert von diesem Paradigmenwechsel entwickelt.

Leistung und Ergebnisse von DIAMOND

  • DIAMOND erreicht im Atari-100k-Benchmark einen durchschnittlichen human-normalisierten Score von 1,46.
  • Damit ist es der leistungsstärkste Agent, der innerhalb eines Weltmodells trainiert wurde.
  • Der Code von DIAMOND ist auf GitHub öffentlich verfügbar.

Funktionsweise von DIAMOND

  • Das Diffusionsmodell wird darauf trainiert, das nächste Frame des Spiels vorherzusagen.
  • Dabei simuliert es die Reaktion der Umgebung unter Berücksichtigung der Aktionen des Agenten und vorheriger Frames.
  • Die autoregressive Generierung hilft dem Agenten, das Spiel zu erlernen.
  • Für ein schnelles Weltmodell muss die Anzahl der Denoising-Schritte reduziert werden.
  • Auf DDPM basierende Modelle sind bei wenigen Denoising-Schritten instabil, während auf EDM basierende Modelle stabil bleiben.

Die Bedeutung visueller Details

  • DIAMOND modelliert wichtige visuelle Details besser.
  • Es erfasst visuelle Details besser als das auf diskreten Tokens basierende IRIS.
  • Auf Atari 100k zeigt es eine um 46 % bessere Leistung als Menschen.

Zusammenfassung von GN⁺

  • DIAMOND unterstreicht die Bedeutung visueller Details im Reinforcement Learning.
  • Mit Diffusionsmodellen lassen sich visuelle Details besser erfassen.
  • Es zeigt Leistungsverbesserungen in Spielen wie Atari und CSGO.
  • Für Forschende in verwandten Bereichen kann es ein interessantes und nützliches Material sein.
  • Projekte mit ähnlichen Funktionen sind unter anderem DreamerV2 und PlaNet.

1 Kommentare

 
GN⁺ 2024-10-14
Hacker-News-Kommentare
  • Ein Nutzer erwähnt, dass das verlinkte Video seinen Träumen sehr ähnlich sei, und erklärt, dass er eine ähnliche Erfahrung mache, wenn er im Traum versucht, hoch zu springen

  • Es wird erklärt, dass das 300M-Parameter-Modell mit einer GTX4090 über 12 Tage auf 5M Frames trainiert wurde

  • Es wird erwähnt, dass ein großes Tech-Unternehmen 2015 an etwas Ähnlichem gearbeitet habe

  • Es wird angemerkt, dass Arbeiten im industriellen Maßstab wie große LLMs ziemlich erstaunlich wären

  • Es wird erklärt, dass dies verwendet werden könnte, um in Game Engines realistische Physik-Näherungen zu erzeugen

    • Mit einer schweren Physics Engine Gameplay-Snippets erzeugen und das Modell darauf trainieren, die Physik zu approximieren
    • Es wird vorgeschlagen, dass es mehrere spezialisierte Physics Engines geben könnte
  • Es wird die Frage aufgeworfen, ob jemand, der das tatsächlich ausprobiert hat, dabei eine Spielkarte aufbaut oder ob es eher eine seltsame halluzinatorische Erfahrung ist

  • Jemand behauptet, das Grundkonzept von Stable Diffusion zu verstehen, und fragt sich, ob es Forschung dazu gibt, dies auf der Ebene von 3D-Assets zu versuchen

  • Jemand wundert sich über Menschen, die das "Höllenrauschen" in NN-Bildern und -Videos nicht erkennen

  • Es wird auf Arbeiten von Schmidhubers Gruppe aus dem Jahr 2018 verwiesen und ein Link dazu geteilt

  • Es wird erwähnt, dass es interessant wäre, das Modell mit realem Filmmaterial zu trainieren, das mit aktuellem GTA zusammenhängt, um die Grafik älterer Spiele aufzuwerten

  • Jemand fragt sich, ob es eine Möglichkeit gibt, dies mit Sprachmodellen zu kombinieren, und argumentiert, dass Sprache auf Weltmodellen basieren sollte

  • Jemand hält Sprachmodelle für ineffizient und stellt sich ein als Strukturtechnik-Werkzeug trainiertes "Spiel" vor

  • Es wird erklärt, dass dieses Netzwerk Teil eines Systems sein könnte, das die Welt versteht und nützliche Handlungen vorhersagt oder Fragen beantwortet

  • Jemand fragt sich, wie dieses Modell mit starken Schleifen reagieren würde, wenn man neue Bilder oder Karten als Ausgangspunkt verwendet