1 Punkte von GN⁺ 2024-08-29 | 1 Kommentare | Auf WhatsApp teilen

Diffusion Models Are Real-Time Game Engines

  • GameNGen: die erste von einem neuronalen Modell angetriebene Game-Engine, die hochwertige Echtzeit-Interaktionen mit komplexen Umgebungen ermöglicht
  • DOOM-Simulation: Kann das klassische Spiel DOOM interaktiv mit mehr als 20 Frames pro Sekunde auf einer einzelnen TPU simulieren
  • PSNR: Erreicht 29,4 PSNR bei der Vorhersage des nächsten Frames, vergleichbar mit verlustbehafteter JPEG-Komprimierung
  • Menschliche Bewerter: Menschliche Bewerter sind nur geringfügig besser als zufälliges Raten darin, Spielclips und Simulationsclips zu unterscheiden

Vollständiges Gameplay-Video

Datenerfassung durch Agenten-Spiel

  • Automatisierter RL-Agent: Da sich große Mengen menschlicher Gameplay-Daten nicht erfassen lassen, wurde im ersten Schritt ein automatisierter RL-Agent trainiert, das Spiel zu spielen. Aktionen und Beobachtungen aus diesen Trainingsepisoden wurden aufgezeichnet und als Trainingsdaten für das generative Modell verwendet

Training des generativen Diffusionsmodells

  • Stable Diffusion v1.4: Ein kleines Diffusionsmodell wird wiederverwendet, das auf Sequenzen vorheriger Aktionen und Beobachtungen (Frames) konditioniert ist
  • Hinzufügen von Gaußschem Rauschen: Während des Trainings wird den kodierten Frames Gaußsches Rauschen hinzugefügt, um die Kontext-Frames zu verfälschen, sodass das Netzwerk aus früheren Frames gesampelte Informationen korrigieren kann. Das ist wichtig, um die visuelle Stabilität über längere Zeiträume aufrechtzuerhalten

Feintuning des latenten Decoders

  • Vortrainierter Autoencoder von Stable Diffusion v1.4: Komprimiert 8x8-Pixel-Patches in 4 latente Kanäle, was bei der Vorhersage von Spiel-Frames zu spürbaren Artefakten führt. Das betrifft insbesondere kleine Details und die untere HUD-Leiste
  • Decoder-Training: Um die Bildqualität zu verbessern, wird nur der Decoder des latenten Autoencoders trainiert, wobei der MSE-Loss gegenüber den Pixeln des Zielframes berechnet wird

Zusammenfassung von GN⁺

  • GameNGen ist die erste Game-Engine, die neuronale Modelle verwendet, um in Echtzeit mit komplexen Spielumgebungen zu interagieren
  • Die DOOM-Simulation liefert eine hochwertige Frame-Vorhersage und ist so ausgereift, dass es selbst menschlichen Bewertern schwerfällt, echtes Gameplay von der Simulation zu unterscheiden
  • Durch die Wiederverwendung bestehender Modelle wie Stable Diffusion v1.4 wurde die Effizienz erhöht, während Techniken wie das Hinzufügen von Gaußschem Rauschen die visuelle Stabilität erhalten
  • Durch Feintuning des latenten Decoders wurde die Bildqualität verbessert, sodass Details in Spiel-Frames erhalten bleiben

1 Kommentare

 
GN⁺ 2024-08-29
Hacker-News-Kommentare
  • Das Diffusionsmodell von Google mit SD 1.4 enthält offenbar mehr Kausalität, Wirkung und Reihenfolge als erwartet

    • Ein Agent wurde Doom spielen gelassen, um unendlich viele Trainingsdaten zu erhalten
    • Dem Quellframe wurde gaußsches Rauschen hinzugefügt und der Agent wurde dafür belohnt, sequenzielle Frames zu „korrigieren“
    • Es ist wichtig, dem Modell beizubringen, Fehler zu korrigieren und Stabilität aufrechtzuerhalten
    • Es stellt sich die Frage, ob sich dieses Modell auf einen „fotorealistischen“ oder Raytracing-Stil feinabstimmen ließe
  • Dieses Paper beschreibt kein System, das Echtzeit-Benutzereingaben entgegennimmt und die Ausgabe entsprechend anpasst

    • Es wurde mit einem großen Datensatz trainiert, in dem ein Agent Doom spielt
    • Benutzereingaben werden nicht in Echtzeit in die Simulation übernommen
    • Im Paper fehlt eine Erklärung zum Echtzeit-Gameplay durch Benutzer
  • Erstaunlich ist, dass dieses Modell mit 20 fps rendern kann

    • Es wirkt wie ein Schnittpunkt aus Diffusionsmodellen und RNNs
    • Es ähnelt einem Modell, das von einem Spiel träumt, das es oft gespielt hat
    • Auch Menschen könnten Maschinen sein, die den nächsten Moment vorhersagen
  • Die Versuche, Doom auf allem laufen zu lassen, gehen weiter

    • Dieses Modell ist Doom mit den höchsten Hardware-Anforderungen
    • Doom befindet sich an beiden Enden der Hardware-Skala
  • Es ist amüsant, Kommentare zu lesen, die darauf hinweisen, dass das bedeutungslos sei

    • Nicht alles muss für Profit gemacht werden
    • Es ist auch wichtig, etwas zum Lernen, als Herausforderung und aus Neugier zu bauen
    • Zeit, die Freude bereitet, ist niemals verschwendet
  • Vergleich der Systemanforderungen von Doom und Stable Diffusion v1

    • Doom: 4 MB RAM, 12 MB Speicherplatz
    • Stable Diffusion v1: 860M UNet und CLIP ViT-L/14, Checkpoint-Größe 4,27 GB, läuft auf TPU-v5e
    • Obwohl das Modell genug Kapazität hat, um das Spiel Hunderte Male zu speichern, gibt es noch viel Raum für Optimierung
    • Wenn man ein Spiel weit genug automatisiert, kann man es replizieren
  • Die Aufgabe einer Game Engine ist es, die Welt zu rendern

    • Die Meldung „Diese Tür benötigt den blauen Schlüssel“ gibt dem Benutzer keinen blauen Schlüssel
    • Eine Game Engine kann neue Spiele erschaffen und die Regeln bestehender Spiele in Echtzeit ändern
    • Ein Diffusionsmodell ist keine Game Engine
  • Es wurde zwar keine Textkonditionierung bereitgestellt, aber es könnte möglich sein, allein mit Text-Prompts neue Spiele zu erschaffen

    • Mit RL wurde gelernt, wie Doom aussieht und funktioniert
    • Es dürfte schwierig sein, Open-World-Spiele mit unendlichen Zuständen zu simulieren