Diffusion Models Are Real-Time Game Engines
- GameNGen: die erste von einem neuronalen Modell angetriebene Game-Engine, die hochwertige Echtzeit-Interaktionen mit komplexen Umgebungen ermöglicht
- DOOM-Simulation: Kann das klassische Spiel DOOM interaktiv mit mehr als 20 Frames pro Sekunde auf einer einzelnen TPU simulieren
- PSNR: Erreicht 29,4 PSNR bei der Vorhersage des nächsten Frames, vergleichbar mit verlustbehafteter JPEG-Komprimierung
- Menschliche Bewerter: Menschliche Bewerter sind nur geringfügig besser als zufälliges Raten darin, Spielclips und Simulationsclips zu unterscheiden
Vollständiges Gameplay-Video
Datenerfassung durch Agenten-Spiel
- Automatisierter RL-Agent: Da sich große Mengen menschlicher Gameplay-Daten nicht erfassen lassen, wurde im ersten Schritt ein automatisierter RL-Agent trainiert, das Spiel zu spielen. Aktionen und Beobachtungen aus diesen Trainingsepisoden wurden aufgezeichnet und als Trainingsdaten für das generative Modell verwendet
Training des generativen Diffusionsmodells
- Stable Diffusion v1.4: Ein kleines Diffusionsmodell wird wiederverwendet, das auf Sequenzen vorheriger Aktionen und Beobachtungen (Frames) konditioniert ist
- Hinzufügen von Gaußschem Rauschen: Während des Trainings wird den kodierten Frames Gaußsches Rauschen hinzugefügt, um die Kontext-Frames zu verfälschen, sodass das Netzwerk aus früheren Frames gesampelte Informationen korrigieren kann. Das ist wichtig, um die visuelle Stabilität über längere Zeiträume aufrechtzuerhalten
Feintuning des latenten Decoders
- Vortrainierter Autoencoder von Stable Diffusion v1.4: Komprimiert 8x8-Pixel-Patches in 4 latente Kanäle, was bei der Vorhersage von Spiel-Frames zu spürbaren Artefakten führt. Das betrifft insbesondere kleine Details und die untere HUD-Leiste
- Decoder-Training: Um die Bildqualität zu verbessern, wird nur der Decoder des latenten Autoencoders trainiert, wobei der MSE-Loss gegenüber den Pixeln des Zielframes berechnet wird
Zusammenfassung von GN⁺
- GameNGen ist die erste Game-Engine, die neuronale Modelle verwendet, um in Echtzeit mit komplexen Spielumgebungen zu interagieren
- Die DOOM-Simulation liefert eine hochwertige Frame-Vorhersage und ist so ausgereift, dass es selbst menschlichen Bewertern schwerfällt, echtes Gameplay von der Simulation zu unterscheiden
- Durch die Wiederverwendung bestehender Modelle wie Stable Diffusion v1.4 wurde die Effizienz erhöht, während Techniken wie das Hinzufügen von Gaußschem Rauschen die visuelle Stabilität erhalten
- Durch Feintuning des latenten Decoders wurde die Bildqualität verbessert, sodass Details in Spiel-Frames erhalten bleiben
1 Kommentare
Hacker-News-Kommentare
Das Diffusionsmodell von Google mit SD 1.4 enthält offenbar mehr Kausalität, Wirkung und Reihenfolge als erwartet
Dieses Paper beschreibt kein System, das Echtzeit-Benutzereingaben entgegennimmt und die Ausgabe entsprechend anpasst
Erstaunlich ist, dass dieses Modell mit 20 fps rendern kann
Die Versuche, Doom auf allem laufen zu lassen, gehen weiter
Es ist amüsant, Kommentare zu lesen, die darauf hinweisen, dass das bedeutungslos sei
Vergleich der Systemanforderungen von Doom und Stable Diffusion v1
Die Aufgabe einer Game Engine ist es, die Welt zu rendern
Es wurde zwar keine Textkonditionierung bereitgestellt, aber es könnte möglich sein, allein mit Text-Prompts neue Spiele zu erschaffen