DeepMinds Genie 2: Ein groß angelegtes Foundation-World-Model

(deepmind.google)

5 Punkte von GN⁺ 2024-12-05 | 1 Kommentare | Auf WhatsApp teilen

Genie 2 ist ein Foundation-World-Model, das vielfältige 3D-Umgebungen erzeugt, die von Menschen oder AI-Agenten mit Tastatur und Maus gesteuert werden können.
Spiele spielen eine wichtige Rolle in der AI-Forschung, und Genie 2 ermöglicht es, Agenten in neuen Welten mit einem unendlichen Curriculum zu trainieren und zu evaluieren.
Funktionen
- Schnelles Prototyping: Genie 2 ermöglicht das schnelle Prototyping vielfältiger interaktiver Erfahrungen, sodass Forschende mit neuen Umgebungen experimentieren können.
- Agentenbereitstellung: Mit Genie 2 lassen sich schnell reichhaltige und vielfältige Umgebungen für AI-Agenten erzeugen.
- Modellarchitektur: Genie 2 wurde auf großen Video-Datensätzen trainiert und kann verschiedene Objektinteraktionen, komplexe Charakteranimationen, Physik und mehr modellieren.
- Verantwortungsvolle Entwicklung: Genie 2 zeigt das Potenzial von Foundation-World-Models, vielfältige 3D-Umgebungen zu erzeugen und die Agentenforschung zu beschleunigen.
Emergente Fähigkeiten
- Genie 2 kann vielfältige 3D-Welten erzeugen und dabei Objektinteraktionen, komplexe Charakteranimationen, Physik und mehr modellieren.
- Nutzer können eine Welt per Text beschreiben, ein Rendering dieser Idee auswählen und dann mit der neu erzeugten Welt interagieren.
- Verhaltenssteuerung: Genie 2 erkennt die Figur korrekt und bewegt sie entsprechend den Tastatureingaben.
- Verzweigte Erfahrungserzeugung: Vom selben Start-Frame aus können verschiedene Pfade erzeugt werden, um verzweigte Erfahrungen für das Agententraining zu simulieren.
- Langzeitgedächtnis: Genie 2 kann sich Teile der Welt merken, die außerhalb des Sichtfelds liegen, und sie korrekt rendern, wenn sie wieder sichtbar werden.
- Vielfältige Umgebungen: Genie 2 kann unterschiedliche Perspektiven erzeugen, darunter Ego-Perspektive, isometrische Ansicht und Third-Person-Fahrvideos.
- 3D-Struktur: Es kann komplexe 3D-visuelle Szenen erzeugen.
- Objektinteraktionen: Es kann vielfältige Objektinteraktionen modellieren, darunter das Platzen von Ballons, das Öffnen von Türen und das Abfeuern von Sprengstoffen.
- Charakteranimation: Es kann Figuren bei verschiedenen Aktivitäten animieren.
- NPCs: Es kann komplexe Interaktionen mit anderen Agenten modellieren.
- Physik: Es kann Wassereffekte, Raucheffekte, Schwerkraft, Beleuchtung und mehr modellieren.
- Spielen aus realen Bildern: Durch Prompts aus realen Bildern kann es fließendes Wasser in einem Pool oder vom Wind bewegtes Gras modellieren.
Schnelles Prototyping vielfältiger interaktiver Erfahrungen
- Genie 2 unterstützt dabei, neue Umgebungen schnell zu erproben und verkörperte AI-Agenten zu trainieren und zu testen.
  - Beispiel: Mit von Imagen 3 erzeugten Bildern lassen sich verschiedene Umweltsimulationen erstellen, in denen man Papierflugzeuge, Drachen, Falken oder Fallschirme steuert.
- Dank der Out-of-Distribution-Generalisierungsfähigkeit von Genie 2 lassen sich Concept Art und Zeichnungen in vollständige interaktive Umgebungen umwandeln.
  - Schnelles Prototyping hilft dabei, kreative Prozesse anzuschieben und das Umgebungsdesign zu beschleunigen.
Erzeugung von Evaluierungsumgebungen mit Genie 2
- Genie 2 kann schnell reichhaltige und vielfältige Umgebungen für AI-Agenten erzeugen.
  - Es erzeugt neue Evaluierungsaufgaben, denen die Agenten während des Trainings nicht begegnet sind, um sie zu testen.
- Der von DeepMind in Zusammenarbeit mit Spieleentwicklern entwickelte SIMA-Agent führt Aufgaben in 3D-Spielwelten auf Basis natürlichsprachlicher Anweisungen aus.
  - Genie 2 erzeugt per Einzelbild-Prompt eine 3D-Umgebung, und der SIMA-Agent interagiert über Tastatur- und Mauseingaben damit.
- Obwohl sich die Forschung noch in einem frühen Stadium befindet, wird erwartet, dass Genie 2 durch die Vielfalt und Allgemeingültigkeit seiner Trainingsumgebungen dazu beiträgt, Probleme beim sicheren Training verkörperter Agenten zu lösen.
- Durch generalisiertes Training von AI-Agenten schafft es eine Grundlage für Fortschritte in Richtung AGI (Artificial General Intelligence).
Diffusions-World-Model
- Genie 2 ist ein latentes Diffusionsmodell, das auf Basis großer Video-Datensätze trainiert wurde.
- Frames werden durch einen Autoencoder in einen latenten Raum umgewandelt und anschließend an ein auf Transformern basierendes dynamisches Modell übergeben.
- Beim Training wird eine kausale Maske verwendet, ähnlich wie bei Sprachmodellen.
- Autoregressive Inferenz
  - Bei der Inferenz sampelt Genie 2 vergangene latente Frames und Aktionsdaten Frame für Frame autoregressiv.
  - Zur Verbesserung der Steuerbarkeit durch Aktionen wird die Technik Classifier-Free Guidance eingesetzt.
- Genie 2 erzeugt effizient hochauflösende 3D-Umgebungen und erhält dabei die Steuerbarkeit durch Aktionen aufrecht.
- Durch die Kombination von Diffusionsmodellen und autoregressiven Ansätzen bietet es eine Technologie der nächsten Generation für immersive virtuelle Umgebungen.
Verantwortungsvolle Technologieentwicklung
- Genie 2 zeigt das Potenzial von Foundation-World-Models, vielfältige 3D-Umgebungen zu erzeugen und die Agentenforschung zu beschleunigen.

1 Kommentare

GN⁺ 2024-12-05

Hacker-News-Kommentare

Es ist interessant, wie groß dieses Modell ist, und es ist bedauerlich, dass technische Details fehlen. Zudem wird darauf hingewiesen, dass Googles Ansatz weiterhin geschlossen ist. Dennoch ist die Möglichkeit erstaunlich, eine Welt auf Basis von Fotos und Textbeschreibungen zu erkunden.
Es ist interessant, dass der Druck in Richtung Video- und Weltgenerierung weiter zunimmt. Es wird Interesse an einem Spiel mit unendlicher Story-Generierung geäußert und ein goldenes Zeitalter des interaktiven Storytellings in der Zukunft erwartet.
Es wird darauf hingewiesen, dass diese Technologie für die Spieleentwicklung möglicherweise nicht nützlich ist. In Spielen ist Interaktivität entscheidend, und Designer müssen tiefgreifende Kontrolle haben. Der Teil der Weltgenerierung wird als am nützlichsten angesehen.
Es wird betont, dass diese Technologie einen großen Fortschritt für AGI und Robotik bringen wird. Sie wird als Ausgangspunkt gesehen, um Maschinen Funktionen hinzuzufügen, die der Arbeitsweise des menschlichen Gehirns ähneln.
Es wird erklärt, dass das eigentliche Ziel der Forschung die Entwicklung eines Modells ist, das das menschliche Verständnis der 3D-Welt übertrifft. Dies wird zur Weiterentwicklung von Robotik und autonomen Fahrzeugen beitragen.
Es wird Enttäuschung darüber ausgedrückt, dass Genie2 die Details der Concept Art ignoriert. Kritisiert wird, dass die ursprünglich wunderschönen außerirdischen Kreaturen ignoriert werden.
Es wird erklärt, dass generative KI Flexibilität bietet, aber viel Rechenleistung erfordert. Zudem wird Neugier über die Rollen traditioneller Programmierung und generativer KI geäußert.
Der tatsächliche Wert dieser Technologie wird infrage gestellt. Als Probleme werden hohe Rechenkosten und unregelmäßiges Verhalten genannt.
In MS Edge funktionierte das Scrollen nicht, daher wurde Firefox verwendet, und es wird erwähnt, dass die visuelle Qualität des Videos nicht gut sei. Zudem wird hinterfragt, warum KI-Forscher versuchen, bestehende, gut funktionierende Systeme zu ersetzen.

DeepMinds Genie 2: Ein groß angelegtes Foundation-World-Model

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare