- Das erste universelle World Model, das allein aus Text-Prompts interaktive 3D-Umgebungen in Echtzeit erzeugt
- Es ermöglicht 24 fps, 720p-Auflösung und über mehrere Minuten hinweg konsistentes Verhalten und verbessert gegenüber Genie 2 Interaktivität, Realismus und Persistenz deutlich
- Es kann virtuelle Welten zu physikalischen Phänomenen, Ökosystemen, Animationen sowie historischen und geografischen Hintergründen natürlich und vielfältig erzeugen
- Mit der Funktion Promptable world events können Nutzer dynamische Ereignisse wie Wetterwechsel oder das Hinzufügen von Objekten in Echtzeit per Text steuern
- Es wurde für die Agentenforschung entwickelt und kann in Verbindung mit SIMA-Agenten langfristige Zielerreichung oder komplexe Verhaltenssequenzen testen
Genie 3: Eine Revolution der Weltsimulation
Hintergrund der Entwicklung von World Models
- DeepMind gehört zu den Vorreitern bei der Erforschung von Simulationsumgebungen für AI-Agententraining, Open-Ended Learning und Robotik
- Ein World Model ist ein AI-System, das Veränderungen in einer Umgebung und die Folgen von Agentenhandlungen vorhersagen und nachbilden kann, und gilt als wichtiger Zwischenschritt auf dem Weg zu AGI
- Nach Genie 1 und 2 ist Genie 3 das erste World Model, das Echtzeit-Interaktivität und visuelle sowie physikalische Konsistenz zugleich bietet
Hauptfunktionen von Genie 3
-
Modellierung von Natur- und physikalischen Phänomenen
- Reale Naturphänomene wie Wasser, Licht und vielfältige Umgebungsinteraktionen werden allein durch Prompts natürlich umgesetzt
-
Komplexe Ökosysteme und Animationen
- Es kann die Dynamik von Ökosystemen wie Tierverhalten oder Pflanzenwachstum sowie fantasiebasierte animierte Welten erzeugen
-
Historische und geografische Hintergründe
- Vielfältige Räume jenseits geografischer und zeitlicher Grenzen lassen sich in Echtzeit als virtuelle Umgebungen aufbauen
-
Echtzeit-Interaktion und Steuerung
- Weltveränderungen als Reaktion auf Nutzereingaben werden sofort mit 24 fps und 720p visualisiert
- Frühere besuchte Orte und Zustände werden gespeichert, sodass über mehrere Minuten physikalische und visuelle Konsistenz erhalten bleibt
-
Promptable World Events
- Ereignisse für Umgebungsveränderungen wie Wetterwechsel oder das Hinzufügen von Objekten und Charakteren können per Text-Prompt in Echtzeit ausgelöst werden
- Neben Explorationskontrolle bietet dies ein breites Anwendungsspektrum, etwa für „Was-wäre-wenn“-Szenarien oder ungewöhnliche Situationen
-
Agentenforschung und Experimente
- Auf 3D-Umgebungen spezialisierte AI-Agenten wie SIMA können in den Welten von Genie 3 komplexe Ziele verfolgen und ihre Fähigkeit zur Ausführung langfristiger Sequenzen unter Beweis stellen
- Die Ziele der Agenten werden nicht an Genie 3 weitergegeben; Ergebnisse entstehen ausschließlich durch Verhaltenssequenzen und Weltsimulation
Technische Herausforderungen und Ergebnisse
- Der Prozess der autoregressiven Erzeugung pro Frame erfordert anspruchsvolle Technik, da Nutzereingaben und vergangene Sequenzen gleichzeitig in Echtzeit berücksichtigt werden müssen
- Anders als bei bisherigen Ansätzen wie NeRF oder Gaussian Splatting basiert Genie 3 rein auf Generierung ohne explizite 3D-Repräsentation und kann dadurch deutlich dynamischere und reichhaltigere Umgebungen erzeugen
Grenzen und Aufgaben
- Begrenzter Handlungsumfang: Prompt-basierte Umgebungsveränderungen sind vielfältig, direkt ausführbare Handlungen aber noch eingeschränkt
- Interaktion mehrerer Agenten: Die präzise Simulation von Interaktionen zwischen mehreren Agenten bleibt weiterhin ein Forschungsthema
- Grenzen bei der Reproduktion realer Orte: Eine vollständig exakte Darstellung realer geografischer Räume wird nicht geboten
- Grenzen beim Textrendering: Eine klare Textdarstellung ist nur möglich, wenn sie explizit eingegeben wird
- Begrenzte Interaktionsdauer: Derzeit werden nur fortlaufende Interaktionen von einigen Minuten unterstützt
Verantwortung und Umfang der Veröffentlichung
- Die Open-Ended- und Echtzeit-Generierungseigenschaften von Genie 3 bringen neue Sicherheits- und Ethikfragen mit sich, weshalb eng mit dem Responsible Development & Innovation Team zusammengearbeitet wird
- Zunächst wird es nur einer begrenzten Gruppe von Forschern und Kreativen als Research Preview bereitgestellt; auf Basis von Feedback sind eine schrittweise Ausweitung und Maßnahmen zum Umgang mit Risiken geplant
Zukunft und Anwendungsperspektiven
- Genie 3 eröffnet neue Möglichkeiten in Bereichen wie Bildung, Training, AI-Agententraining und Leistungsvalidierung
- Es wird erwartet, dass es eine zentrale Rolle in der AGI-Forschung spielt und sicher in eine für die Menschheit nützliche Richtung weiterentwickelt wird
Noch keine Kommentare.