14 Punkte von GN⁺ 2025-08-06 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Das erste universelle World Model, das allein aus Text-Prompts interaktive 3D-Umgebungen in Echtzeit erzeugt
  • Es ermöglicht 24 fps, 720p-Auflösung und über mehrere Minuten hinweg konsistentes Verhalten und verbessert gegenüber Genie 2 Interaktivität, Realismus und Persistenz deutlich
  • Es kann virtuelle Welten zu physikalischen Phänomenen, Ökosystemen, Animationen sowie historischen und geografischen Hintergründen natürlich und vielfältig erzeugen
  • Mit der Funktion Promptable world events können Nutzer dynamische Ereignisse wie Wetterwechsel oder das Hinzufügen von Objekten in Echtzeit per Text steuern
  • Es wurde für die Agentenforschung entwickelt und kann in Verbindung mit SIMA-Agenten langfristige Zielerreichung oder komplexe Verhaltenssequenzen testen

Genie 3: Eine Revolution der Weltsimulation

Hintergrund der Entwicklung von World Models

  • DeepMind gehört zu den Vorreitern bei der Erforschung von Simulationsumgebungen für AI-Agententraining, Open-Ended Learning und Robotik
  • Ein World Model ist ein AI-System, das Veränderungen in einer Umgebung und die Folgen von Agentenhandlungen vorhersagen und nachbilden kann, und gilt als wichtiger Zwischenschritt auf dem Weg zu AGI
  • Nach Genie 1 und 2 ist Genie 3 das erste World Model, das Echtzeit-Interaktivität und visuelle sowie physikalische Konsistenz zugleich bietet

Hauptfunktionen von Genie 3

  • Modellierung von Natur- und physikalischen Phänomenen

    • Reale Naturphänomene wie Wasser, Licht und vielfältige Umgebungsinteraktionen werden allein durch Prompts natürlich umgesetzt
  • Komplexe Ökosysteme und Animationen

    • Es kann die Dynamik von Ökosystemen wie Tierverhalten oder Pflanzenwachstum sowie fantasiebasierte animierte Welten erzeugen
  • Historische und geografische Hintergründe

    • Vielfältige Räume jenseits geografischer und zeitlicher Grenzen lassen sich in Echtzeit als virtuelle Umgebungen aufbauen
  • Echtzeit-Interaktion und Steuerung

    • Weltveränderungen als Reaktion auf Nutzereingaben werden sofort mit 24 fps und 720p visualisiert
    • Frühere besuchte Orte und Zustände werden gespeichert, sodass über mehrere Minuten physikalische und visuelle Konsistenz erhalten bleibt
  • Promptable World Events

    • Ereignisse für Umgebungsveränderungen wie Wetterwechsel oder das Hinzufügen von Objekten und Charakteren können per Text-Prompt in Echtzeit ausgelöst werden
    • Neben Explorationskontrolle bietet dies ein breites Anwendungsspektrum, etwa für „Was-wäre-wenn“-Szenarien oder ungewöhnliche Situationen
  • Agentenforschung und Experimente

    • Auf 3D-Umgebungen spezialisierte AI-Agenten wie SIMA können in den Welten von Genie 3 komplexe Ziele verfolgen und ihre Fähigkeit zur Ausführung langfristiger Sequenzen unter Beweis stellen
    • Die Ziele der Agenten werden nicht an Genie 3 weitergegeben; Ergebnisse entstehen ausschließlich durch Verhaltenssequenzen und Weltsimulation

Technische Herausforderungen und Ergebnisse

  • Der Prozess der autoregressiven Erzeugung pro Frame erfordert anspruchsvolle Technik, da Nutzereingaben und vergangene Sequenzen gleichzeitig in Echtzeit berücksichtigt werden müssen
  • Anders als bei bisherigen Ansätzen wie NeRF oder Gaussian Splatting basiert Genie 3 rein auf Generierung ohne explizite 3D-Repräsentation und kann dadurch deutlich dynamischere und reichhaltigere Umgebungen erzeugen

Grenzen und Aufgaben

  • Begrenzter Handlungsumfang: Prompt-basierte Umgebungsveränderungen sind vielfältig, direkt ausführbare Handlungen aber noch eingeschränkt
  • Interaktion mehrerer Agenten: Die präzise Simulation von Interaktionen zwischen mehreren Agenten bleibt weiterhin ein Forschungsthema
  • Grenzen bei der Reproduktion realer Orte: Eine vollständig exakte Darstellung realer geografischer Räume wird nicht geboten
  • Grenzen beim Textrendering: Eine klare Textdarstellung ist nur möglich, wenn sie explizit eingegeben wird
  • Begrenzte Interaktionsdauer: Derzeit werden nur fortlaufende Interaktionen von einigen Minuten unterstützt

Verantwortung und Umfang der Veröffentlichung

  • Die Open-Ended- und Echtzeit-Generierungseigenschaften von Genie 3 bringen neue Sicherheits- und Ethikfragen mit sich, weshalb eng mit dem Responsible Development & Innovation Team zusammengearbeitet wird
  • Zunächst wird es nur einer begrenzten Gruppe von Forschern und Kreativen als Research Preview bereitgestellt; auf Basis von Feedback sind eine schrittweise Ausweitung und Maßnahmen zum Umgang mit Risiken geplant

Zukunft und Anwendungsperspektiven

  • Genie 3 eröffnet neue Möglichkeiten in Bereichen wie Bildung, Training, AI-Agententraining und Leistungsvalidierung
  • Es wird erwartet, dass es eine zentrale Rolle in der AGI-Forschung spielt und sicher in eine für die Menschheit nützliche Richtung weiterentwickelt wird

Noch keine Kommentare.

Noch keine Kommentare.