Google DeepMind stellt das World Model Genie 3 vor
(deepmind.google)- Das erste universelle World Model, das allein aus Text-Prompts interaktive 3D-Umgebungen in Echtzeit erzeugt
- Es ermöglicht 24 fps, 720p-Auflösung und über mehrere Minuten hinweg konsistentes Verhalten und verbessert gegenüber Genie 2 Interaktivität, Realismus und Persistenz deutlich
- Es kann virtuelle Welten zu physikalischen Phänomenen, Ökosystemen, Animationen sowie historischen und geografischen Hintergründen natürlich und vielfältig erzeugen
- Mit der Funktion Promptable world events können Nutzer dynamische Ereignisse wie Wetterwechsel oder das Hinzufügen von Objekten in Echtzeit per Text steuern
- Es wurde für die Agentenforschung entwickelt und kann in Verbindung mit SIMA-Agenten langfristige Zielerreichung oder komplexe Verhaltenssequenzen testen
Genie 3: Eine Revolution der Weltsimulation
Hintergrund der Entwicklung von World Models
- DeepMind gehört zu den Vorreitern bei der Erforschung von Simulationsumgebungen für AI-Agententraining, Open-Ended Learning und Robotik
- Ein World Model ist ein AI-System, das Veränderungen in einer Umgebung und die Folgen von Agentenhandlungen vorhersagen und nachbilden kann, und gilt als wichtiger Zwischenschritt auf dem Weg zu AGI
- Nach Genie 1 und 2 ist Genie 3 das erste World Model, das Echtzeit-Interaktivität und visuelle sowie physikalische Konsistenz zugleich bietet
Hauptfunktionen von Genie 3
-
Modellierung von Natur- und physikalischen Phänomenen
- Reale Naturphänomene wie Wasser, Licht und vielfältige Umgebungsinteraktionen werden allein durch Prompts natürlich umgesetzt
-
Komplexe Ökosysteme und Animationen
- Es kann die Dynamik von Ökosystemen wie Tierverhalten oder Pflanzenwachstum sowie fantasiebasierte animierte Welten erzeugen
-
Historische und geografische Hintergründe
- Vielfältige Räume jenseits geografischer und zeitlicher Grenzen lassen sich in Echtzeit als virtuelle Umgebungen aufbauen
-
Echtzeit-Interaktion und Steuerung
- Weltveränderungen als Reaktion auf Nutzereingaben werden sofort mit 24 fps und 720p visualisiert
- Frühere besuchte Orte und Zustände werden gespeichert, sodass über mehrere Minuten physikalische und visuelle Konsistenz erhalten bleibt
-
Promptable World Events
- Ereignisse für Umgebungsveränderungen wie Wetterwechsel oder das Hinzufügen von Objekten und Charakteren können per Text-Prompt in Echtzeit ausgelöst werden
- Neben Explorationskontrolle bietet dies ein breites Anwendungsspektrum, etwa für „Was-wäre-wenn“-Szenarien oder ungewöhnliche Situationen
-
Agentenforschung und Experimente
- Auf 3D-Umgebungen spezialisierte AI-Agenten wie SIMA können in den Welten von Genie 3 komplexe Ziele verfolgen und ihre Fähigkeit zur Ausführung langfristiger Sequenzen unter Beweis stellen
- Die Ziele der Agenten werden nicht an Genie 3 weitergegeben; Ergebnisse entstehen ausschließlich durch Verhaltenssequenzen und Weltsimulation
Technische Herausforderungen und Ergebnisse
- Der Prozess der autoregressiven Erzeugung pro Frame erfordert anspruchsvolle Technik, da Nutzereingaben und vergangene Sequenzen gleichzeitig in Echtzeit berücksichtigt werden müssen
- Anders als bei bisherigen Ansätzen wie NeRF oder Gaussian Splatting basiert Genie 3 rein auf Generierung ohne explizite 3D-Repräsentation und kann dadurch deutlich dynamischere und reichhaltigere Umgebungen erzeugen
Grenzen und Aufgaben
- Begrenzter Handlungsumfang: Prompt-basierte Umgebungsveränderungen sind vielfältig, direkt ausführbare Handlungen aber noch eingeschränkt
- Interaktion mehrerer Agenten: Die präzise Simulation von Interaktionen zwischen mehreren Agenten bleibt weiterhin ein Forschungsthema
- Grenzen bei der Reproduktion realer Orte: Eine vollständig exakte Darstellung realer geografischer Räume wird nicht geboten
- Grenzen beim Textrendering: Eine klare Textdarstellung ist nur möglich, wenn sie explizit eingegeben wird
- Begrenzte Interaktionsdauer: Derzeit werden nur fortlaufende Interaktionen von einigen Minuten unterstützt
Verantwortung und Umfang der Veröffentlichung
- Die Open-Ended- und Echtzeit-Generierungseigenschaften von Genie 3 bringen neue Sicherheits- und Ethikfragen mit sich, weshalb eng mit dem Responsible Development & Innovation Team zusammengearbeitet wird
- Zunächst wird es nur einer begrenzten Gruppe von Forschern und Kreativen als Research Preview bereitgestellt; auf Basis von Feedback sind eine schrittweise Ausweitung und Maßnahmen zum Umgang mit Risiken geplant
Zukunft und Anwendungsperspektiven
- Genie 3 eröffnet neue Möglichkeiten in Bereichen wie Bildung, Training, AI-Agententraining und Leistungsvalidierung
- Es wird erwartet, dass es eine zentrale Rolle in der AGI-Forschung spielt und sicher in eine für die Menschheit nützliche Richtung weiterentwickelt wird
1 Kommentare
Hacker-News-Kommentare
Falls hier jemand in diesem Bereich arbeitet oder Fachwissen dazu hat, würde mich interessieren, ob jemand spekulieren kann, mit welchen Technologien, Architekturen, Systemdesigns und Compute-Anforderungen Genie 3 umgesetzt wurde. Derzeit gibt es nur wenige öffentliche Informationen, daher würde ich besonders gern hören, wie Fachleute in diesem Bereich einschätzen oder herleiten würden, wie es implementiert sein könnte
Dass man mehrere Minuten Konsistenz in Echtzeit bei 720p hinbekommen kann, liegt völlig außerhalb dessen, was ich erwartet hätte. Ich habe gehört, dass die Konsistenz von Genie 3 eine emergente Fähigkeit ist, die durch Skalierung des Modells entstanden ist. Also keine Architektur, die absichtlich verbessert wurde, sondern eher eine Leistung, die zufällig auftauchte, als das Modell größer wurde. Jemand, der es selbst ausprobiert hat, hat die Einschränkungen zusammengefasst (X-Link):
Physiksimulation ist weiterhin schwierig, und bei intuitiven Physiktests aus der Psychologie (Blockstapeln usw.) gibt es klar erkennbare Fehlfälle
Soziale Interaktion oder Situationen mit mehreren verflochtenen Agenten sind schwierig, und Spiele wie 1-gegen-1-Duelle funktionieren nicht gut
Komplexe Anweisungen oder Spiellogik (Schlüssel sammeln und Türen öffnen usw.) funktionieren ebenfalls nicht gut
Auch der Aktionsraum ist eingeschränkt
Bis zu einer echten Game Engine ist es noch ein weiter Weg, aber es ist klar eine Gelegenheit, direkt einen Ausschnitt der Zukunft zu sehen Trotz dieser Grenzen vermittelt es den Eindruck, dass World Models künftig in der Robotik und bei KI für die reale Welt eine wichtigere Rolle spielen könnten als gedacht. Vielleicht lernen die Roboter der Zukunft im Traum
Mich würde wirklich interessieren, wie Multiplayer nicht nur aus logistischer und technischer Sicht, sondern auch aus Gameplay-Perspektive möglich sein soll
Games sind klar ein wichtiger Anwendungsfall, aber im Kern scheint es eher mit dem Ziel entwickelt worden zu sein, synthetic data generation für Googles Lagerroboter-Training zu ermöglichen. Dazu siehe den Artikel im Guardian und den HN-Post 4 Monate vor dem Launch von Gemini Robot
Ich hätte nicht erwartet, dass der technische Fortschritt so schnell ist. Ich habe vor ein paar Monaten geschrieben, dass die Manipulation von World-Model-Output der nächste Schritt für AAA-Games sei (Blogpost), aber selbst damals dachte ich noch, dass es Jahre dauern würde. Ich habe gescherzt, dass Rockstar sich während der Entwicklung von GTA6 von World Models blenden lassen würde, aber inzwischen klingt das gar nicht mehr so abwegig. Wenn man sich den Fortschritt seit dem Auftauchen von GameNGen ansieht, könnte es sogar sein, dass das noch vor dem Release von GTA6 passiert
Auf diesem Niveau könnte es visuell den reality gap zur echten Welt schließen und damit ein sehr gutes Tool für Robotik sein. Natürlich bleibt Physiksimulation weiterhin eine eigene Aufgabe
Noch einmal ein Moment, in dem die bitter lesson zutrifft
Wirklich eine ermutigende Entwicklung, wahrscheinlich war das das, was Demis letzten Monat angeteasert hatte (entsprechender Tweet). Aus den veröffentlichten Clips lassen sich ein paar technische Details vermuten:
Ich hoffe, sie legen mehr darüber offen, wie es funktioniert. Es wäre schon gut, wenigstens ein Paper für Forschende zu haben. Meine Vermutung ist, dass es ähnlich wie bestehende Videogenerierungsmodelle funktioniert, aber mit Inputs wie movement direction, viewangle usw. konditioniert wird. Ich denke, es sind absolute statt relative Inputs, und vielleicht ist auch eine teilweise state simulation enthalten (wobei das angesichts der Objektkollisionsphysik in den Demos vielleicht auch nicht stimmt, oder die up axis wird in 2D generiert). Es wirkt eindeutig so, als sei es auf Game-Engine-basierten Daten trainiert worden, weil Screen-Space-Reflection-Artefakte sichtbar sind. Vermutlich wurden auch Photogrammetrie-/Splat-basierte Daten ergänzt, und die Auflösung unrealistischer Elemente wirkt besonders niedrig. In den Demos gibt es auch auffällige Inkonsistenzen:
Wirklich beeindruckend, aber es fehlen extrem viele Details. Ich stimme nicht zu, dass so etwas ohne eigenes Ausprobieren bedeutungslos sei, wie andere Kommentare meinen, aber es ist schon bemerkenswert, dass vor nur wenigen Jahren zu einer solchen Ankündigung zwingend ein Paper erschienen wäre. Jetzt gibt es Dinge wie bei einem Paper — Team, Demo, BibTeX-Citation usw. — aber kein echtes Teilen der Forschung. In Gesprächen mit Bekannten macht mir eher Sorge, dass die ökonomische Logik in kürzester Zeit von Forschungs-/Akademia-Modus zu „value extraction“ übergegangen ist, statt dass es einfach nur darum geht, was KI gerade leisten kann. Sich in Politik oder Wirtschaft auch nur indirekt darauf zu stützen, ist entsprechend riskant. Ich bin nicht grundsätzlich gegen Kommerzialisierung, aber wenn produktartige Ankündigungen im Paper-Stil gleichzeitig mit Warnungen von Mathematikern vor jüngsten Kürzungen bei der Förderung akademischer Forschung kommen, untergräbt das langfristig das Vertrauen
Es fällt mir immer noch schwer, mir vorzustellen, dass das prädiktive Erzeugen des „nächsten Pixels“ besser sein soll, als eine Szene wie bisher deterministisch aufzubauen und zu rendern. Man könnte zum Beispiel mit KI Texturen, Modelle und Bewegungssequenzen erzeugen und dann die Grafikkarte die Szene daraus rendern lassen, sodass der Nutzer das Wire-Modell, Texturen, Kameraposition usw. frei manipulieren kann
Das fühlt sich revolutionär an. Ich habe erwartet, dass es kommt, aber es direkt vor sich zu haben, ist trotzdem neu. Es gibt Grenzen, aber es ist ein Anfang. Bisher ging es in Game Engines vor allem darum, dass Ingenieure oder Entwickler Geometrie (Dreiecke usw.) pixelgenau positionieren; jetzt wirkt es eher so, als würde der Computer pro Frame direkt ein „Bild“ malen und ein Bild ausgeben, ganz ohne Dreiecksberechnung
Und die Qualität von gezeichneten Händen war auch mal mehr als zehnmal schlechter. Jetzt sind Hände, Text und Bilder besser geworden, also werden wir wohl wieder „Wo ist Walter?“ spielen, um Fehler zu finden. Irgendwann kommen dann vielleicht unendlich zoombare Videos mit AI-Wasserzeichen, die auf einem Drittel eines Pixels versteckt sind. Ich persönlich finde augmented video spannender. Runway und andere probieren Dinge im Stil von stormtrooper vlog aus, aber es ist viel zu teuer
Das Textproblem ist noch nicht vollständig gelöst, auch wenn es klar viel besser geworden ist; selbst gpt-image-1 scheitert bei der Texterzeugung manchmal noch
Prompt und erzeugter Tafelinhalte unterscheiden sich beim Vorhandensein eines Bindestrichs (-)
Das war die erste Präsentation seit Langem, bei der mein Realitätsempfinden mehrfach ins Wanken geraten ist. Wirklich mindblowing
Der Fortschritt bei generativer KI macht mich zunehmend deprimiert. Es fühlt sich an, als würde Kreativität immer schneller weggenommen. Wenn die Technik in diesem Zustand ein Werkzeug bliebe, das menschliches Schaffen unterstützt, wäre das okay, aber im Moment scheint sie eher auf vollständigen Ersatz abzuzielen. Natürlich kann man sagen: „Dann mach halt selbst Musik oder Bilder“, aber historisch entstehen Kunstwerke nicht nur für einen selbst, sondern im sozialen Kontext des Teilens mit anderen. Was bleibt uns am Ende also noch? Nur einfache Arbeit, die noch nicht automatisiert ist, und wenn selbst die automatisiert wird, weiß ich nicht, was Menschen noch bleibt. Steuern wir am Ende auf eine Zukunft zu, in der man dem Gehirn nur noch personalisierte Reize gibt, um Dopamin auszuschütten, bis es kaputtgeht (teilweise mit TikTok-artigen Dingen schon heute Realität)? Wenn alles automatisiert wird, frage ich mich, wie sich die wirtschaftliche Struktur dann überhaupt noch aufrechterhalten lässt. Vielleicht ist das eine mögliche Interpretation des Fermi-Paradoxons. Eine Welt, in der Technik so komplex wird, dass man sie selbst nicht mehr anfassen kann, selbst einfacher technischer Zugang verschwindet und Ressourcen irreversibel erschöpft sind. In so einer Situation frage ich mich, wie man überhaupt noch Sinn im Leben finden soll
Für die Behauptung, Kunstwerke seien nicht ohne Publikum und ganz für einen selbst entstanden, gibt es unzählige Gegenbeispiele berühmter Schriftsteller, Maler und Künstler. Kafka ist ein typisches Beispiel, und viele wichtige Werke wurden erst nach dem Tod ihrer Schöpfer und gegen deren ausdrücklichen Willen entdeckt. Das entkräftet die übrigen Punkte nicht, aber Kunst hat immer auch für das Selbst existiert und wird das weiter tun
Zu der Aussage „Ich kann die Behauptung derjenigen nicht akzeptieren, die sich freuen, in dieser Zeit zu leben“: Freude ist ein Gefühl und kein logischer Akt. Sie entsteht aus Hoffnung und Vorstellungskraft. Optimismus braucht keine Logik. Und die Frage nach dem Sinn des Lebens wurde nicht erst mit dem Aufkommen von LLMs gestellt; sie beschäftigt Menschen seit Jahrtausenden. Zum Beispiel fragt der Protagonist in der [Bhagavad Gita] Gott: „Warum soll ich handeln, wenn selbst das Ergebnis sinnlos ist?“, aber es bleibt eher eine meditative Auseinandersetzung als eine klare Antwort. Diese Frage begleitet die Menschheit schon lange vor künstlicher Intelligenz
Es ist ähnlich wie heute, wo wir zum Überleben nicht mehr laufen oder schwere Dinge heben müssen und ohne Bewegung zunehmend schwächer werden. In Zukunft wird der Großteil der Menschen vielleicht nicht mehr denken, erschaffen oder forschen müssen, um seinen Lebensunterhalt zu sichern, und dadurch immer dümmer werden. Nur wenige werden ihr Gehirn weiter trainieren, aber auch sie werden am Ende nicht klüger sein können als Maschinen. So wie selbst Spitzensportler keine Maschinen schlagen können
Schon in der Welt, in der wir heute leben, gibt es auf YouTube und Spotify jede Menge Musik von Leuten, die viel besser spielen können als ich. Deshalb sehe ich diese Veränderung als eine Fortsetzung davon
Ich kann deiner Argumentation nicht zustimmen. Ich habe in meinem Leben Hunderte Songs geschrieben, ohne sie je mit jemandem zu teilen, und bei all meinen Musikerfreunden ist es genauso. Der kreative Akt ist von der Existenz eines Publikums getrennt. Tatsächlich ist es eher fast das Gegenteil. Und auch die Geschichte der Musikproduktion war eine Geschichte neuer Technologien, die die Einstiegshürden schrittweise gesenkt haben, während früher teure Ausrüstung den Zugang versperrte