Google DeepMind stellt das World Model Genie 3 vor

(deepmind.google)

14 Punkte von GN⁺ 2025-08-06 | 1 Kommentare | Auf WhatsApp teilen

Das erste universelle World Model, das allein aus Text-Prompts interaktive 3D-Umgebungen in Echtzeit erzeugt
Es ermöglicht 24 fps, 720p-Auflösung und über mehrere Minuten hinweg konsistentes Verhalten und verbessert gegenüber Genie 2 Interaktivität, Realismus und Persistenz deutlich
Es kann virtuelle Welten zu physikalischen Phänomenen, Ökosystemen, Animationen sowie historischen und geografischen Hintergründen natürlich und vielfältig erzeugen
Mit der Funktion Promptable world events können Nutzer dynamische Ereignisse wie Wetterwechsel oder das Hinzufügen von Objekten in Echtzeit per Text steuern
Es wurde für die Agentenforschung entwickelt und kann in Verbindung mit SIMA-Agenten langfristige Zielerreichung oder komplexe Verhaltenssequenzen testen

Genie 3: Eine Revolution der Weltsimulation

Hintergrund der Entwicklung von World Models

DeepMind gehört zu den Vorreitern bei der Erforschung von Simulationsumgebungen für AI-Agententraining, Open-Ended Learning und Robotik
Ein World Model ist ein AI-System, das Veränderungen in einer Umgebung und die Folgen von Agentenhandlungen vorhersagen und nachbilden kann, und gilt als wichtiger Zwischenschritt auf dem Weg zu AGI
Nach Genie 1 und 2 ist Genie 3 das erste World Model, das Echtzeit-Interaktivität und visuelle sowie physikalische Konsistenz zugleich bietet

Hauptfunktionen von Genie 3

Modellierung von Natur- und physikalischen Phänomenen
- Reale Naturphänomene wie Wasser, Licht und vielfältige Umgebungsinteraktionen werden allein durch Prompts natürlich umgesetzt
Komplexe Ökosysteme und Animationen
- Es kann die Dynamik von Ökosystemen wie Tierverhalten oder Pflanzenwachstum sowie fantasiebasierte animierte Welten erzeugen
Historische und geografische Hintergründe
- Vielfältige Räume jenseits geografischer und zeitlicher Grenzen lassen sich in Echtzeit als virtuelle Umgebungen aufbauen
Echtzeit-Interaktion und Steuerung
- Weltveränderungen als Reaktion auf Nutzereingaben werden sofort mit 24 fps und 720p visualisiert
- Frühere besuchte Orte und Zustände werden gespeichert, sodass über mehrere Minuten physikalische und visuelle Konsistenz erhalten bleibt
Promptable World Events
- Ereignisse für Umgebungsveränderungen wie Wetterwechsel oder das Hinzufügen von Objekten und Charakteren können per Text-Prompt in Echtzeit ausgelöst werden
- Neben Explorationskontrolle bietet dies ein breites Anwendungsspektrum, etwa für „Was-wäre-wenn“-Szenarien oder ungewöhnliche Situationen
Agentenforschung und Experimente
- Auf 3D-Umgebungen spezialisierte AI-Agenten wie SIMA können in den Welten von Genie 3 komplexe Ziele verfolgen und ihre Fähigkeit zur Ausführung langfristiger Sequenzen unter Beweis stellen
- Die Ziele der Agenten werden nicht an Genie 3 weitergegeben; Ergebnisse entstehen ausschließlich durch Verhaltenssequenzen und Weltsimulation

Technische Herausforderungen und Ergebnisse

Der Prozess der autoregressiven Erzeugung pro Frame erfordert anspruchsvolle Technik, da Nutzereingaben und vergangene Sequenzen gleichzeitig in Echtzeit berücksichtigt werden müssen
Anders als bei bisherigen Ansätzen wie NeRF oder Gaussian Splatting basiert Genie 3 rein auf Generierung ohne explizite 3D-Repräsentation und kann dadurch deutlich dynamischere und reichhaltigere Umgebungen erzeugen

Grenzen und Aufgaben

Begrenzter Handlungsumfang: Prompt-basierte Umgebungsveränderungen sind vielfältig, direkt ausführbare Handlungen aber noch eingeschränkt
Interaktion mehrerer Agenten: Die präzise Simulation von Interaktionen zwischen mehreren Agenten bleibt weiterhin ein Forschungsthema
Grenzen bei der Reproduktion realer Orte: Eine vollständig exakte Darstellung realer geografischer Räume wird nicht geboten
Grenzen beim Textrendering: Eine klare Textdarstellung ist nur möglich, wenn sie explizit eingegeben wird
Begrenzte Interaktionsdauer: Derzeit werden nur fortlaufende Interaktionen von einigen Minuten unterstützt

Verantwortung und Umfang der Veröffentlichung

Die Open-Ended- und Echtzeit-Generierungseigenschaften von Genie 3 bringen neue Sicherheits- und Ethikfragen mit sich, weshalb eng mit dem Responsible Development & Innovation Team zusammengearbeitet wird
Zunächst wird es nur einer begrenzten Gruppe von Forschern und Kreativen als Research Preview bereitgestellt; auf Basis von Feedback sind eine schrittweise Ausweitung und Maßnahmen zum Umgang mit Risiken geplant

Zukunft und Anwendungsperspektiven

Genie 3 eröffnet neue Möglichkeiten in Bereichen wie Bildung, Training, AI-Agententraining und Leistungsvalidierung
Es wird erwartet, dass es eine zentrale Rolle in der AGI-Forschung spielt und sicher in eine für die Menschheit nützliche Richtung weiterentwickelt wird

1 Kommentare

GN⁺ 2025-08-06

Hacker-News-Kommentare

Falls hier jemand in diesem Bereich arbeitet oder Fachwissen dazu hat, würde mich interessieren, ob jemand spekulieren kann, mit welchen Technologien, Architekturen, Systemdesigns und Compute-Anforderungen Genie 3 umgesetzt wurde. Derzeit gibt es nur wenige öffentliche Informationen, daher würde ich besonders gern hören, wie Fachleute in diesem Bereich einschätzen oder herleiten würden, wie es implementiert sein könnte
Dass man mehrere Minuten Konsistenz in Echtzeit bei 720p hinbekommen kann, liegt völlig außerhalb dessen, was ich erwartet hätte. Ich habe gehört, dass die Konsistenz von Genie 3 eine emergente Fähigkeit ist, die durch Skalierung des Modells entstanden ist. Also keine Architektur, die absichtlich verbessert wurde, sondern eher eine Leistung, die zufällig auftauchte, als das Modell größer wurde. Jemand, der es selbst ausprobiert hat, hat die Einschränkungen zusammengefasst (X-Link):
- Physiksimulation ist weiterhin schwierig, und bei intuitiven Physiktests aus der Psychologie (Blockstapeln usw.) gibt es klar erkennbare Fehlfälle
- Soziale Interaktion oder Situationen mit mehreren verflochtenen Agenten sind schwierig, und Spiele wie 1-gegen-1-Duelle funktionieren nicht gut
- Komplexe Anweisungen oder Spiellogik (Schlüssel sammeln und Türen öffnen usw.) funktionieren ebenfalls nicht gut
- Auch der Aktionsraum ist eingeschränkt
- Bis zu einer echten Game Engine ist es noch ein weiter Weg, aber es ist klar eine Gelegenheit, direkt einen Ausschnitt der Zukunft zu sehen Trotz dieser Grenzen vermittelt es den Eindruck, dass World Models künftig in der Robotik und bei KI für die reale Welt eine wichtigere Rolle spielen könnten als gedacht. Vielleicht lernen die Roboter der Zukunft im Traum
- Mich würde wirklich interessieren, wie Multiplayer nicht nur aus logistischer und technischer Sicht, sondern auch aus Gameplay-Perspektive möglich sein soll
- Games sind klar ein wichtiger Anwendungsfall, aber im Kern scheint es eher mit dem Ziel entwickelt worden zu sein, synthetic data generation für Googles Lagerroboter-Training zu ermöglichen. Dazu siehe den Artikel im Guardian und den HN-Post 4 Monate vor dem Launch von Gemini Robot
- Ich hätte nicht erwartet, dass der technische Fortschritt so schnell ist. Ich habe vor ein paar Monaten geschrieben, dass die Manipulation von World-Model-Output der nächste Schritt für AAA-Games sei (Blogpost), aber selbst damals dachte ich noch, dass es Jahre dauern würde. Ich habe gescherzt, dass Rockstar sich während der Entwicklung von GTA6 von World Models blenden lassen würde, aber inzwischen klingt das gar nicht mehr so abwegig. Wenn man sich den Fortschritt seit dem Auftauchen von GameNGen ansieht, könnte es sogar sein, dass das noch vor dem Release von GTA6 passiert
- Auf diesem Niveau könnte es visuell den reality gap zur echten Welt schließen und damit ein sehr gutes Tool für Robotik sein. Natürlich bleibt Physiksimulation weiterhin eine eigene Aufgabe
- Noch einmal ein Moment, in dem die bitter lesson zutrifft
Wirklich eine ermutigende Entwicklung, wahrscheinlich war das das, was Demis letzten Monat angeteasert hatte (entsprechender Tweet). Aus den veröffentlichten Clips lassen sich ein paar technische Details vermuten:
1. Es gibt ein Phänomen, bei dem Texturen alle 4 Frames „springen“; das deutet vermutlich auf ein VAE mit 4-facher zeitlicher Downskalierung hin, was mindestens 4 Frames Interaktionslatenz bedeuten würde (außer das VAE unterstützt Control Conditioning). Ich habe kein echtes Live-Video gesehen, aber in einer Szene werden Bildschirmaufnahme und Keyboard-B-Roll zusammengeschnitten gezeigt
2. Bei schneller Bewegung ist 16x16 Spatial Blocking zu sehen, daher liegt die Vermutung nahe, dass auch auf der Raumachse des VAE um 16x16 herunterskaliert wird. In Kombination mit dem ersten Punkt wären das 21.600 Tokens pro Sekunde, also etwa 1,3 Millionen Tokens pro Minute
3. Das erste Frame jedes Clips wirkt schärfer und weniger videospielartig als die folgenden Frames, daher scheint t2i (Text-to-Image) + i2w (Image-to-World) gemeinsam genutzt zu werden. t2i vermutlich auf allgemeinen Daten, i2w dagegen mit gelabelten Controls auf Gamedaten feinabgestimmt. Mit der Zeit steigen Kontrast und Sättigung tendenziell an, aber weniger stark als bei anderen autoregressiven Videomodellen (Beispielvideo)
- Zur Latenz: In diesem Echtzeit-Gameplay-Video wurde zwischen Tastendruck und Bewegung des Objekts etwa 1,1 Sekunden gemessen (rund 33 Frames bei 30fps). In einem Bericht eines Nutzers der Genie-3-Research-Preview hieß es, „es gibt etwas Steuerungsverzögerung, aber das liegt eher an der Infrastruktur, die den Service bereitstellt, als am Modell selbst“, daher dürfte viel der Latenz aus einer Client/Server-Streaming-Architektur stammen
Ich hoffe, sie legen mehr darüber offen, wie es funktioniert. Es wäre schon gut, wenigstens ein Paper für Forschende zu haben. Meine Vermutung ist, dass es ähnlich wie bestehende Videogenerierungsmodelle funktioniert, aber mit Inputs wie movement direction, viewangle usw. konditioniert wird. Ich denke, es sind absolute statt relative Inputs, und vielleicht ist auch eine teilweise state simulation enthalten (wobei das angesichts der Objektkollisionsphysik in den Demos vielleicht auch nicht stimmt, oder die up axis wird in 2D generiert). Es wirkt eindeutig so, als sei es auf Game-Engine-basierten Daten trainiert worden, weil Screen-Space-Reflection-Artefakte sichtbar sind. Vermutlich wurden auch Photogrammetrie-/Splat-basierte Daten ergänzt, und die Auflösung unrealistischer Elemente wirkt besonders niedrig. In den Demos gibt es auch auffällige Inkonsistenzen:
- Die Wingsuit-Szene wirkt von geringerer Bildqualität (vielleicht Initialisierung mit hochauflösendem Bild?)
- In der Garten-Demo scheint sich die Geometrie je nach Variation zu verändern. Der zweite Schlauch taucht nur in einer Version auf, als würde neue Geometrie beim ersten Betrachten improvisiert erzeugt
- In der Schul-Demo fällt ein Auto auf, das draußen vor dem Fenster nur halb vorhanden ist, und es treten wiederholte Muster auf (wenn ein Transformer zu wenige Parameter hat, entstehen oft unendliche Schleifenmuster; das könnte auch ein Zeichen für Skalierbarkeit sein. Zur Stabilität scheint wohl greedy sampling verwendet zu werden)
- In der Museumsszene gibt es seltsame Reflexionen an der Amethyst-Box, und der hintere Teil des Mammuts erscheint rechts am Rand der Box zunächst ohne Spiegelung und springt dann plötzlich heraus, wenn man durch die Box hindurchsieht. Auch die Stoßzahn-Reflexion taucht plötzlich auf, was nichts mit dem Fresnel-Effekt zu tun hat
Wirklich beeindruckend, aber es fehlen extrem viele Details. Ich stimme nicht zu, dass so etwas ohne eigenes Ausprobieren bedeutungslos sei, wie andere Kommentare meinen, aber es ist schon bemerkenswert, dass vor nur wenigen Jahren zu einer solchen Ankündigung zwingend ein Paper erschienen wäre. Jetzt gibt es Dinge wie bei einem Paper — Team, Demo, BibTeX-Citation usw. — aber kein echtes Teilen der Forschung. In Gesprächen mit Bekannten macht mir eher Sorge, dass die ökonomische Logik in kürzester Zeit von Forschungs-/Akademia-Modus zu „value extraction“ übergegangen ist, statt dass es einfach nur darum geht, was KI gerade leisten kann. Sich in Politik oder Wirtschaft auch nur indirekt darauf zu stützen, ist entsprechend riskant. Ich bin nicht grundsätzlich gegen Kommerzialisierung, aber wenn produktartige Ankündigungen im Paper-Stil gleichzeitig mit Warnungen von Mathematikern vor jüngsten Kürzungen bei der Förderung akademischer Forschung kommen, untergräbt das langfristig das Vertrauen
Es fällt mir immer noch schwer, mir vorzustellen, dass das prädiktive Erzeugen des „nächsten Pixels“ besser sein soll, als eine Szene wie bisher deterministisch aufzubauen und zu rendern. Man könnte zum Beispiel mit KI Texturen, Modelle und Bewegungssequenzen erzeugen und dann die Grafikkarte die Szene daraus rendern lassen, sodass der Nutzer das Wire-Modell, Texturen, Kameraposition usw. frei manipulieren kann
- Sobald ein bestimmtes Niveau an visueller Qualität nötig ist, kommt der Punkt, an dem die Vorhersage des „nächsten Pixels“ sogar billiger wird als klassisches Rendering. Ein Modell kann unendlich weit auf eine Oberfläche hineinzoomen und beschreiben (vorhersagen), was sich darin befindet. Dadurch entfallen einige technische Herausforderungen, die mit traditionellem Rendering schwer erreichbar sind
Das fühlt sich revolutionär an. Ich habe erwartet, dass es kommt, aber es direkt vor sich zu haben, ist trotzdem neu. Es gibt Grenzen, aber es ist ein Anfang. Bisher ging es in Game Engines vor allem darum, dass Ingenieure oder Entwickler Geometrie (Dreiecke usw.) pixelgenau positionieren; jetzt wirkt es eher so, als würde der Computer pro Frame direkt ein „Bild“ malen und ein Bild ausgeben, ganz ohne Dreiecksberechnung
Textrendering. Klarer und lesbarer Text kann meist nur erzeugt werden, wenn er in der Beschreibung der Eingabewelt enthalten ist Das erinnert mich daran, als Bild-KI früher keinen Text erzeugen konnte. Auch dieses Problem wurde bald gelöst, also scheint es nur eine Frage der Zeit zu sein
- Und die Qualität von gezeichneten Händen war auch mal mehr als zehnmal schlechter. Jetzt sind Hände, Text und Bilder besser geworden, also werden wir wohl wieder „Wo ist Walter?“ spielen, um Fehler zu finden. Irgendwann kommen dann vielleicht unendlich zoombare Videos mit AI-Wasserzeichen, die auf einem Drittel eines Pixels versteckt sind. Ich persönlich finde augmented video spannender. Runway und andere probieren Dinge im Stil von stormtrooper vlog aus, aber es ist viel zu teuer
- Das Textproblem ist noch nicht vollständig gelöst, auch wenn es klar viel besser geworden ist; selbst gpt-image-1 scheitert bei der Texterzeugung manchmal noch
- Prompt und erzeugter Tafelinhalte unterscheiden sich beim Vorhandensein eines Bindestrichs (-)
Das war die erste Präsentation seit Langem, bei der mein Realitätsempfinden mehrfach ins Wanken geraten ist. Wirklich mindblowing
Der Fortschritt bei generativer KI macht mich zunehmend deprimiert. Es fühlt sich an, als würde Kreativität immer schneller weggenommen. Wenn die Technik in diesem Zustand ein Werkzeug bliebe, das menschliches Schaffen unterstützt, wäre das okay, aber im Moment scheint sie eher auf vollständigen Ersatz abzuzielen. Natürlich kann man sagen: „Dann mach halt selbst Musik oder Bilder“, aber historisch entstehen Kunstwerke nicht nur für einen selbst, sondern im sozialen Kontext des Teilens mit anderen. Was bleibt uns am Ende also noch? Nur einfache Arbeit, die noch nicht automatisiert ist, und wenn selbst die automatisiert wird, weiß ich nicht, was Menschen noch bleibt. Steuern wir am Ende auf eine Zukunft zu, in der man dem Gehirn nur noch personalisierte Reize gibt, um Dopamin auszuschütten, bis es kaputtgeht (teilweise mit TikTok-artigen Dingen schon heute Realität)? Wenn alles automatisiert wird, frage ich mich, wie sich die wirtschaftliche Struktur dann überhaupt noch aufrechterhalten lässt. Vielleicht ist das eine mögliche Interpretation des Fermi-Paradoxons. Eine Welt, in der Technik so komplex wird, dass man sie selbst nicht mehr anfassen kann, selbst einfacher technischer Zugang verschwindet und Ressourcen irreversibel erschöpft sind. In so einer Situation frage ich mich, wie man überhaupt noch Sinn im Leben finden soll
- Für die Behauptung, Kunstwerke seien nicht ohne Publikum und ganz für einen selbst entstanden, gibt es unzählige Gegenbeispiele berühmter Schriftsteller, Maler und Künstler. Kafka ist ein typisches Beispiel, und viele wichtige Werke wurden erst nach dem Tod ihrer Schöpfer und gegen deren ausdrücklichen Willen entdeckt. Das entkräftet die übrigen Punkte nicht, aber Kunst hat immer auch für das Selbst existiert und wird das weiter tun
- Zu der Aussage „Ich kann die Behauptung derjenigen nicht akzeptieren, die sich freuen, in dieser Zeit zu leben“: Freude ist ein Gefühl und kein logischer Akt. Sie entsteht aus Hoffnung und Vorstellungskraft. Optimismus braucht keine Logik. Und die Frage nach dem Sinn des Lebens wurde nicht erst mit dem Aufkommen von LLMs gestellt; sie beschäftigt Menschen seit Jahrtausenden. Zum Beispiel fragt der Protagonist in der [Bhagavad Gita] Gott: „Warum soll ich handeln, wenn selbst das Ergebnis sinnlos ist?“, aber es bleibt eher eine meditative Auseinandersetzung als eine klare Antwort. Diese Frage begleitet die Menschheit schon lange vor künstlicher Intelligenz
- Es ist ähnlich wie heute, wo wir zum Überleben nicht mehr laufen oder schwere Dinge heben müssen und ohne Bewegung zunehmend schwächer werden. In Zukunft wird der Großteil der Menschen vielleicht nicht mehr denken, erschaffen oder forschen müssen, um seinen Lebensunterhalt zu sichern, und dadurch immer dümmer werden. Nur wenige werden ihr Gehirn weiter trainieren, aber auch sie werden am Ende nicht klüger sein können als Maschinen. So wie selbst Spitzensportler keine Maschinen schlagen können
- Schon in der Welt, in der wir heute leben, gibt es auf YouTube und Spotify jede Menge Musik von Leuten, die viel besser spielen können als ich. Deshalb sehe ich diese Veränderung als eine Fortsetzung davon
- Ich kann deiner Argumentation nicht zustimmen. Ich habe in meinem Leben Hunderte Songs geschrieben, ohne sie je mit jemandem zu teilen, und bei all meinen Musikerfreunden ist es genauso. Der kreative Akt ist von der Existenz eines Publikums getrennt. Tatsächlich ist es eher fast das Gegenteil. Und auch die Geschichte der Musikproduktion war eine Geschichte neuer Technologien, die die Einstiegshürden schrittweise gesenkt haben, während früher teure Ausrüstung den Zugang versperrte

Google DeepMind stellt das World Model Genie 3 vor

Genie 3: Eine Revolution der Weltsimulation

Hintergrund der Entwicklung von World Models

Hauptfunktionen von Genie 3

Modellierung von Natur- und physikalischen Phänomenen

Komplexe Ökosysteme und Animationen

Historische und geografische Hintergründe

Echtzeit-Interaktion und Steuerung

Promptable World Events

Agentenforschung und Experimente

Technische Herausforderungen und Ergebnisse

Grenzen und Aufgaben

Verantwortung und Umfang der Veröffentlichung

Zukunft und Anwendungsperspektiven

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare