Project Genie: Mit unendlichen und interaktiven Welten experimentieren

(blog.google)

6 Punkte von GN⁺ 2026-01-30 | 1 Kommentare | Auf WhatsApp teilen

Googles Project Genie ist ein experimenteller Forschungsprototyp, mit dem Nutzer mithilfe von Text und Bildern interaktive virtuelle Welten erzeugen, erkunden und remixen können
Es basiert auf dem Modell Genie 3 und erzeugt in Echtzeit Wege und Umgebungen entsprechend den Bewegungen der Nutzer
Es wird als Web-App angeboten; die Modelle Nano Banana Pro und Gemini sind integriert und unterstützen Funktionen zum Skizzieren, Erkunden und Remixen von Welten
Aufgrund der Grenzen des Modells hat die frühe Version Einschränkungen wie Unstimmigkeiten mit physikalischen Gesetzen, Verzögerungen bei der Charaktersteuerung und ein 60-Sekunden-Limit
Derzeit ist es für Google AI Ultra-Abonnenten in den USA (ab 18 Jahren) verfügbar; eine Ausweitung auf weitere Regionen ist geplant

Überblick über Project Genie

Project Genie ist ein experimenteller Forschungsprototyp von Google DeepMind auf Basis von Genie 3, der Nutzern eine Umgebung bietet, in der sie virtuelle Welten erstellen, erkunden und remixen können
- Verfügbar für Google AI Ultra-Abonnenten in den USA (ab 18 Jahren)
- Nutzer können über Text-Prompts und Bilder Welten erzeugen und sie in Echtzeit erkunden
Das Projekt ist ein erster Schritt, immersive Technologien zur Welterzeugung für allgemeine Nutzer zugänglich zu machen, und eine Erweiterung der Forschung zu World Models

Fortschritte bei World Models

World Models sind Systeme, die dynamische Veränderungen in Umgebungen simulieren und die Auswirkungen von Handlungen vorhersagen
Google DeepMind will über die Forschung an Agenten für spezifische Umgebungen wie Schach oder Go hinausgehen und AGI-Systeme entwickeln, die die Vielfalt der realen Welt erkunden können
Genie 3 erzeugt in Echtzeit Wege entsprechend der Bewegung der Nutzer und simuliert physische Interaktionen
- Es unterstützt die dynamische Erzeugung von Welten statt statischer 3D-Schnappschüsse
- Es kann in verschiedensten Szenarien eingesetzt werden, etwa in Robotik, Animation, Fiktion oder bei der Erkundung historischer Orte

So funktioniert Project Genie

Es handelt sich um einen webbasierten Prototyp, in den neben Genie 3 auch die Modelle Nano Banana Pro und Gemini integriert sind
Es besteht aus drei Kernfunktionen
1. World Sketching (Weltskizze)
- Mit Text und Bildern (generiert oder hochgeladen) lassen sich lebendige Umgebungen entwerfen
- Charaktere und Erkundungsweise können definiert werden; unterstützt werden verschiedene Fortbewegungsarten wie Gehen, Fliegen und Fahren
- Durch die Integration von Nano Banana Pro sind Vorschauen und Feinanpassungen der Welt möglich
- Es kann zwischen Ego- und Third-Person-Perspektive gewählt werden
2. World Exploration (Welterkundung)
- Die erzeugten Welten sind erkundbare Umgebungen, in denen entsprechend dem Verhalten der Nutzer in Echtzeit Wege erzeugt werden
- Während der Erkundung kann die Kameraperspektive angepasst werden
3. World Remixing (Welt-Remix)
- Auf Basis der Prompts bestehender Welten lassen sich neu interpretierte Welten rekonstruieren
- Über eine Galerie oder Zufallserkundung können Welten anderer Nutzer erkundet oder verändert werden
- Fertige Welten und der Erkundungsprozess können als Video heruntergeladen werden

Verantwortungsvolle KI-Entwicklung

Project Genie ist ein experimenteller Forschungsprototyp innerhalb von Google Labs und wird nach den Prinzipien verantwortungsvoller KI-Entwicklung betrieben
Aufgrund der aktuellen Grenzen des Modells werden folgende Einschränkungen genannt
- Die erzeugten Welten können von der Realität abweichen oder nicht mit Prompts bzw. physikalischen Gesetzen übereinstimmen
- Es kann zu Verzögerungen bei der Charaktersteuerung oder verminderter Reaktionsfähigkeit kommen
- Es gibt ein 60-Sekunden-Limit für die Generierung
Die im August 2025 angekündigte promptbasierte Ereignisänderungsfunktion ist noch nicht enthalten
Künftige Updates und Verbesserungen sollen auf der offiziellen DeepMind-Seite einsehbar sein

Zukunftspläne und Ausbau der Zugänglichkeit

Project Genie wurde auf Basis von gemeinsamer Forschung mit vertrauenswürdigen Testern entwickelt
Diese Veröffentlichung ist ein Schritt, um zu verstehen, wie Nutzer World Models tatsächlich einsetzen
Derzeit ist es nur für Google AI Ultra-Abonnenten in den USA verfügbar; eine Ausweitung auf weitere Regionen ist geplant
Google plant langfristig, Technologien zur Welterzeugung für mehr Nutzer zu öffnen

1 Kommentare

GN⁺ 2026-01-30

Hacker-News-Kommentare

In letzter Zeit muss ich ständig an Andy Clarks The Experience Machine denken
Die Theorie besagt, dass das menschliche Gehirn die Welt nicht direkt wahrnimmt, sondern die Realität als intern erzeugte Simulation erfährt, die durch Sinneseindrücke korrigiert wird
Anders gesagt: Wir leben in einem hochauflösenden generativen Modell, und die Sinne dienen dazu, die Fehlersignale dieses Modells anzupassen
So wie Genie 3 im latenten Raum das nächste Frame vorhersagt, versucht auch das menschliche Gehirn durch „Active Inference“, die Differenz zwischen Erwartung und tatsächlicher Erfahrung zu minimieren
Letztlich ist der Eindruck von Realität aus dieser Sicht keine direkte Aufzeichnung der Außenwelt, sondern eine fortlaufend korrigierte interaktive Simulation
- Neurologisch ist das bereits ein ziemlich etabliertes Konzept
  Träume kann man zum Beispiel als Fall sehen, in dem das interne Modell frei arbeitet, weil sensorische Eingaben blockiert sind
- Als passende Videos empfehle ich von kurzgesagt Why Your Brain Blinds You For 2 Hours Every Day und die dazugehörige Quellensammlung
- Auch Anil Seths Your Brain Hallucinates Your Conscious Reality geht in dieselbe Richtung
  Solche Themen werden schon lange auch in Philosophie und Religion behandelt, und ich finde spannend, dass das menschliche Bewusstsein Realität durch seine eigenen Projektionen konstruiert
- Die Nachbearbeitung von Smartphone-Fotos kann man als ähnliche Metapher sehen
  Irgendwann stellt sich die Frage, ab wann ein Bild kein Foto mehr ist, sondern ein berechnetes impressionistisches Werk
- Donald Hoffmans The Case Against Reality ist dazu ebenfalls lesenswert
Viele scheinen Genie fälschlich für ein bloßes Produkt für Spiele oder Filme zu halten
Das eigentliche Ziel ist aber, eine „Imagination Engine“ der nächsten Generation für AI und Robotik zu bauen, also ein Weltmodell, das Handlungsfolgen simuliert und so Entscheidungen unterstützt
- Da stimme ich zu. Über LLMs hieß es oft, sie hätten kein Weltmodell, und das wirkt wie der nächste Schritt darüber hinaus
  Ich stelle mir eine Struktur vor, die reale Videos mit einer bestimmten Framerate encodiert, die Imagination des Modells in realen Daten verankert, mögliche Handlungsszenarien verzweigt und bewertet und die beste Vorhersage dann an die Motorik weitergibt
  Das Timing wird nicht einfach, aber die grobe Richtung ist schon erkennbar
- Ich sehe das etwas anders. Wenn man echte Imagination will, braucht man nicht zwingend Video-Decoding
  Genie erzeugt Video als Schnittstelle, die Menschen verstehen und debuggen können
  Insofern ist der Zweck ein anderer: eher ein AI-Experimentierspiel für Forschende
- Aber diese Struktur ist viel zu teuer. Für Robotik braucht es vermutlich eine ganz andere Architektur
- Instagram war anfangs auch nur eine App zum Teilen von Fotos mit Freunden, heute ist es eine süchtig machende Plattform
  Wenn Genie mit VR kombiniert wird, könnte ein ähnlicher dystopischer Kipppunkt kommen
- Diese Art von Umgebungs-Mapping und AI-generierter Alternativausgabe ist letztlich das Holodeck-Konzept
  Trotzdem bevorzuge ich weiterhin die Gefahr und Lebendigkeit der Realität
Ich freue mich sehr, dass Genie veröffentlicht wurde
Es gibt schon interessante Videos von frühen Nutzern:
Stadterkundung, Helikopter-Simulation, Raumstation und Dunkin’ Donuts, Laptop-Simulation, Otter-Pilot
- Ich war auch als Early Tester dabei
  Ich habe verschiedene Welten gebaut: auf dem Mond spazieren, Holmes und Watson in der 221B Baker Street treffen oder einen riesigen Bubble Tea in einem Nachtmarkt von Taipeh erkunden
  Es gibt auch ein Demo-Video
  Noch ist es ein experimenteller Prototyp, aber es fühlt sich wie ein Hinweis auf die Zukunft an
- Technisch beeindruckend, aber es fehlt an Immersion
  Dass man mit ein paar Wörtern Unreal-5-Assets erzeugen kann, ist cool, aber so würde ich in der Praxis nicht spielen wollen
  Außerdem hätte ich keine Lust, die Rechenkosten pro Sekunde zu bezahlen
- Ich würde wirklich gern eine Version sehen, die das Zeitalter der Dinosaurier nachbildet
- Mich würde interessieren, was ihr von Project Genie haltet
Der eigentliche Durchbruch bei Genie ist, dass man sich umdrehen kann
Simulatoren anderer Forschungslabore konnten keine Konsistenz außerhalb des Sichtfelds aufrechterhalten, Genie löst genau das
- Ich habe gehört, dass Fei-Fei Lis Labor eine echte 3D-Welt erzeugt
  Allerdings dürfte dieser Ansatz bei der Darstellung von Animationen Einschränkungen haben
- Es überrascht mich, dass ML-Forschende erst jetzt die Notwendigkeit einer expliziten Cache-Struktur erkannt haben
- Dann frage ich mich, ob die Szene erhalten bleibt, wenn man eine Woche später an denselben Ort zurückkehrt
Es gibt ein Interviewvideo mit dem Project-Genie-Team
YouTube-Link
Genie ist ein Forschungsprototyp, mit dem sich in Echtzeit unendlich vielfältige fotorealistische Welten erzeugen, erkunden und interaktiv erleben lassen
Behandelt werden der Übergang von passiver Videogenerierung zu interaktiven Medien, die technischen Herausforderungen bei Weltkonsistenz und Memory-Erhalt sowie die Rolle als Trainingsumgebung für AI-Agenten
Je mehr ich solche Technik sehe, desto mehr möchte ich eigentlich Zeit in der realen Welt verbringen
Ich möchte den Bildschirm ausschalten und wieder die Dinge tun, die ich liebe
- Mir geht es genauso. In dem Moment, in dem ich jemanden im Video auf einer Tastatur tippen sah, überkam mich eine gewisse Bitterkeit
  Eine virtuelle Welt, die aus real gefilmten Szenen gemacht ist, löst eher Traurigkeit in mir aus
- Ich liebe AI, aber ich hoffe gerade solche Technik macht uns den Wert echter menschlicher Erfahrung wieder bewusster
- Ich habe mein ganzes Leben in der Tech-Branche gearbeitet, aber inzwischen möchte ich am liebsten einfach alles ausschalten
- Ironischerweise bringen mich solche Entwicklungen dazu, stärker an die Simulationshypothese zu glauben
  Vielleicht ist auch die Realität schon eine Simulation
- Der Himmel ist blau, die Sonne scheint, aber ich bin zu träge rauszugehen, also sollte ich vielleicht einfach eine Spaziergangs-Simulation starten
Das erinnert mich an ein früheres persönliches Projekt auf HN, das ein Weltmodell mit Parkvideos trainiert hat
Es gab auch eine interaktive Demo, und Genie wirkt wie die nächste Ausbaustufe dieser Idee
Schade, dass Blogs oder Indie-Demos in der Praxis kaum zitiert werden
- Stimmt, das Konzept ist ähnlich, aber der Größenunterschied ist extrem
  Das Parkmodell hatte 5 Millionen Parameter, wurde mit 15 Minuten Video trainiert und läuft sogar auf einem iPhone
  Genie 3 dagegen ist ein riesiges Modell mit zig Milliarden Parametern, trainiert auf Hunderten Millionen Stunden Video
  Inzwischen tauchen auch Modelle mittlerer Größe auf, daher dürfte eine lokale Ausführung auf Gaming-GPUs in ein bis zwei Jahren möglich sein
  Beispiele: LingBot-World, Waypoint 1
Das alles erinnert stark an das Thema des Films The Thirteenth Floor
Trailer-Link
Ich wünschte, jemand würde aus diesem GIF eine eigene Welt bauen
Ich frage mich schon lange, warum Meta (FB) bei Weltmodellen nicht offensiver vorgeht
Das ist doch eigentlich der Kern der Metaverse-Vision, und stattdessen hat man Yann LeCun ziehen lassen
- LeCun hat durch ausbleibende Ergebnisse und eine sture Forschungsrichtung intern für Brüche gesorgt
  Er hat sich nicht am LLM-Wettlauf beteiligt und stattdessen nur auf unbestätigte Theorien gesetzt
  Das Ergebnis war, dass Meta aus der Spitzengruppe in AI zurückfiel, während LeCun seinen Ruf weitgehend unbeschadet mitnahm
- Ich würde den Unterschied zwischen JEPA und Genie so erklären
  JEPA ist wie ein Romanautor, der zusammenfasst: „Ein Hund rennt auf den Briefträger zu.“
  Genie ist wie ein Maler, der die nächste Szene tatsächlich malen muss, damit die Geschichte existiert
  Mit anderen Worten: Genie erzeugt Frame für Frame, JEPA macht Vorhersagen auf Konzeptebene
- Stimme völlig zu. Weltmodelle sind die eigentliche Rettungschance für die Investments in Reality Labs
  Wenn sich das nicht produktisieren lässt, sollte man das Projekt insgesamt einstellen
- Über Fehlschläge wird nicht gesprochen. Es ist in Wirklichkeit unklar, worin Meta überhaupt investiert hat
- Grundsätzlich tragen Menschen VR-Headsets einfach nicht gern
  Selbst mit großartigen Inhalten bleibt das ein Nischenmarkt

Project Genie: Mit unendlichen und interaktiven Welten experimentieren

Überblick über Project Genie

Fortschritte bei World Models

So funktioniert Project Genie

1. World Sketching (Weltskizze)

2. World Exploration (Welterkundung)

3. World Remixing (Welt-Remix)

Verantwortungsvolle KI-Entwicklung

Zukunftspläne und Ausbau der Zugänglichkeit

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare