- Googles Project Genie ist ein experimenteller Forschungsprototyp, mit dem Nutzer mithilfe von Text und Bildern interaktive virtuelle Welten erzeugen, erkunden und remixen können
- Es basiert auf dem Modell Genie 3 und erzeugt in Echtzeit Wege und Umgebungen entsprechend den Bewegungen der Nutzer
- Es wird als Web-App angeboten; die Modelle Nano Banana Pro und Gemini sind integriert und unterstützen Funktionen zum Skizzieren, Erkunden und Remixen von Welten
- Aufgrund der Grenzen des Modells hat die frühe Version Einschränkungen wie Unstimmigkeiten mit physikalischen Gesetzen, Verzögerungen bei der Charaktersteuerung und ein 60-Sekunden-Limit
- Derzeit ist es für Google AI Ultra-Abonnenten in den USA (ab 18 Jahren) verfügbar; eine Ausweitung auf weitere Regionen ist geplant
Überblick über Project Genie
- Project Genie ist ein experimenteller Forschungsprototyp von Google DeepMind auf Basis von Genie 3, der Nutzern eine Umgebung bietet, in der sie virtuelle Welten erstellen, erkunden und remixen können
- Verfügbar für Google AI Ultra-Abonnenten in den USA (ab 18 Jahren)
- Nutzer können über Text-Prompts und Bilder Welten erzeugen und sie in Echtzeit erkunden
- Das Projekt ist ein erster Schritt, immersive Technologien zur Welterzeugung für allgemeine Nutzer zugänglich zu machen, und eine Erweiterung der Forschung zu World Models
Fortschritte bei World Models
- World Models sind Systeme, die dynamische Veränderungen in Umgebungen simulieren und die Auswirkungen von Handlungen vorhersagen
- Google DeepMind will über die Forschung an Agenten für spezifische Umgebungen wie Schach oder Go hinausgehen und AGI-Systeme entwickeln, die die Vielfalt der realen Welt erkunden können
- Genie 3 erzeugt in Echtzeit Wege entsprechend der Bewegung der Nutzer und simuliert physische Interaktionen
- Es unterstützt die dynamische Erzeugung von Welten statt statischer 3D-Schnappschüsse
- Es kann in verschiedensten Szenarien eingesetzt werden, etwa in Robotik, Animation, Fiktion oder bei der Erkundung historischer Orte
So funktioniert Project Genie
- Es handelt sich um einen webbasierten Prototyp, in den neben Genie 3 auch die Modelle Nano Banana Pro und Gemini integriert sind
- Es besteht aus drei Kernfunktionen
-
1. World Sketching (Weltskizze)
- Mit Text und Bildern (generiert oder hochgeladen) lassen sich lebendige Umgebungen entwerfen
- Charaktere und Erkundungsweise können definiert werden; unterstützt werden verschiedene Fortbewegungsarten wie Gehen, Fliegen und Fahren
- Durch die Integration von Nano Banana Pro sind Vorschauen und Feinanpassungen der Welt möglich
- Es kann zwischen Ego- und Third-Person-Perspektive gewählt werden
-
2. World Exploration (Welterkundung)
- Die erzeugten Welten sind erkundbare Umgebungen, in denen entsprechend dem Verhalten der Nutzer in Echtzeit Wege erzeugt werden
- Während der Erkundung kann die Kameraperspektive angepasst werden
-
3. World Remixing (Welt-Remix)
- Auf Basis der Prompts bestehender Welten lassen sich neu interpretierte Welten rekonstruieren
- Über eine Galerie oder Zufallserkundung können Welten anderer Nutzer erkundet oder verändert werden
- Fertige Welten und der Erkundungsprozess können als Video heruntergeladen werden
Verantwortungsvolle KI-Entwicklung
- Project Genie ist ein experimenteller Forschungsprototyp innerhalb von Google Labs und wird nach den Prinzipien verantwortungsvoller KI-Entwicklung betrieben
- Aufgrund der aktuellen Grenzen des Modells werden folgende Einschränkungen genannt
- Die erzeugten Welten können von der Realität abweichen oder nicht mit Prompts bzw. physikalischen Gesetzen übereinstimmen
- Es kann zu Verzögerungen bei der Charaktersteuerung oder verminderter Reaktionsfähigkeit kommen
- Es gibt ein 60-Sekunden-Limit für die Generierung
- Die im August 2025 angekündigte promptbasierte Ereignisänderungsfunktion ist noch nicht enthalten
- Künftige Updates und Verbesserungen sollen auf der offiziellen DeepMind-Seite einsehbar sein
Zukunftspläne und Ausbau der Zugänglichkeit
- Project Genie wurde auf Basis von gemeinsamer Forschung mit vertrauenswürdigen Testern entwickelt
- Diese Veröffentlichung ist ein Schritt, um zu verstehen, wie Nutzer World Models tatsächlich einsetzen
- Derzeit ist es nur für Google AI Ultra-Abonnenten in den USA verfügbar; eine Ausweitung auf weitere Regionen ist geplant
- Google plant langfristig, Technologien zur Welterzeugung für mehr Nutzer zu öffnen
1 Kommentare
Hacker-News-Kommentare
In letzter Zeit muss ich ständig an Andy Clarks The Experience Machine denken
Die Theorie besagt, dass das menschliche Gehirn die Welt nicht direkt wahrnimmt, sondern die Realität als intern erzeugte Simulation erfährt, die durch Sinneseindrücke korrigiert wird
Anders gesagt: Wir leben in einem hochauflösenden generativen Modell, und die Sinne dienen dazu, die Fehlersignale dieses Modells anzupassen
So wie Genie 3 im latenten Raum das nächste Frame vorhersagt, versucht auch das menschliche Gehirn durch „Active Inference“, die Differenz zwischen Erwartung und tatsächlicher Erfahrung zu minimieren
Letztlich ist der Eindruck von Realität aus dieser Sicht keine direkte Aufzeichnung der Außenwelt, sondern eine fortlaufend korrigierte interaktive Simulation
Träume kann man zum Beispiel als Fall sehen, in dem das interne Modell frei arbeitet, weil sensorische Eingaben blockiert sind
Solche Themen werden schon lange auch in Philosophie und Religion behandelt, und ich finde spannend, dass das menschliche Bewusstsein Realität durch seine eigenen Projektionen konstruiert
Irgendwann stellt sich die Frage, ab wann ein Bild kein Foto mehr ist, sondern ein berechnetes impressionistisches Werk
Viele scheinen Genie fälschlich für ein bloßes Produkt für Spiele oder Filme zu halten
Das eigentliche Ziel ist aber, eine „Imagination Engine“ der nächsten Generation für AI und Robotik zu bauen, also ein Weltmodell, das Handlungsfolgen simuliert und so Entscheidungen unterstützt
Ich stelle mir eine Struktur vor, die reale Videos mit einer bestimmten Framerate encodiert, die Imagination des Modells in realen Daten verankert, mögliche Handlungsszenarien verzweigt und bewertet und die beste Vorhersage dann an die Motorik weitergibt
Das Timing wird nicht einfach, aber die grobe Richtung ist schon erkennbar
Genie erzeugt Video als Schnittstelle, die Menschen verstehen und debuggen können
Insofern ist der Zweck ein anderer: eher ein AI-Experimentierspiel für Forschende
Wenn Genie mit VR kombiniert wird, könnte ein ähnlicher dystopischer Kipppunkt kommen
Trotzdem bevorzuge ich weiterhin die Gefahr und Lebendigkeit der Realität
Ich freue mich sehr, dass Genie veröffentlicht wurde
Es gibt schon interessante Videos von frühen Nutzern:
Stadterkundung, Helikopter-Simulation, Raumstation und Dunkin’ Donuts, Laptop-Simulation, Otter-Pilot
Ich habe verschiedene Welten gebaut: auf dem Mond spazieren, Holmes und Watson in der 221B Baker Street treffen oder einen riesigen Bubble Tea in einem Nachtmarkt von Taipeh erkunden
Es gibt auch ein Demo-Video
Noch ist es ein experimenteller Prototyp, aber es fühlt sich wie ein Hinweis auf die Zukunft an
Dass man mit ein paar Wörtern Unreal-5-Assets erzeugen kann, ist cool, aber so würde ich in der Praxis nicht spielen wollen
Außerdem hätte ich keine Lust, die Rechenkosten pro Sekunde zu bezahlen
Der eigentliche Durchbruch bei Genie ist, dass man sich umdrehen kann
Simulatoren anderer Forschungslabore konnten keine Konsistenz außerhalb des Sichtfelds aufrechterhalten, Genie löst genau das
Allerdings dürfte dieser Ansatz bei der Darstellung von Animationen Einschränkungen haben
Es gibt ein Interviewvideo mit dem Project-Genie-Team
YouTube-Link
Genie ist ein Forschungsprototyp, mit dem sich in Echtzeit unendlich vielfältige fotorealistische Welten erzeugen, erkunden und interaktiv erleben lassen
Behandelt werden der Übergang von passiver Videogenerierung zu interaktiven Medien, die technischen Herausforderungen bei Weltkonsistenz und Memory-Erhalt sowie die Rolle als Trainingsumgebung für AI-Agenten
Je mehr ich solche Technik sehe, desto mehr möchte ich eigentlich Zeit in der realen Welt verbringen
Ich möchte den Bildschirm ausschalten und wieder die Dinge tun, die ich liebe
Eine virtuelle Welt, die aus real gefilmten Szenen gemacht ist, löst eher Traurigkeit in mir aus
Vielleicht ist auch die Realität schon eine Simulation
Das erinnert mich an ein früheres persönliches Projekt auf HN, das ein Weltmodell mit Parkvideos trainiert hat
Es gab auch eine interaktive Demo, und Genie wirkt wie die nächste Ausbaustufe dieser Idee
Schade, dass Blogs oder Indie-Demos in der Praxis kaum zitiert werden
Das Parkmodell hatte 5 Millionen Parameter, wurde mit 15 Minuten Video trainiert und läuft sogar auf einem iPhone
Genie 3 dagegen ist ein riesiges Modell mit zig Milliarden Parametern, trainiert auf Hunderten Millionen Stunden Video
Inzwischen tauchen auch Modelle mittlerer Größe auf, daher dürfte eine lokale Ausführung auf Gaming-GPUs in ein bis zwei Jahren möglich sein
Beispiele: LingBot-World, Waypoint 1
Das alles erinnert stark an das Thema des Films The Thirteenth Floor
Trailer-Link
Ich wünschte, jemand würde aus diesem GIF eine eigene Welt bauen
Ich frage mich schon lange, warum Meta (FB) bei Weltmodellen nicht offensiver vorgeht
Das ist doch eigentlich der Kern der Metaverse-Vision, und stattdessen hat man Yann LeCun ziehen lassen
Er hat sich nicht am LLM-Wettlauf beteiligt und stattdessen nur auf unbestätigte Theorien gesetzt
Das Ergebnis war, dass Meta aus der Spitzengruppe in AI zurückfiel, während LeCun seinen Ruf weitgehend unbeschadet mitnahm
JEPA ist wie ein Romanautor, der zusammenfasst: „Ein Hund rennt auf den Briefträger zu.“
Genie ist wie ein Maler, der die nächste Szene tatsächlich malen muss, damit die Geschichte existiert
Mit anderen Worten: Genie erzeugt Frame für Frame, JEPA macht Vorhersagen auf Konzeptebene
Wenn sich das nicht produktisieren lässt, sollte man das Projekt insgesamt einstellen
Selbst mit großartigen Inhalten bleibt das ein Nischenmarkt