6 Punkte von GN⁺ 2026-01-30 | 1 Kommentare | Auf WhatsApp teilen
  • Googles Project Genie ist ein experimenteller Forschungsprototyp, mit dem Nutzer mithilfe von Text und Bildern interaktive virtuelle Welten erzeugen, erkunden und remixen können
  • Es basiert auf dem Modell Genie 3 und erzeugt in Echtzeit Wege und Umgebungen entsprechend den Bewegungen der Nutzer
  • Es wird als Web-App angeboten; die Modelle Nano Banana Pro und Gemini sind integriert und unterstützen Funktionen zum Skizzieren, Erkunden und Remixen von Welten
  • Aufgrund der Grenzen des Modells hat die frühe Version Einschränkungen wie Unstimmigkeiten mit physikalischen Gesetzen, Verzögerungen bei der Charaktersteuerung und ein 60-Sekunden-Limit
  • Derzeit ist es für Google AI Ultra-Abonnenten in den USA (ab 18 Jahren) verfügbar; eine Ausweitung auf weitere Regionen ist geplant

Überblick über Project Genie

  • Project Genie ist ein experimenteller Forschungsprototyp von Google DeepMind auf Basis von Genie 3, der Nutzern eine Umgebung bietet, in der sie virtuelle Welten erstellen, erkunden und remixen können
    • Verfügbar für Google AI Ultra-Abonnenten in den USA (ab 18 Jahren)
    • Nutzer können über Text-Prompts und Bilder Welten erzeugen und sie in Echtzeit erkunden
  • Das Projekt ist ein erster Schritt, immersive Technologien zur Welterzeugung für allgemeine Nutzer zugänglich zu machen, und eine Erweiterung der Forschung zu World Models

Fortschritte bei World Models

  • World Models sind Systeme, die dynamische Veränderungen in Umgebungen simulieren und die Auswirkungen von Handlungen vorhersagen
  • Google DeepMind will über die Forschung an Agenten für spezifische Umgebungen wie Schach oder Go hinausgehen und AGI-Systeme entwickeln, die die Vielfalt der realen Welt erkunden können
  • Genie 3 erzeugt in Echtzeit Wege entsprechend der Bewegung der Nutzer und simuliert physische Interaktionen
    • Es unterstützt die dynamische Erzeugung von Welten statt statischer 3D-Schnappschüsse
    • Es kann in verschiedensten Szenarien eingesetzt werden, etwa in Robotik, Animation, Fiktion oder bei der Erkundung historischer Orte

So funktioniert Project Genie

  • Es handelt sich um einen webbasierten Prototyp, in den neben Genie 3 auch die Modelle Nano Banana Pro und Gemini integriert sind
  • Es besteht aus drei Kernfunktionen
  • 1. World Sketching (Weltskizze)

    • Mit Text und Bildern (generiert oder hochgeladen) lassen sich lebendige Umgebungen entwerfen
    • Charaktere und Erkundungsweise können definiert werden; unterstützt werden verschiedene Fortbewegungsarten wie Gehen, Fliegen und Fahren
    • Durch die Integration von Nano Banana Pro sind Vorschauen und Feinanpassungen der Welt möglich
    • Es kann zwischen Ego- und Third-Person-Perspektive gewählt werden
  • 2. World Exploration (Welterkundung)

    • Die erzeugten Welten sind erkundbare Umgebungen, in denen entsprechend dem Verhalten der Nutzer in Echtzeit Wege erzeugt werden
    • Während der Erkundung kann die Kameraperspektive angepasst werden
  • 3. World Remixing (Welt-Remix)

    • Auf Basis der Prompts bestehender Welten lassen sich neu interpretierte Welten rekonstruieren
    • Über eine Galerie oder Zufallserkundung können Welten anderer Nutzer erkundet oder verändert werden
    • Fertige Welten und der Erkundungsprozess können als Video heruntergeladen werden

Verantwortungsvolle KI-Entwicklung

  • Project Genie ist ein experimenteller Forschungsprototyp innerhalb von Google Labs und wird nach den Prinzipien verantwortungsvoller KI-Entwicklung betrieben
  • Aufgrund der aktuellen Grenzen des Modells werden folgende Einschränkungen genannt
    • Die erzeugten Welten können von der Realität abweichen oder nicht mit Prompts bzw. physikalischen Gesetzen übereinstimmen
    • Es kann zu Verzögerungen bei der Charaktersteuerung oder verminderter Reaktionsfähigkeit kommen
    • Es gibt ein 60-Sekunden-Limit für die Generierung
  • Die im August 2025 angekündigte promptbasierte Ereignisänderungsfunktion ist noch nicht enthalten
  • Künftige Updates und Verbesserungen sollen auf der offiziellen DeepMind-Seite einsehbar sein

Zukunftspläne und Ausbau der Zugänglichkeit

  • Project Genie wurde auf Basis von gemeinsamer Forschung mit vertrauenswürdigen Testern entwickelt
  • Diese Veröffentlichung ist ein Schritt, um zu verstehen, wie Nutzer World Models tatsächlich einsetzen
  • Derzeit ist es nur für Google AI Ultra-Abonnenten in den USA verfügbar; eine Ausweitung auf weitere Regionen ist geplant
  • Google plant langfristig, Technologien zur Welterzeugung für mehr Nutzer zu öffnen

1 Kommentare

 
GN⁺ 2026-01-30
Hacker-News-Kommentare
  • In letzter Zeit muss ich ständig an Andy Clarks The Experience Machine denken
    Die Theorie besagt, dass das menschliche Gehirn die Welt nicht direkt wahrnimmt, sondern die Realität als intern erzeugte Simulation erfährt, die durch Sinneseindrücke korrigiert wird
    Anders gesagt: Wir leben in einem hochauflösenden generativen Modell, und die Sinne dienen dazu, die Fehlersignale dieses Modells anzupassen
    So wie Genie 3 im latenten Raum das nächste Frame vorhersagt, versucht auch das menschliche Gehirn durch „Active Inference“, die Differenz zwischen Erwartung und tatsächlicher Erfahrung zu minimieren
    Letztlich ist der Eindruck von Realität aus dieser Sicht keine direkte Aufzeichnung der Außenwelt, sondern eine fortlaufend korrigierte interaktive Simulation

    • Neurologisch ist das bereits ein ziemlich etabliertes Konzept
      Träume kann man zum Beispiel als Fall sehen, in dem das interne Modell frei arbeitet, weil sensorische Eingaben blockiert sind
    • Als passende Videos empfehle ich von kurzgesagt Why Your Brain Blinds You For 2 Hours Every Day und die dazugehörige Quellensammlung
    • Auch Anil Seths Your Brain Hallucinates Your Conscious Reality geht in dieselbe Richtung
      Solche Themen werden schon lange auch in Philosophie und Religion behandelt, und ich finde spannend, dass das menschliche Bewusstsein Realität durch seine eigenen Projektionen konstruiert
    • Die Nachbearbeitung von Smartphone-Fotos kann man als ähnliche Metapher sehen
      Irgendwann stellt sich die Frage, ab wann ein Bild kein Foto mehr ist, sondern ein berechnetes impressionistisches Werk
    • Donald Hoffmans The Case Against Reality ist dazu ebenfalls lesenswert
  • Viele scheinen Genie fälschlich für ein bloßes Produkt für Spiele oder Filme zu halten
    Das eigentliche Ziel ist aber, eine „Imagination Engine“ der nächsten Generation für AI und Robotik zu bauen, also ein Weltmodell, das Handlungsfolgen simuliert und so Entscheidungen unterstützt

    • Da stimme ich zu. Über LLMs hieß es oft, sie hätten kein Weltmodell, und das wirkt wie der nächste Schritt darüber hinaus
      Ich stelle mir eine Struktur vor, die reale Videos mit einer bestimmten Framerate encodiert, die Imagination des Modells in realen Daten verankert, mögliche Handlungsszenarien verzweigt und bewertet und die beste Vorhersage dann an die Motorik weitergibt
      Das Timing wird nicht einfach, aber die grobe Richtung ist schon erkennbar
    • Ich sehe das etwas anders. Wenn man echte Imagination will, braucht man nicht zwingend Video-Decoding
      Genie erzeugt Video als Schnittstelle, die Menschen verstehen und debuggen können
      Insofern ist der Zweck ein anderer: eher ein AI-Experimentierspiel für Forschende
    • Aber diese Struktur ist viel zu teuer. Für Robotik braucht es vermutlich eine ganz andere Architektur
    • Instagram war anfangs auch nur eine App zum Teilen von Fotos mit Freunden, heute ist es eine süchtig machende Plattform
      Wenn Genie mit VR kombiniert wird, könnte ein ähnlicher dystopischer Kipppunkt kommen
    • Diese Art von Umgebungs-Mapping und AI-generierter Alternativausgabe ist letztlich das Holodeck-Konzept
      Trotzdem bevorzuge ich weiterhin die Gefahr und Lebendigkeit der Realität
  • Ich freue mich sehr, dass Genie veröffentlicht wurde
    Es gibt schon interessante Videos von frühen Nutzern:
    Stadterkundung, Helikopter-Simulation, Raumstation und Dunkin’ Donuts, Laptop-Simulation, Otter-Pilot

    • Ich war auch als Early Tester dabei
      Ich habe verschiedene Welten gebaut: auf dem Mond spazieren, Holmes und Watson in der 221B Baker Street treffen oder einen riesigen Bubble Tea in einem Nachtmarkt von Taipeh erkunden
      Es gibt auch ein Demo-Video
      Noch ist es ein experimenteller Prototyp, aber es fühlt sich wie ein Hinweis auf die Zukunft an
    • Technisch beeindruckend, aber es fehlt an Immersion
      Dass man mit ein paar Wörtern Unreal-5-Assets erzeugen kann, ist cool, aber so würde ich in der Praxis nicht spielen wollen
      Außerdem hätte ich keine Lust, die Rechenkosten pro Sekunde zu bezahlen
    • Ich würde wirklich gern eine Version sehen, die das Zeitalter der Dinosaurier nachbildet
    • Mich würde interessieren, was ihr von Project Genie haltet
  • Der eigentliche Durchbruch bei Genie ist, dass man sich umdrehen kann
    Simulatoren anderer Forschungslabore konnten keine Konsistenz außerhalb des Sichtfelds aufrechterhalten, Genie löst genau das

    • Ich habe gehört, dass Fei-Fei Lis Labor eine echte 3D-Welt erzeugt
      Allerdings dürfte dieser Ansatz bei der Darstellung von Animationen Einschränkungen haben
    • Es überrascht mich, dass ML-Forschende erst jetzt die Notwendigkeit einer expliziten Cache-Struktur erkannt haben
    • Dann frage ich mich, ob die Szene erhalten bleibt, wenn man eine Woche später an denselben Ort zurückkehrt
  • Es gibt ein Interviewvideo mit dem Project-Genie-Team
    YouTube-Link
    Genie ist ein Forschungsprototyp, mit dem sich in Echtzeit unendlich vielfältige fotorealistische Welten erzeugen, erkunden und interaktiv erleben lassen
    Behandelt werden der Übergang von passiver Videogenerierung zu interaktiven Medien, die technischen Herausforderungen bei Weltkonsistenz und Memory-Erhalt sowie die Rolle als Trainingsumgebung für AI-Agenten

  • Je mehr ich solche Technik sehe, desto mehr möchte ich eigentlich Zeit in der realen Welt verbringen
    Ich möchte den Bildschirm ausschalten und wieder die Dinge tun, die ich liebe

    • Mir geht es genauso. In dem Moment, in dem ich jemanden im Video auf einer Tastatur tippen sah, überkam mich eine gewisse Bitterkeit
      Eine virtuelle Welt, die aus real gefilmten Szenen gemacht ist, löst eher Traurigkeit in mir aus
    • Ich liebe AI, aber ich hoffe gerade solche Technik macht uns den Wert echter menschlicher Erfahrung wieder bewusster
    • Ich habe mein ganzes Leben in der Tech-Branche gearbeitet, aber inzwischen möchte ich am liebsten einfach alles ausschalten
    • Ironischerweise bringen mich solche Entwicklungen dazu, stärker an die Simulationshypothese zu glauben
      Vielleicht ist auch die Realität schon eine Simulation
    • Der Himmel ist blau, die Sonne scheint, aber ich bin zu träge rauszugehen, also sollte ich vielleicht einfach eine Spaziergangs-Simulation starten
  • Das erinnert mich an ein früheres persönliches Projekt auf HN, das ein Weltmodell mit Parkvideos trainiert hat
    Es gab auch eine interaktive Demo, und Genie wirkt wie die nächste Ausbaustufe dieser Idee
    Schade, dass Blogs oder Indie-Demos in der Praxis kaum zitiert werden

    • Stimmt, das Konzept ist ähnlich, aber der Größenunterschied ist extrem
      Das Parkmodell hatte 5 Millionen Parameter, wurde mit 15 Minuten Video trainiert und läuft sogar auf einem iPhone
      Genie 3 dagegen ist ein riesiges Modell mit zig Milliarden Parametern, trainiert auf Hunderten Millionen Stunden Video
      Inzwischen tauchen auch Modelle mittlerer Größe auf, daher dürfte eine lokale Ausführung auf Gaming-GPUs in ein bis zwei Jahren möglich sein
      Beispiele: LingBot-World, Waypoint 1
  • Das alles erinnert stark an das Thema des Films The Thirteenth Floor
    Trailer-Link

  • Ich wünschte, jemand würde aus diesem GIF eine eigene Welt bauen

  • Ich frage mich schon lange, warum Meta (FB) bei Weltmodellen nicht offensiver vorgeht
    Das ist doch eigentlich der Kern der Metaverse-Vision, und stattdessen hat man Yann LeCun ziehen lassen

    • LeCun hat durch ausbleibende Ergebnisse und eine sture Forschungsrichtung intern für Brüche gesorgt
      Er hat sich nicht am LLM-Wettlauf beteiligt und stattdessen nur auf unbestätigte Theorien gesetzt
      Das Ergebnis war, dass Meta aus der Spitzengruppe in AI zurückfiel, während LeCun seinen Ruf weitgehend unbeschadet mitnahm
    • Ich würde den Unterschied zwischen JEPA und Genie so erklären
      JEPA ist wie ein Romanautor, der zusammenfasst: „Ein Hund rennt auf den Briefträger zu.“
      Genie ist wie ein Maler, der die nächste Szene tatsächlich malen muss, damit die Geschichte existiert
      Mit anderen Worten: Genie erzeugt Frame für Frame, JEPA macht Vorhersagen auf Konzeptebene
    • Stimme völlig zu. Weltmodelle sind die eigentliche Rettungschance für die Investments in Reality Labs
      Wenn sich das nicht produktisieren lässt, sollte man das Projekt insgesamt einstellen
    • Über Fehlschläge wird nicht gesprochen. Es ist in Wirklichkeit unklar, worin Meta überhaupt investiert hat
    • Grundsätzlich tragen Menschen VR-Headsets einfach nicht gern
      Selbst mit großartigen Inhalten bleibt das ein Nischenmarkt