- WorldGen von Meta ist ein End-to-End-Generative-AI-System, das mit einem einzigen Text-Prompt automatisch erkundbare 3D-Welten erzeugt
- Durch die Kombination aus prozeduralem Reasoning, diffusionsbasierter 3D-Generierung und objektbewusster Szenenzerlegung entstehen geometrisch konsistente und visuell reichhaltige Umgebungen
- Der Erzeugungsprozess besteht aus vier Phasen: Planning, Reconstruction, Decomposition und Refinement
- Die Ergebnisse sind mit Standard-Game-Engines wie Unity und Unreal kompatibel und lassen sich ohne zusätzlichen Konvertierungsprozess nutzen
- Besitzt das Potenzial, die komplexe und kostspielige Erstellung von 3D-Inhalten für alle zugänglich zu machen und effizienter zu gestalten
Überblick über WorldGen
- WorldGen erzeugt in wenigen Minuten interaktive 3D-Welten allein aus Texteingaben wie „cartoon medieval village“ oder „sci-fi base station on Mars“
- Die erzeugten Welten bewahren Konsistenz in Stil und Thema und sind so verbunden, dass sich Charaktere frei darin bewegen können
- Aufbauend auf den Fortschritten generativer AI-Technologien lassen sich aus einem einzelnen Text- oder Bild-Prompt vollständige 3D-Umgebungen erstellen
Technische Struktur und Erzeugungsphasen
- WorldGen beginnt mit einer Planning-Phase, die prozedurale Blockout-Generierung, Navmesh-Extraktion und Erzeugung von Referenzbildern umfasst
- Anschließend folgt eine Reconstruction-Phase mit Bild-zu-3D-Umwandlung, Navmesh-basierter Szenenerzeugung und Erstellung grundlegender Texturen
- Mit AutoPartGen werden durch Szenenzerlegung und Datenkuratierung detaillierte Elemente voneinander getrennt
- Zum Schluss erfolgt eine Refinement-Phase mit Bildverbesserung, Mesh-Verfeinerung und Texturing-Modellen
Unterschiede zu bisherigen Ansätzen
- Bestehende Systeme erzeugen Inhalte meist ausgehend von einem einzelnen Blickpunkt (viewpoint), wodurch die Qualität außerhalb des Zentrums stark abnimmt
- WorldGen erzeugt eine vollständig texturierte Szene im Maßstab von 50×50 Metern und bewahrt dabei stilistische und geometrische Konsistenz
- Die Forschung wird mit dem Ziel fortgesetzt, künftig noch größere Welten zu erzeugen
Kompatibilität und Einsatzmöglichkeiten
- Derzeit befindet sich das System noch in der Forschungsphase und ist nicht für Entwickler freigegeben, die erzeugten Inhalte lassen sich jedoch direkt in Unity, Unreal und ähnlichen Umgebungen verwenden
- Es ist keine separate Konvertierung der Rendering-Pipeline erforderlich
Grenzen und zukünftige Ausrichtung
- Das aktuelle Modell bietet noch Verbesserungspotenzial bei räumlicher Größe und Erzeugungslatenz (latency)
- Zukünftige Versionen zielen auf größere erzeugte Räume und höhere Geschwindigkeit ab
Bedeutung für die Branche
- Es zeigt die Möglichkeit auf, die Komplexität und Kostenbelastung der 3D-Content-Erstellung zu senken und auch Nichtfachleuten den Aufbau virtueller Welten zu ermöglichen
- Das entspricht Metas auf dem Connect-Event vorgestellter Vision einer „Zukunft, in der jeder ohne eine einzige Zeile Code virtuelle Welten erschaffen kann“
Danksagung
- Das Projekt wurde vom Reality Labs 3D GenAI Team durchgeführt
- Wichtige Mitwirkende: Dilin Wang, Hyunyoung Jung, Tom Monnier, Kihyuk Sohn u. a. († kennzeichnet die Projektleitung)
1 Kommentare
Hacker-News-Kommentare
Ein interessantes Demo, aber man kann die Gebäude nicht betreten, die Gebäudegrößen und die Dorfanordnung sind fast überall gleich, und es gibt viele visuelle Inkonsistenzen
Am Ende wirkt es so, als hätte man ähnliche Kisten auf einem Raster angeordnet und würde nur dazwischen herumlaufen
Ich weiß, dass Fortschritt schrittweise passiert, aber verglichen mit anderen Worldgen-Demos wirkt das wie ein viel zu kleiner Schritt
Alle Gebäude stehen in gleichmäßigen Abständen auf einem Raster, und es scheint sogar eine Höhenbegrenzung zu geben
In realistischen Open-World-Spielen (GTA, Cyberpunk usw.) gibt es absichtlich „gestaltete Enge“ wie Sackgassen oder verschlossene Türen
Wenn alle Wege zu interessanten Orten führen, geht der Reiz des Entdeckens eher verloren
Wenn es explizite Assets verwendet, könnte es für die Spieleentwicklung besser geeignet sein
Meta hat viele der Schlüsselarbeiten in diesem Bereich veröffentlicht und hat auch Hyperscape, daher kann man es als experimentellen Versuch in eine andere Richtung sehen
Ich frage mich, wann der Tag kommt, an dem normale Nutzer solche Worldgen-Engines selbst ausprobieren können
Warum Google, Meta und Tencent immer nur Demos zeigen und nie wirklich etwas veröffentlichen, bleibt für mich fraglich
Das wirkt wie eine Engineering-Pipeline, die bestehende GenAI-Techniken kombiniert
Das Ergebnis ist auch nicht auf SOTA-Niveau und wirkt eher wie ein Sackgassen-Ansatz als wie echter Fortschritt
Die wirkliche Innovation wäre wohl, Meshes mit Texturen direkt mit einem End-to-End-Trainingsmodell zu erzeugen; dass das nicht gelungen ist, könnte bedeuten, dass die eigentliche Schlüsseltechnologie noch fehlt
Trotzdem könnte es künftig nützlich sein, um Datensätze für das Modelltraining zu bootstrappen
Das ist eher 3DAssetGen als ein „World Model“
Es erzeugt keine echte Welt, sondern kombiniert im Grunde nur Assets
Von Hand gebaute Welten sind viel besser, und sogar Spiele mit RPG Maker wirken attraktiver
Trotzdem ist es als erster Versuch bedeutsam, und ich hoffe, dass AI die Eintrittsbarrieren für die Erstellung von Metaverse-Welten senken kann
Wenn man bedenkt, wie viel Zeit und Geld schon eine kleine Insel wie in GTA kostet, gilt das umso mehr
Da kauft man lieber Gebäudemodelle im 5-Dollar-Asset-Store
Ich frage mich wirklich, ob man dafür Rechenzentren für Milliarden von Dollar bauen und die Umwelt belasten muss
Ich frage mich auch, ob 3D-Künstler heutzutage noch bereit sind, Assets kostenlos zu veröffentlichen
Die Stimmung des ersten Videos erinnert an Warcraft 3 oder DotA
Es gab einmal eine Zeit, in der eine einzige simple Map Online-Spiele und E-Sport komplett verändert hat
Heute kann man zwar deutlich hochwertigere On-Demand-Welten erzeugen, aber diese einfache Map von damals wirkt im Rückblick fast größerartig
Am Ende wollen wir doch nur ein besseres SimCity; ich verstehe nicht, warum dafür so viele World-Generation-Modelle und Rechenzentren nötig sein sollen
Es ist ironisch, mit enormem Strom- und Wasserverbrauch gefälschte Dörfer zu erzeugen
Ich kaufe mir absichtlich keine Konsole, weil ich sonst vielleicht in Spiele wie Red Dead abrutschen würde
Ich frage mich, wem diese Technologie tatsächlich nützt
Als ich auf den Link geklickt habe, kam ein 404-Fehler, also habe ich gesucht und gesehen, dass es im Mai bereits ein Worldgen-Projekt mit demselben Namen gab
Das andere scheint realistischere 3D-Szenen deutlich besser umgesetzt zu haben
Schon bei einer kleinen Kamerabewegung bricht die Illusion sofort zusammen
Das Paper selbst war ziemlich gut
Es enthält interessante Details zur Verarbeitung einzelner Meshes
Link zum Paper
Weil das Wort „interaktiv“ mehrfach verwendet wurde, habe ich echte Interaktionen wie Türen öffnen oder Gegenstände aufheben erwartet,
tatsächlich war damit nur gemeint, dass man sich in der Ego-Perspektive umsehen kann
Nach dieser Definition könnte man jedes 3D-Modell als interaktiv bezeichnen
2D-diffusionsbasierte Panoramagenerierung → Umwandlung in Point Clouds → 3D-Lifting → 2D-Inpainting → Optimierung mit 3D Gaussian Splatting
Auf diese Weise wurden Bilder aneinandergesetzt und zu 3D gemacht
Konzeptuell ist das ein Ansatz, den man nur schwer als World Model bezeichnen kann, und diese begriffliche Unschärfe ist etwas schade