WorldGen – Immersive 3D-Welten aus Text generieren

(meta.com)

3 Punkte von GN⁺ 2025-11-24 | 1 Kommentare | Auf WhatsApp teilen

WorldGen von Meta ist ein End-to-End-Generative-AI-System, das mit einem einzigen Text-Prompt automatisch erkundbare 3D-Welten erzeugt
Durch die Kombination aus prozeduralem Reasoning, diffusionsbasierter 3D-Generierung und objektbewusster Szenenzerlegung entstehen geometrisch konsistente und visuell reichhaltige Umgebungen
Der Erzeugungsprozess besteht aus vier Phasen: Planning, Reconstruction, Decomposition und Refinement
Die Ergebnisse sind mit Standard-Game-Engines wie Unity und Unreal kompatibel und lassen sich ohne zusätzlichen Konvertierungsprozess nutzen
Besitzt das Potenzial, die komplexe und kostspielige Erstellung von 3D-Inhalten für alle zugänglich zu machen und effizienter zu gestalten

Überblick über WorldGen

WorldGen erzeugt in wenigen Minuten interaktive 3D-Welten allein aus Texteingaben wie „cartoon medieval village“ oder „sci-fi base station on Mars“
- Die erzeugten Welten bewahren Konsistenz in Stil und Thema und sind so verbunden, dass sich Charaktere frei darin bewegen können
Aufbauend auf den Fortschritten generativer AI-Technologien lassen sich aus einem einzelnen Text- oder Bild-Prompt vollständige 3D-Umgebungen erstellen

Technische Struktur und Erzeugungsphasen

WorldGen beginnt mit einer Planning-Phase, die prozedurale Blockout-Generierung, Navmesh-Extraktion und Erzeugung von Referenzbildern umfasst
Anschließend folgt eine Reconstruction-Phase mit Bild-zu-3D-Umwandlung, Navmesh-basierter Szenenerzeugung und Erstellung grundlegender Texturen
Mit AutoPartGen werden durch Szenenzerlegung und Datenkuratierung detaillierte Elemente voneinander getrennt
Zum Schluss erfolgt eine Refinement-Phase mit Bildverbesserung, Mesh-Verfeinerung und Texturing-Modellen

Unterschiede zu bisherigen Ansätzen

Bestehende Systeme erzeugen Inhalte meist ausgehend von einem einzelnen Blickpunkt (viewpoint), wodurch die Qualität außerhalb des Zentrums stark abnimmt
WorldGen erzeugt eine vollständig texturierte Szene im Maßstab von 50×50 Metern und bewahrt dabei stilistische und geometrische Konsistenz
Die Forschung wird mit dem Ziel fortgesetzt, künftig noch größere Welten zu erzeugen

Kompatibilität und Einsatzmöglichkeiten

Derzeit befindet sich das System noch in der Forschungsphase und ist nicht für Entwickler freigegeben, die erzeugten Inhalte lassen sich jedoch direkt in Unity, Unreal und ähnlichen Umgebungen verwenden
Es ist keine separate Konvertierung der Rendering-Pipeline erforderlich

Grenzen und zukünftige Ausrichtung

Das aktuelle Modell bietet noch Verbesserungspotenzial bei räumlicher Größe und Erzeugungslatenz (latency)
Zukünftige Versionen zielen auf größere erzeugte Räume und höhere Geschwindigkeit ab

Bedeutung für die Branche

Es zeigt die Möglichkeit auf, die Komplexität und Kostenbelastung der 3D-Content-Erstellung zu senken und auch Nichtfachleuten den Aufbau virtueller Welten zu ermöglichen
Das entspricht Metas auf dem Connect-Event vorgestellter Vision einer „Zukunft, in der jeder ohne eine einzige Zeile Code virtuelle Welten erschaffen kann“

Danksagung

Das Projekt wurde vom Reality Labs 3D GenAI Team durchgeführt
Wichtige Mitwirkende: Dilin Wang, Hyunyoung Jung, Tom Monnier, Kihyuk Sohn u. a. († kennzeichnet die Projektleitung)

1 Kommentare

GN⁺ 2025-11-24

Hacker-News-Kommentare

Ein interessantes Demo, aber man kann die Gebäude nicht betreten, die Gebäudegrößen und die Dorfanordnung sind fast überall gleich, und es gibt viele visuelle Inkonsistenzen
Am Ende wirkt es so, als hätte man ähnliche Kisten auf einem Raster angeordnet und würde nur dazwischen herumlaufen
Ich weiß, dass Fortschritt schrittweise passiert, aber verglichen mit anderen Worldgen-Demos wirkt das wie ein viel zu kleiner Schritt
- Die von der AI erzeugten Dörfer sehen aus, als hätten sie strenge Stadtplanungsvorgaben bekommen
  Alle Gebäude stehen in gleichmäßigen Abständen auf einem Raster, und es scheint sogar eine Höhenbegrenzung zu geben
  In realistischen Open-World-Spielen (GTA, Cyberpunk usw.) gibt es absichtlich „gestaltete Enge“ wie Sackgassen oder verschlossene Türen
  Wenn alle Wege zu interessanten Orten führen, geht der Reiz des Entdeckens eher verloren
- Dieses Demo könnte für die Content-Produktionspipeline nützlicher sein als andere Beispiele wie World Labs
  Wenn es explizite Assets verwendet, könnte es für die Spieleentwicklung besser geeignet sein
  Meta hat viele der Schlüsselarbeiten in diesem Bereich veröffentlicht und hat auch Hyperscape, daher kann man es als experimentellen Versuch in eine andere Richtung sehen
- Ich sehe keinen Link zu einem tatsächlich funktionierenden Demo
- In den meisten Spielen kann man Gebäude ebenfalls nicht betreten. Selbst in Cyberpunk lassen sich nur sehr wenige Türen öffnen
  Ich frage mich, wann der Tag kommt, an dem normale Nutzer solche Worldgen-Engines selbst ausprobieren können
  Warum Google, Meta und Tencent immer nur Demos zeigen und nie wirklich etwas veröffentlichen, bleibt für mich fraglich
Das wirkt wie eine Engineering-Pipeline, die bestehende GenAI-Techniken kombiniert
Das Ergebnis ist auch nicht auf SOTA-Niveau und wirkt eher wie ein Sackgassen-Ansatz als wie echter Fortschritt
Die wirkliche Innovation wäre wohl, Meshes mit Texturen direkt mit einem End-to-End-Trainingsmodell zu erzeugen; dass das nicht gelungen ist, könnte bedeuten, dass die eigentliche Schlüsseltechnologie noch fehlt
Trotzdem könnte es künftig nützlich sein, um Datensätze für das Modelltraining zu bootstrappen
- Ich frage mich, was in diesem Bereich derzeit die SOTA-Technik ist
- Die Entwickler haben wahrscheinlich ihr Bestes getan, um die Anforderungen von oben zu erfüllen, aber es wirkt wie ein Beispiel für die Grenzen der Innovationskraft großer Konzerne
Das ist eher 3DAssetGen als ein „World Model“
Es erzeugt keine echte Welt, sondern kombiniert im Grunde nur Assets
Von Hand gebaute Welten sind viel besser, und sogar Spiele mit RPG Maker wirken attraktiver
- Tatsächlich scheint nur ein kleines quadratisches Gebiet erzeugt zu werden. Solche rasterförmigen Welten dürften für Spieler unbequem sein
  Trotzdem ist es als erster Versuch bedeutsam, und ich hoffe, dass AI die Eintrittsbarrieren für die Erstellung von Metaverse-Welten senken kann
  Wenn man bedenkt, wie viel Zeit und Geld schon eine kleine Insel wie in GTA kostet, gilt das umso mehr
- Auf der Seite steht nirgends der Ausdruck „World Model“
Da kauft man lieber Gebäudemodelle im 5-Dollar-Asset-Store
Ich frage mich wirklich, ob man dafür Rechenzentren für Milliarden von Dollar bauen und die Umwelt belasten muss
- Ich finde, mit dem Geld sollte man lieber Low-Poly-Künstler wie Quaternius unterstützen
  Ich frage mich auch, ob 3D-Künstler heutzutage noch bereit sind, Assets kostenlos zu veröffentlichen
Die Stimmung des ersten Videos erinnert an Warcraft 3 oder DotA
Es gab einmal eine Zeit, in der eine einzige simple Map Online-Spiele und E-Sport komplett verändert hat
Heute kann man zwar deutlich hochwertigere On-Demand-Welten erzeugen, aber diese einfache Map von damals wirkt im Rückblick fast größerartig
Am Ende wollen wir doch nur ein besseres SimCity; ich verstehe nicht, warum dafür so viele World-Generation-Modelle und Rechenzentren nötig sein sollen
Es ist ironisch, mit enormem Strom- und Wasserverbrauch gefälschte Dörfer zu erzeugen
Ich kaufe mir absichtlich keine Konsole, weil ich sonst vielleicht in Spiele wie Red Dead abrutschen würde
Ich frage mich, wem diese Technologie tatsächlich nützt
Als ich auf den Link geklickt habe, kam ein 404-Fehler, also habe ich gesucht und gesehen, dass es im Mai bereits ein Worldgen-Projekt mit demselben Namen gab
Das andere scheint realistischere 3D-Szenen deutlich besser umgesetzt zu haben
- Aber das ist im Grunde eher ein Trick, der 2D-Bilder wie 3D aussehen lässt
  Schon bei einer kleinen Kamerabewegung bricht die Illusion sofort zusammen
Das Paper selbst war ziemlich gut
Es enthält interessante Details zur Verarbeitung einzelner Meshes
Link zum Paper
Weil das Wort „interaktiv“ mehrfach verwendet wurde, habe ich echte Interaktionen wie Türen öffnen oder Gegenstände aufheben erwartet,
tatsächlich war damit nur gemeint, dass man sich in der Ego-Perspektive umsehen kann
Nach dieser Definition könnte man jedes 3D-Modell als interaktiv bezeichnen
2D-diffusionsbasierte Panoramagenerierung → Umwandlung in Point Clouds → 3D-Lifting → 2D-Inpainting → Optimierung mit 3D Gaussian Splatting
Auf diese Weise wurden Bilder aneinandergesetzt und zu 3D gemacht
Konzeptuell ist das ein Ansatz, den man nur schwer als World Model bezeichnen kann, und diese begriffliche Unschärfe ist etwas schade

WorldGen – Immersive 3D-Welten aus Text generieren

Überblick über WorldGen

Technische Struktur und Erzeugungsphasen

Unterschiede zu bisherigen Ansätzen

Kompatibilität und Einsatzmöglichkeiten

Grenzen und zukünftige Ausrichtung

Bedeutung für die Branche

Danksagung

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare