3 Punkte von GN⁺ 2025-11-24 | 1 Kommentare | Auf WhatsApp teilen
  • WorldGen von Meta ist ein End-to-End-Generative-AI-System, das mit einem einzigen Text-Prompt automatisch erkundbare 3D-Welten erzeugt
  • Durch die Kombination aus prozeduralem Reasoning, diffusionsbasierter 3D-Generierung und objektbewusster Szenenzerlegung entstehen geometrisch konsistente und visuell reichhaltige Umgebungen
  • Der Erzeugungsprozess besteht aus vier Phasen: Planning, Reconstruction, Decomposition und Refinement
  • Die Ergebnisse sind mit Standard-Game-Engines wie Unity und Unreal kompatibel und lassen sich ohne zusätzlichen Konvertierungsprozess nutzen
  • Besitzt das Potenzial, die komplexe und kostspielige Erstellung von 3D-Inhalten für alle zugänglich zu machen und effizienter zu gestalten

Überblick über WorldGen

  • WorldGen erzeugt in wenigen Minuten interaktive 3D-Welten allein aus Texteingaben wie „cartoon medieval village“ oder „sci-fi base station on Mars“
    • Die erzeugten Welten bewahren Konsistenz in Stil und Thema und sind so verbunden, dass sich Charaktere frei darin bewegen können
  • Aufbauend auf den Fortschritten generativer AI-Technologien lassen sich aus einem einzelnen Text- oder Bild-Prompt vollständige 3D-Umgebungen erstellen

Technische Struktur und Erzeugungsphasen

  • WorldGen beginnt mit einer Planning-Phase, die prozedurale Blockout-Generierung, Navmesh-Extraktion und Erzeugung von Referenzbildern umfasst
  • Anschließend folgt eine Reconstruction-Phase mit Bild-zu-3D-Umwandlung, Navmesh-basierter Szenenerzeugung und Erstellung grundlegender Texturen
  • Mit AutoPartGen werden durch Szenenzerlegung und Datenkuratierung detaillierte Elemente voneinander getrennt
  • Zum Schluss erfolgt eine Refinement-Phase mit Bildverbesserung, Mesh-Verfeinerung und Texturing-Modellen

Unterschiede zu bisherigen Ansätzen

  • Bestehende Systeme erzeugen Inhalte meist ausgehend von einem einzelnen Blickpunkt (viewpoint), wodurch die Qualität außerhalb des Zentrums stark abnimmt
  • WorldGen erzeugt eine vollständig texturierte Szene im Maßstab von 50×50 Metern und bewahrt dabei stilistische und geometrische Konsistenz
  • Die Forschung wird mit dem Ziel fortgesetzt, künftig noch größere Welten zu erzeugen

Kompatibilität und Einsatzmöglichkeiten

  • Derzeit befindet sich das System noch in der Forschungsphase und ist nicht für Entwickler freigegeben, die erzeugten Inhalte lassen sich jedoch direkt in Unity, Unreal und ähnlichen Umgebungen verwenden
  • Es ist keine separate Konvertierung der Rendering-Pipeline erforderlich

Grenzen und zukünftige Ausrichtung

  • Das aktuelle Modell bietet noch Verbesserungspotenzial bei räumlicher Größe und Erzeugungslatenz (latency)
  • Zukünftige Versionen zielen auf größere erzeugte Räume und höhere Geschwindigkeit ab

Bedeutung für die Branche

  • Es zeigt die Möglichkeit auf, die Komplexität und Kostenbelastung der 3D-Content-Erstellung zu senken und auch Nichtfachleuten den Aufbau virtueller Welten zu ermöglichen
  • Das entspricht Metas auf dem Connect-Event vorgestellter Vision einer „Zukunft, in der jeder ohne eine einzige Zeile Code virtuelle Welten erschaffen kann

Danksagung

  • Das Projekt wurde vom Reality Labs 3D GenAI Team durchgeführt
  • Wichtige Mitwirkende: Dilin Wang, Hyunyoung Jung, Tom Monnier, Kihyuk Sohn u. a. († kennzeichnet die Projektleitung)

1 Kommentare

 
GN⁺ 2025-11-24
Hacker-News-Kommentare
  • Ein interessantes Demo, aber man kann die Gebäude nicht betreten, die Gebäudegrößen und die Dorfanordnung sind fast überall gleich, und es gibt viele visuelle Inkonsistenzen
    Am Ende wirkt es so, als hätte man ähnliche Kisten auf einem Raster angeordnet und würde nur dazwischen herumlaufen
    Ich weiß, dass Fortschritt schrittweise passiert, aber verglichen mit anderen Worldgen-Demos wirkt das wie ein viel zu kleiner Schritt

    • Die von der AI erzeugten Dörfer sehen aus, als hätten sie strenge Stadtplanungsvorgaben bekommen
      Alle Gebäude stehen in gleichmäßigen Abständen auf einem Raster, und es scheint sogar eine Höhenbegrenzung zu geben
      In realistischen Open-World-Spielen (GTA, Cyberpunk usw.) gibt es absichtlich „gestaltete Enge“ wie Sackgassen oder verschlossene Türen
      Wenn alle Wege zu interessanten Orten führen, geht der Reiz des Entdeckens eher verloren
    • Dieses Demo könnte für die Content-Produktionspipeline nützlicher sein als andere Beispiele wie World Labs
      Wenn es explizite Assets verwendet, könnte es für die Spieleentwicklung besser geeignet sein
      Meta hat viele der Schlüsselarbeiten in diesem Bereich veröffentlicht und hat auch Hyperscape, daher kann man es als experimentellen Versuch in eine andere Richtung sehen
    • Ich sehe keinen Link zu einem tatsächlich funktionierenden Demo
    • In den meisten Spielen kann man Gebäude ebenfalls nicht betreten. Selbst in Cyberpunk lassen sich nur sehr wenige Türen öffnen
      Ich frage mich, wann der Tag kommt, an dem normale Nutzer solche Worldgen-Engines selbst ausprobieren können
      Warum Google, Meta und Tencent immer nur Demos zeigen und nie wirklich etwas veröffentlichen, bleibt für mich fraglich
  • Das wirkt wie eine Engineering-Pipeline, die bestehende GenAI-Techniken kombiniert
    Das Ergebnis ist auch nicht auf SOTA-Niveau und wirkt eher wie ein Sackgassen-Ansatz als wie echter Fortschritt
    Die wirkliche Innovation wäre wohl, Meshes mit Texturen direkt mit einem End-to-End-Trainingsmodell zu erzeugen; dass das nicht gelungen ist, könnte bedeuten, dass die eigentliche Schlüsseltechnologie noch fehlt
    Trotzdem könnte es künftig nützlich sein, um Datensätze für das Modelltraining zu bootstrappen

    • Ich frage mich, was in diesem Bereich derzeit die SOTA-Technik ist
    • Die Entwickler haben wahrscheinlich ihr Bestes getan, um die Anforderungen von oben zu erfüllen, aber es wirkt wie ein Beispiel für die Grenzen der Innovationskraft großer Konzerne
  • Das ist eher 3DAssetGen als ein „World Model“
    Es erzeugt keine echte Welt, sondern kombiniert im Grunde nur Assets
    Von Hand gebaute Welten sind viel besser, und sogar Spiele mit RPG Maker wirken attraktiver

    • Tatsächlich scheint nur ein kleines quadratisches Gebiet erzeugt zu werden. Solche rasterförmigen Welten dürften für Spieler unbequem sein
      Trotzdem ist es als erster Versuch bedeutsam, und ich hoffe, dass AI die Eintrittsbarrieren für die Erstellung von Metaverse-Welten senken kann
      Wenn man bedenkt, wie viel Zeit und Geld schon eine kleine Insel wie in GTA kostet, gilt das umso mehr
    • Auf der Seite steht nirgends der Ausdruck „World Model“
  • Da kauft man lieber Gebäudemodelle im 5-Dollar-Asset-Store
    Ich frage mich wirklich, ob man dafür Rechenzentren für Milliarden von Dollar bauen und die Umwelt belasten muss

    • Ich finde, mit dem Geld sollte man lieber Low-Poly-Künstler wie Quaternius unterstützen
      Ich frage mich auch, ob 3D-Künstler heutzutage noch bereit sind, Assets kostenlos zu veröffentlichen
  • Die Stimmung des ersten Videos erinnert an Warcraft 3 oder DotA
    Es gab einmal eine Zeit, in der eine einzige simple Map Online-Spiele und E-Sport komplett verändert hat
    Heute kann man zwar deutlich hochwertigere On-Demand-Welten erzeugen, aber diese einfache Map von damals wirkt im Rückblick fast größerartig

  • Am Ende wollen wir doch nur ein besseres SimCity; ich verstehe nicht, warum dafür so viele World-Generation-Modelle und Rechenzentren nötig sein sollen
    Es ist ironisch, mit enormem Strom- und Wasserverbrauch gefälschte Dörfer zu erzeugen
    Ich kaufe mir absichtlich keine Konsole, weil ich sonst vielleicht in Spiele wie Red Dead abrutschen würde
    Ich frage mich, wem diese Technologie tatsächlich nützt

  • Als ich auf den Link geklickt habe, kam ein 404-Fehler, also habe ich gesucht und gesehen, dass es im Mai bereits ein Worldgen-Projekt mit demselben Namen gab
    Das andere scheint realistischere 3D-Szenen deutlich besser umgesetzt zu haben

    • Aber das ist im Grunde eher ein Trick, der 2D-Bilder wie 3D aussehen lässt
      Schon bei einer kleinen Kamerabewegung bricht die Illusion sofort zusammen
  • Das Paper selbst war ziemlich gut
    Es enthält interessante Details zur Verarbeitung einzelner Meshes
    Link zum Paper

  • Weil das Wort „interaktiv“ mehrfach verwendet wurde, habe ich echte Interaktionen wie Türen öffnen oder Gegenstände aufheben erwartet,
    tatsächlich war damit nur gemeint, dass man sich in der Ego-Perspektive umsehen kann
    Nach dieser Definition könnte man jedes 3D-Modell als interaktiv bezeichnen

  • 2D-diffusionsbasierte Panoramagenerierung → Umwandlung in Point Clouds → 3D-Lifting → 2D-Inpainting → Optimierung mit 3D Gaussian Splatting
    Auf diese Weise wurden Bilder aneinandergesetzt und zu 3D gemacht
    Konzeptuell ist das ein Ansatz, den man nur schwer als World Model bezeichnen kann, und diese begriffliche Unschärfe ist etwas schade