1 Punkte von GN⁺ 2025-09-05 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Voyager ist ein neues Video-Diffusions-Framework, das auf Basis eines Eingabebildes und eines vom Nutzer vorgegebenen Kamerapfads konsistente 3D-Punktwolken-Sequenzen erzeugt
  • Durch die gleichzeitige Generierung von RGB- und Tiefeninformationen ist eine effiziente und direkte 3D-Rekonstruktion möglich
  • Mit einer Pipeline zur Erstellung großskaliger Videodatensätze werden vielfältige Trainingsdaten ohne manuelle 3D-Annotationen bereitgestellt
  • Im WorldScore-Benchmark zeigt das Modell gegenüber mehreren bestehenden Ansätzen überlegene Leistung in verschiedenen Kategorien wie 3D-Konsistenz und Content-Ausrichtung
  • Unterstützung für optimierte parallele Inferenz auf einzelnen oder mehreren GPUs sowie eine Echtzeit-Demo zeigen das Potenzial für vielfältige Anwendungen

Projektvorstellung

  • HunyuanWorld-Voyager erzeugt auf Basis eines Eingabebildes und eines vom Nutzer festgelegten Kamerabewegungspfads weltkonsistente (3D-consistent) Punktwolken-Video-Sequenzen
  • Nutzer können Kamerapfade frei festlegen und so 3D-Szenenvideos zur Erkundung der Welt erstellen
  • Durch die gleichzeitige maßgeschneiderte Generierung von RGB- und Tiefenvideos (Depth) ist eine schnelle und zuverlässige 3D-Rekonstruktion möglich

Architektur

  • Voyager ist mit zwei zentralen Komponenten aufgebaut
    • (1) Weltkonsistente Video-Diffusionsarchitektur: Sie gewährleistet globale Szenenkonsistenz und erzeugt RGB und Tiefe gleichzeitig in ausgerichteter Form
    • (2) Langstreckige Welterkundung: Unterstützt kontextkonsistente Szenenerweiterung mithilfe von Point Culling, autoregressiver Inferenz und flüssigem Video-Sampling

Daten-Engine

  • Für das Training von Voyager wurde eine skalierbare Daten-Engine auf Basis einer Video-Rekonstruktions-Pipeline separat entwickelt
    • Für beliebige gewöhnliche Videos werden Kameraposen-Schätzung und metrikbasierte Tiefenvorhersage automatisiert, sodass großskalige Trainingsdatensätze ohne manuelle Arbeit erzeugt werden können
    • Bereitgestellt wird ein Datensatz mit mehr als 100.000 Videoclips, darunter reale Aufnahmen und synthetische Daten auf Basis der Unreal Engine

Hauptfunktionen und Demos

  • Bereitstellung einer Demo für interaktive Videogenerierung auf Basis steuerbarer Kamerapfade
  • Sofortige Rekonstruktion der zum generierten Video gehörenden 3D-Punktwolke möglich
  • Verschiedene Anwendungsszenarien werden demonstriert, darunter 3D-Szenengenerierung und Video-Tiefenschätzung aus einem einzelnen Bild

Leistungsvergleich

  • Bewertung im WorldScore-Benchmark
    • Voyager erreicht in mehreren Kategorien wie Kamerasteuerung, Objektsteuerung, Content-Ausrichtung und 3D-Konsistenz Spitzenwerte
    • Besonders in den Bereichen subjektive Qualität (Subjective Quality) und 3D-Konsistenz erzielt es die höchsten Werte

Systemanforderungen

  • Für die Generierung von Videos in 540p-Auflösung auf einer einzelnen 80-GB-GPU werden mindestens 60 GB Speicher benötigt
  • Optimale Leistung wird unter Linux und in einer Umgebung mit CUDA 12.4 (empfohlen: mindestens 80 GB) geboten

Parallele Inferenzleistung

  • Unterstützung für Multi-GPU-Parallelinferenz auf Basis von xDiT
    • Bei Verwendung von 8 H20-GPUs werden für 49 Frames mit 50 Schritten (512x768) Ergebnisse in 288 Sekunden erzeugt (6,69-fache Beschleunigung gegenüber einer einzelnen GPU)

Benutzeroberfläche und Demo

  • Echtzeit-Demo auf Basis von Gradio verfügbar
    • Durch Hochladen eines Bildes, Auswahl der Kamerarichtung und Eingabe eines Prompt-Texts lassen sich RGB-D-Videos einfach erzeugen

Offenlegung der Daten-Engine

  • Auch die großskalige, skalierbare Daten-Engine zur Erzeugung von Trainingsdaten für RGB-D-Videos wird als Open Source bereitgestellt

Zitation und Referenzen

  • arXiv-Paper: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
  • Design und Implementierung von HunyuanWorld-Voyager basieren auf Forschungsergebnissen und verschiedenen Open-Source-Projekten wie VGGT, MoGE und Metric3D

Zentrale Stärken und Alleinstellungsmerkmale des Projekts

  • Eine Stärke von Voyager gegenüber den meisten bestehenden Image-to-Video-Projekten ist, dass es aus einem einzelnen Bild weltkonsistente 3D-Videos auf Basis von Punktwolken entlang vielfältiger Pfade erzeugen kann
  • Da sowohl RGB- als auch Tiefeninformationen generiert werden und zugleich eine großskalige automatisierte Daten-Engine bereitgestellt wird, ist das Potenzial für den Einsatz in vielen Branchen groß, etwa bei der Erstellung realer 3D-Inhalte, virtueller Umgebungen, Digital Twins und AIGC-Anwendungen

Noch keine Kommentare.

Noch keine Kommentare.