- Voyager ist ein neues Video-Diffusions-Framework, das auf Basis eines Eingabebildes und eines vom Nutzer vorgegebenen Kamerapfads konsistente 3D-Punktwolken-Sequenzen erzeugt
- Durch die gleichzeitige Generierung von RGB- und Tiefeninformationen ist eine effiziente und direkte 3D-Rekonstruktion möglich
- Mit einer Pipeline zur Erstellung großskaliger Videodatensätze werden vielfältige Trainingsdaten ohne manuelle 3D-Annotationen bereitgestellt
- Im WorldScore-Benchmark zeigt das Modell gegenüber mehreren bestehenden Ansätzen überlegene Leistung in verschiedenen Kategorien wie 3D-Konsistenz und Content-Ausrichtung
- Unterstützung für optimierte parallele Inferenz auf einzelnen oder mehreren GPUs sowie eine Echtzeit-Demo zeigen das Potenzial für vielfältige Anwendungen
Projektvorstellung
- HunyuanWorld-Voyager erzeugt auf Basis eines Eingabebildes und eines vom Nutzer festgelegten Kamerabewegungspfads weltkonsistente (3D-consistent) Punktwolken-Video-Sequenzen
- Nutzer können Kamerapfade frei festlegen und so 3D-Szenenvideos zur Erkundung der Welt erstellen
- Durch die gleichzeitige maßgeschneiderte Generierung von RGB- und Tiefenvideos (Depth) ist eine schnelle und zuverlässige 3D-Rekonstruktion möglich
Architektur
- Voyager ist mit zwei zentralen Komponenten aufgebaut
- (1) Weltkonsistente Video-Diffusionsarchitektur: Sie gewährleistet globale Szenenkonsistenz und erzeugt RGB und Tiefe gleichzeitig in ausgerichteter Form
- (2) Langstreckige Welterkundung: Unterstützt kontextkonsistente Szenenerweiterung mithilfe von Point Culling, autoregressiver Inferenz und flüssigem Video-Sampling
Daten-Engine
- Für das Training von Voyager wurde eine skalierbare Daten-Engine auf Basis einer Video-Rekonstruktions-Pipeline separat entwickelt
- Für beliebige gewöhnliche Videos werden Kameraposen-Schätzung und metrikbasierte Tiefenvorhersage automatisiert, sodass großskalige Trainingsdatensätze ohne manuelle Arbeit erzeugt werden können
- Bereitgestellt wird ein Datensatz mit mehr als 100.000 Videoclips, darunter reale Aufnahmen und synthetische Daten auf Basis der Unreal Engine
Hauptfunktionen und Demos
- Bereitstellung einer Demo für interaktive Videogenerierung auf Basis steuerbarer Kamerapfade
- Sofortige Rekonstruktion der zum generierten Video gehörenden 3D-Punktwolke möglich
- Verschiedene Anwendungsszenarien werden demonstriert, darunter 3D-Szenengenerierung und Video-Tiefenschätzung aus einem einzelnen Bild
Leistungsvergleich
- Bewertung im WorldScore-Benchmark
- Voyager erreicht in mehreren Kategorien wie Kamerasteuerung, Objektsteuerung, Content-Ausrichtung und 3D-Konsistenz Spitzenwerte
- Besonders in den Bereichen subjektive Qualität (Subjective Quality) und 3D-Konsistenz erzielt es die höchsten Werte
Systemanforderungen
- Für die Generierung von Videos in 540p-Auflösung auf einer einzelnen 80-GB-GPU werden mindestens 60 GB Speicher benötigt
- Optimale Leistung wird unter Linux und in einer Umgebung mit CUDA 12.4 (empfohlen: mindestens 80 GB) geboten
Parallele Inferenzleistung
- Unterstützung für Multi-GPU-Parallelinferenz auf Basis von xDiT
- Bei Verwendung von 8 H20-GPUs werden für 49 Frames mit 50 Schritten (512x768) Ergebnisse in 288 Sekunden erzeugt (6,69-fache Beschleunigung gegenüber einer einzelnen GPU)
Benutzeroberfläche und Demo
- Echtzeit-Demo auf Basis von Gradio verfügbar
- Durch Hochladen eines Bildes, Auswahl der Kamerarichtung und Eingabe eines Prompt-Texts lassen sich RGB-D-Videos einfach erzeugen
Offenlegung der Daten-Engine
- Auch die großskalige, skalierbare Daten-Engine zur Erzeugung von Trainingsdaten für RGB-D-Videos wird als Open Source bereitgestellt
Zitation und Referenzen
- arXiv-Paper: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
- Design und Implementierung von HunyuanWorld-Voyager basieren auf Forschungsergebnissen und verschiedenen Open-Source-Projekten wie VGGT, MoGE und Metric3D
Zentrale Stärken und Alleinstellungsmerkmale des Projekts
- Eine Stärke von Voyager gegenüber den meisten bestehenden Image-to-Video-Projekten ist, dass es aus einem einzelnen Bild weltkonsistente 3D-Videos auf Basis von Punktwolken entlang vielfältiger Pfade erzeugen kann
- Da sowohl RGB- als auch Tiefeninformationen generiert werden und zugleich eine großskalige automatisierte Daten-Engine bereitgestellt wird, ist das Potenzial für den Einsatz in vielen Branchen groß, etwa bei der Erstellung realer 3D-Inhalte, virtueller Umgebungen, Digital Twins und AIGC-Anwendungen
Noch keine Kommentare.