Voyager – Interaktives Videogenerierungsmodell mit Unterstützung für 3D-Rekonstruktion in Echtzeit

(github.com/Tencent-Hunyuan)

1 Punkte von GN⁺ 2025-09-05 | Noch keine Kommentare. | Auf WhatsApp teilen

Voyager ist ein neues Video-Diffusions-Framework, das auf Basis eines Eingabebildes und eines vom Nutzer vorgegebenen Kamerapfads konsistente 3D-Punktwolken-Sequenzen erzeugt
Durch die gleichzeitige Generierung von RGB- und Tiefeninformationen ist eine effiziente und direkte 3D-Rekonstruktion möglich
Mit einer Pipeline zur Erstellung großskaliger Videodatensätze werden vielfältige Trainingsdaten ohne manuelle 3D-Annotationen bereitgestellt
Im WorldScore-Benchmark zeigt das Modell gegenüber mehreren bestehenden Ansätzen überlegene Leistung in verschiedenen Kategorien wie 3D-Konsistenz und Content-Ausrichtung
Unterstützung für optimierte parallele Inferenz auf einzelnen oder mehreren GPUs sowie eine Echtzeit-Demo zeigen das Potenzial für vielfältige Anwendungen

Projektvorstellung

HunyuanWorld-Voyager erzeugt auf Basis eines Eingabebildes und eines vom Nutzer festgelegten Kamerabewegungspfads weltkonsistente (3D-consistent) Punktwolken-Video-Sequenzen
Nutzer können Kamerapfade frei festlegen und so 3D-Szenenvideos zur Erkundung der Welt erstellen
Durch die gleichzeitige maßgeschneiderte Generierung von RGB- und Tiefenvideos (Depth) ist eine schnelle und zuverlässige 3D-Rekonstruktion möglich

Voyager ist mit zwei zentralen Komponenten aufgebaut
- (1) Weltkonsistente Video-Diffusionsarchitektur: Sie gewährleistet globale Szenenkonsistenz und erzeugt RGB und Tiefe gleichzeitig in ausgerichteter Form
- (2) Langstreckige Welterkundung: Unterstützt kontextkonsistente Szenenerweiterung mithilfe von Point Culling, autoregressiver Inferenz und flüssigem Video-Sampling

Für das Training von Voyager wurde eine skalierbare Daten-Engine auf Basis einer Video-Rekonstruktions-Pipeline separat entwickelt
- Für beliebige gewöhnliche Videos werden Kameraposen-Schätzung und metrikbasierte Tiefenvorhersage automatisiert, sodass großskalige Trainingsdatensätze ohne manuelle Arbeit erzeugt werden können
- Bereitgestellt wird ein Datensatz mit mehr als 100.000 Videoclips, darunter reale Aufnahmen und synthetische Daten auf Basis der Unreal Engine

Bereitstellung einer Demo für interaktive Videogenerierung auf Basis steuerbarer Kamerapfade
Sofortige Rekonstruktion der zum generierten Video gehörenden 3D-Punktwolke möglich
Verschiedene Anwendungsszenarien werden demonstriert, darunter 3D-Szenengenerierung und Video-Tiefenschätzung aus einem einzelnen Bild

Bewertung im WorldScore-Benchmark
- Voyager erreicht in mehreren Kategorien wie Kamerasteuerung, Objektsteuerung, Content-Ausrichtung und 3D-Konsistenz Spitzenwerte
- Besonders in den Bereichen subjektive Qualität (Subjective Quality) und 3D-Konsistenz erzielt es die höchsten Werte

Für die Generierung von Videos in 540p-Auflösung auf einer einzelnen 80-GB-GPU werden mindestens 60 GB Speicher benötigt
Optimale Leistung wird unter Linux und in einer Umgebung mit CUDA 12.4 (empfohlen: mindestens 80 GB) geboten

Unterstützung für Multi-GPU-Parallelinferenz auf Basis von xDiT
- Bei Verwendung von 8 H20-GPUs werden für 49 Frames mit 50 Schritten (512x768) Ergebnisse in 288 Sekunden erzeugt (6,69-fache Beschleunigung gegenüber einer einzelnen GPU)

Echtzeit-Demo auf Basis von Gradio verfügbar
- Durch Hochladen eines Bildes, Auswahl der Kamerarichtung und Eingabe eines Prompt-Texts lassen sich RGB-D-Videos einfach erzeugen

Auch die großskalige, skalierbare Daten-Engine zur Erzeugung von Trainingsdaten für RGB-D-Videos wird als Open Source bereitgestellt

arXiv-Paper: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
Design und Implementierung von HunyuanWorld-Voyager basieren auf Forschungsergebnissen und verschiedenen Open-Source-Projekten wie VGGT, MoGE und Metric3D

Eine Stärke von Voyager gegenüber den meisten bestehenden Image-to-Video-Projekten ist, dass es aus einem einzelnen Bild weltkonsistente 3D-Videos auf Basis von Punktwolken entlang vielfältiger Pfade erzeugen kann
Da sowohl RGB- als auch Tiefeninformationen generiert werden und zugleich eine großskalige automatisierte Daten-Engine bereitgestellt wird, ist das Potenzial für den Einsatz in vielen Branchen groß, etwa bei der Erstellung realer 3D-Inhalte, virtueller Umgebungen, Digital Twins und AIGC-Anwendungen