1 Punkte von GN⁺ 2025-09-05 | 1 Kommentare | Auf WhatsApp teilen
  • Voyager ist ein neues Video-Diffusions-Framework, das auf Basis eines Eingabebildes und eines vom Nutzer vorgegebenen Kamerapfads konsistente 3D-Punktwolken-Sequenzen erzeugt
  • Durch die gleichzeitige Generierung von RGB- und Tiefeninformationen ist eine effiziente und direkte 3D-Rekonstruktion möglich
  • Mit einer Pipeline zur Erstellung großskaliger Videodatensätze werden vielfältige Trainingsdaten ohne manuelle 3D-Annotationen bereitgestellt
  • Im WorldScore-Benchmark zeigt das Modell gegenüber mehreren bestehenden Ansätzen überlegene Leistung in verschiedenen Kategorien wie 3D-Konsistenz und Content-Ausrichtung
  • Unterstützung für optimierte parallele Inferenz auf einzelnen oder mehreren GPUs sowie eine Echtzeit-Demo zeigen das Potenzial für vielfältige Anwendungen

Projektvorstellung

  • HunyuanWorld-Voyager erzeugt auf Basis eines Eingabebildes und eines vom Nutzer festgelegten Kamerabewegungspfads weltkonsistente (3D-consistent) Punktwolken-Video-Sequenzen
  • Nutzer können Kamerapfade frei festlegen und so 3D-Szenenvideos zur Erkundung der Welt erstellen
  • Durch die gleichzeitige maßgeschneiderte Generierung von RGB- und Tiefenvideos (Depth) ist eine schnelle und zuverlässige 3D-Rekonstruktion möglich

Architektur

  • Voyager ist mit zwei zentralen Komponenten aufgebaut
    • (1) Weltkonsistente Video-Diffusionsarchitektur: Sie gewährleistet globale Szenenkonsistenz und erzeugt RGB und Tiefe gleichzeitig in ausgerichteter Form
    • (2) Langstreckige Welterkundung: Unterstützt kontextkonsistente Szenenerweiterung mithilfe von Point Culling, autoregressiver Inferenz und flüssigem Video-Sampling

Daten-Engine

  • Für das Training von Voyager wurde eine skalierbare Daten-Engine auf Basis einer Video-Rekonstruktions-Pipeline separat entwickelt
    • Für beliebige gewöhnliche Videos werden Kameraposen-Schätzung und metrikbasierte Tiefenvorhersage automatisiert, sodass großskalige Trainingsdatensätze ohne manuelle Arbeit erzeugt werden können
    • Bereitgestellt wird ein Datensatz mit mehr als 100.000 Videoclips, darunter reale Aufnahmen und synthetische Daten auf Basis der Unreal Engine

Hauptfunktionen und Demos

  • Bereitstellung einer Demo für interaktive Videogenerierung auf Basis steuerbarer Kamerapfade
  • Sofortige Rekonstruktion der zum generierten Video gehörenden 3D-Punktwolke möglich
  • Verschiedene Anwendungsszenarien werden demonstriert, darunter 3D-Szenengenerierung und Video-Tiefenschätzung aus einem einzelnen Bild

Leistungsvergleich

  • Bewertung im WorldScore-Benchmark
    • Voyager erreicht in mehreren Kategorien wie Kamerasteuerung, Objektsteuerung, Content-Ausrichtung und 3D-Konsistenz Spitzenwerte
    • Besonders in den Bereichen subjektive Qualität (Subjective Quality) und 3D-Konsistenz erzielt es die höchsten Werte

Systemanforderungen

  • Für die Generierung von Videos in 540p-Auflösung auf einer einzelnen 80-GB-GPU werden mindestens 60 GB Speicher benötigt
  • Optimale Leistung wird unter Linux und in einer Umgebung mit CUDA 12.4 (empfohlen: mindestens 80 GB) geboten

Parallele Inferenzleistung

  • Unterstützung für Multi-GPU-Parallelinferenz auf Basis von xDiT
    • Bei Verwendung von 8 H20-GPUs werden für 49 Frames mit 50 Schritten (512x768) Ergebnisse in 288 Sekunden erzeugt (6,69-fache Beschleunigung gegenüber einer einzelnen GPU)

Benutzeroberfläche und Demo

  • Echtzeit-Demo auf Basis von Gradio verfügbar
    • Durch Hochladen eines Bildes, Auswahl der Kamerarichtung und Eingabe eines Prompt-Texts lassen sich RGB-D-Videos einfach erzeugen

Offenlegung der Daten-Engine

  • Auch die großskalige, skalierbare Daten-Engine zur Erzeugung von Trainingsdaten für RGB-D-Videos wird als Open Source bereitgestellt

Zitation und Referenzen

  • arXiv-Paper: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
  • Design und Implementierung von HunyuanWorld-Voyager basieren auf Forschungsergebnissen und verschiedenen Open-Source-Projekten wie VGGT, MoGE und Metric3D

Zentrale Stärken und Alleinstellungsmerkmale des Projekts

  • Eine Stärke von Voyager gegenüber den meisten bestehenden Image-to-Video-Projekten ist, dass es aus einem einzelnen Bild weltkonsistente 3D-Videos auf Basis von Punktwolken entlang vielfältiger Pfade erzeugen kann
  • Da sowohl RGB- als auch Tiefeninformationen generiert werden und zugleich eine großskalige automatisierte Daten-Engine bereitgestellt wird, ist das Potenzial für den Einsatz in vielen Branchen groß, etwa bei der Erstellung realer 3D-Inhalte, virtueller Umgebungen, Digital Twins und AIGC-Anwendungen

1 Kommentare

 
GN⁺ 2025-09-05
Hacker-News-Kommentare
  • Diese Lizenz hat ziemlich interessante Bedingungen

    Weltweit nutzbar, aber die EU, das Vereinigte Königreich und Südkorea sind ausgeschlossen
    Ich hätte eher erwartet, dass die USA/Kanada ausgeschlossen wären, daher ist diese Kombination überraschend.
    Außerdem
    „Veröffentlichen Sie mindestens einmal einen technischen Vorstellungs-Blogpost oder einen Erfahrungsbericht nach der Nutzung und kennzeichnen Sie neue Services mit ‚Powered by Tencent Hunyuan‘“
    so eine Empfehlung ist in die Lizenz aufgenommen worden.
    Ich frage mich, was es bedeutet, wenn solche Empfehlungen Teil der Lizenz sind.

    • Ich denke, das liegt am EU AI Act.
      Ich habe selbst eine Compliance-Check-App ausprobiert und sogar mit den Angaben kleines Unternehmen/Open Source/Forschung/keine Clients gab es immer noch Registrierungen, Offenlegungspflichten und allerlei verhedderte Verfahren.
      Der Entwurf war verwirrend, und obwohl es verbessert schien, ist es immer noch unklar und bürokratisch.

    • Regionen wie die EU versuchen aktiv, KI zu regulieren.
      Der Zweck von Open-Source-Bibliotheken ist es, rechtliche Haftung zu vermeiden.
      Aber in solchen Regionen ist die Haftungsfrage kompliziert, also scheint man sich dafür entschieden zu haben, die Nutzung einfach ganz zu verbieten.

    • In der Lizenz wird empfohlen, „einen Blog oder Erfahrungsbericht“ zu veröffentlichen und „Powered by Tencent Hunyuan“ anzuzeigen.
      Das wirkt fast wie eine neue Werbeform à la YouTuber mit ihrem „Bitte abonnieren und liken“.

    • Solche Einschränkungen sehe ich praktisch als böswillige Compliance.
      Tatsächlich verlangt das KI-Gesetz nur eine zusammenfassende Beschreibung der Trainingsdaten und der Urheberrechtskonformität sowie der Art des Risikomanagements.
      Das ist weder extrem kompliziert noch Raketenwissenschaft.

    • Ich frage mich trotzdem, ob tatsächlicher Download und Nutzung in der EU vielleicht doch funktionieren.
      Ich achte nicht auf Lizenzen, aber ich vermute, dass man sich wahrscheinlich registrieren muss, um überhaupt etwas herunterladen zu können.

  • Technisch ist auch klar angegeben, dass nur ein einzelnes Bild als Eingabe möglich ist, aber ich frage mich, ob mehrere Bilder für so etwas wie Photogrammetrie nicht ausdrucksstärker wären.

    • Genau dieselbe Frage hatte ich auch.
      In meinem Fall hätte das einen ganz anderen praktischen Nutzen.
      In einigen Bereichen konnten wir mit einem LiDAR-Boot keine Tiefenmessdaten erfassen, und gerade für interessante Zonen fehlen Daten.
      Hier gibt es nur Flugvideos, in denen das Wasser in manchen Abschnitten transparent ist.
      Mit Videos aus genügend Blickwinkeln könnte man Störungen wie Wasserreflexionen entfernen, Bodenbilder verbessern und eine Rekonstruktion per Photogrammetrie versuchen.
      Der entscheidende Punkt ist, dass man für eine präzise Rekonstruktion Daten aus verschiedenen Winkeln braucht.
      Da die Sicht unter Wasser je nach Licht und Kamerawinkel variiert, musste man bisher zu unterschiedlichen Tageszeiten wiederholt fliegen.
      Ich würde gern ausprobieren, ob sich mit diesem Modell aus einem einzigen Bild etwas Ähnliches rekonstruieren lässt.

    • Es gibt bereits Photogrammetrie-Modelle, die so etwas mit mehreren Eingabebildern machen.
      Jemand könnte die Funktionalität durchaus erweitern, sodass statt eines einzelnen Fotos eine kleine Zahl von Bildern akzeptiert wird.
      Aber dem Ton der Frage nach klingt es tatsächlich ein bisschen so, als sei das einfach ein Detail, das „versehentlich nicht erwähnt“ wurde.

  • Interessant, dass in der Leistungs-Vergleichstabelle der „Bestwert“ rot hervorgehoben ist.

    • Das ist genau das gleiche Muster wie bei chinesischen Börsencharts.
      In China steht Rot für Kursanstieg und Grün für Rückgang.

    • Wie erwähnt hat Rot in Ostasien eine positive Bedeutung.
      Was ich aber noch interessanter finde, ist, dass die dritte Farbe Gelb ist.
      Das entspricht nicht der üblichen Reihenfolge des visuellen Spektrums.
      (Rot ~700nm, Grün ~550nm, Gelb ~580nm)
      Diese von der Alltagserwartung abweichende Farbreihenfolge finde ich spannend.

    • Die Bedeutung von Farben ist ein kulturelles Produkt.
      In China hat Rot eine andere Bedeutung als im Westen.
      Solche Entscheidungen sind im chinesischen Kontext überhaupt nicht ungewöhnlich.

    • Auch in westlicher Kommunikation (Filme, Mode) sieht man solche symbolischen Farben oft.
      Rot taucht häufig als Farbe auf, die an China erinnert.

    • Das ist ein Phänomen, das aus kulturellen Unterschieden entsteht, und ich finde es ziemlich interessant.
      Es hat allerdings keinen Einfluss auf meinen Alltag, also ist es für mich einfach eine interessante soziale Beobachtung.

  • 1995 besuchte ich eine Vorlesung eines indischen Professors über Bildverarbeitung.
    Damals fragte ich, wie man niedrig aufgelöste Bilder besser aussehen lassen könne, und bekam die Antwort: „Man kann keine Information erschaffen.“
    Und jetzt, 30 Jahre später, leben wir in einer Zeit, in der man aus einem einzigen Foto ein Video machen kann.

    • Tatsächlich kann man aus Bildern viel mehr Information extrahieren, als man denkt.
      Besonders bei Videos kommt noch viel mehr Information heraus.
      Solche Techniken nennt man „Super-Resolution“.
      Man kann Informationen nicht aus dem Nichts erschaffen, aber man kann fehlende Teile mithilfe von Wissen über die Eigenschaften des Motivs auf natürliche Weise ergänzen.

    • Der technische Fortschritt ist groß, aber die Bedeutung von „Information“ und „erschaffen“ war damals eigentlich eine andere.
      Zum Beispiel kann auch ein Kind, das mit Wachsmalstiften einen Strichmännchenkörper in ein Porträt malt, als „Hinzufügen von Information“ verstanden werden,
      aber es ist keine Information über das tatsächlich stattgefundene Ereignis.
      Und Forschende können keine Daten erfinden, Journalist:innen keine Zitate, weil der Verantwortungskontext jeweils ein anderer ist.

  • Kann dieses Modell wirklich eine vollständige 360-Grad-Drehung?
    In den hochgeladenen Videos wirkt es eher so, als bewege es sich nur leicht oder schwenke höchstens ein wenig.

    • Theoretisch ist das möglich.
      Für jedes Frame erzeugt das Modell ein Tiefenbild, und jedes Pixel wird zu einem 3D-Punkt.
      Unter der Annahme, dass die gesamte 3D-Szene statisch ist, kann man alle Frames als 3D-Punktwolken sammeln und aufeinanderstapeln.
      Danach könnte man den Blickwinkel mit einem klassischen 3D-Renderer beliebig drehen.
      Wenn es in der eigentlichen Videogenerierung aber an Konsistenz der Informationen zwischen den Frames fehlt, etwa bei Farbänderungen, dann ist auch die Punktwolke nur „konsistent falsche Daten“.
      Beim Drehen wirken die Farbkombinationen dann am Ende verwaschen und ineinandergeblendet.
      Und es ist schwierig, virtuelle Objekte korrekt in die erzeugte Szene einzusetzen.
      Denn es fehlen Beleuchtungsinformationen, und auch die Farbmischung passt nicht sauber zur Umgebung.
      Die Idee ist cool, aber es gibt noch viele zusätzliche Probleme zu lösen.
  • Ich freue mich wirklich darauf, solche Funktionen bald in echtem VR ausprobieren zu können.

    • Ich würde empfehlen, einmal den visionOS-26-Modus „Immersive Photo“ auszuprobieren.
      Fotos in der iCloud-Bibliothek werden automatisch durch ein lokales Modell umgewandelt (vermutlich als Gaussian-Splat-3D-Szene).
      Man kann schwenken und drehen, und allein dafür lohnt sich die Vision Pro schon fast.
      Sogar alte Fotos, die ich mit einer Nikon D70 aufgenommen habe, lassen Landschaften und Personen erstaunlich real wirken.

    • Sei nicht zu ungeduldig.
      Von wirklich hochauflösenden 120fps, stabilem Stereo und extrem niedriger Latenz sind wir noch ziemlich weit entfernt.

    • Ich denke, in ihrem aktuellen Zustand könnte die Anwendung sogar starke Übelkeit auslösen.
      Das Sichtfeld dieser Videos ist viel zu unruhig.

  • Ich frage mich, welches Modell oder welche Kombination derzeit für text-to-3D-asset am besten ist.
    Am liebsten auf Open-Source-Basis.

    • Direkt anschließend gefragt: Geht auch text-to-sprite-sheet,
      oder Text+Einzelbild→Sprite-Sheet?
  • Das ist in Wahrheit kein Open Source, sondern eher „weights-available“.
    Es gibt keine Trainingsdaten, und wenn Open Source die „bevorzugte Form für Modifikationen“ sein soll, dann müssten eigentlich auch die Daten dabei sein.
    Ein Teil des Originaltexts der Lizenz:

    „Bei mehr als 1 Million MAU im Vormonat ist eine vorherige Lizenz erforderlich,
    darf nicht zur Verbesserung anderer KI-Modelle verwendet werden“
    Auch die Acceptable Use Policy ist ziemlich konkret restriktiv.
    Vollständige Lizenz ansehen

    • Die Beschränkungen für EU/UK/Südkorea liegen vermutlich daran, dass diese Regionen gegen unautorisierte Datennutzung beim Training Einwände erheben oder finanzielle Entschädigung verlangen könnten.

    • Ich stimme der Aussage zu, dass es „kein Open Source“ ist,
      aber die „bevorzugte Form für Modifikationen“ ist nicht zwingend der Datensatz, sondern eher die weights.
      Die Daten sind eine Methode, um die weights zu verändern.

    • Ich möchte darauf hinweisen, dass Fine-Tuning viel günstiger ist.

    • Abgesehen von AI2 sind in Wahrheit wohl die meisten KI-Modelle kein echtes Open Source mit offengelegten Trainingslogs und Daten.
      Heutzutage wird Open Source praktisch oft als Synonym für „weights-available“ verwendet.

    • „7. Es dürfen keine eindeutig falschen Informationen erzeugt und verbreitet werden, um anderen zu schaden oder Wahlen zu manipulieren“
      „8. Es dürfen keine falschen Online-Aktivitäten wie gefälschte Reviews erzeugt werden“
      → Ist das nicht genau etwas, das sie selbst tun, während sie es anderen verbieten?
      „15. Es darf nicht in einer Weise verwendet werden, die gegen die soziale Ethik/Moral anderer Staaten oder Regionen verstößt“
      und ähnliche Klauseln machen eine Nutzung realistisch gesehen in allen Regionen schwierig.
      Die Policy geht viel zu weit.

  • Mich interessiert vor allem, ob man mit Fotos von Panoramax (offene StreetView-Alternative) eine 3D-navigierbare Szene rekonstruieren kann.

  • Ich möchte fragen, ob man die Kamera nicht gleich um 1080 Grad drehen lassen kann!!
    Die Videos sind <i>viel</i> zu kurz und schaffen nicht einmal vernünftige 45 Grad.
    Selbst Genie3 kommt nur auf etwa 90 Grad.
    Man muss wirklich auf die Teile achten, die das Modell „nicht kann“, und in diesem Fall ist das eben „es kann nicht ordentlich rotieren“.
    Wenn es nicht einmal einen einfachen Test besteht, bei dem man es an einer Stelle stehen lässt und dreht, möchte ich es nicht länger ein ‚World Model‘ nennen.
    Ugh, ich bin frustriert.