Stable Video 3D: Hochwertige Synthese neuer Ansichten und 3D-Erzeugung aus einem einzelnen Bild
- Stable Video 3D (SV3D), ein auf Stable Video Diffusion basierendes generatives Modell, wurde veröffentlicht. Die Videoqualität und die Konsistenz zwischen den Ansichten wurden deutlich verbessert.
- Es gibt zwei Varianten: SV3D_u und SV3D_p
- SV3D_u erzeugt ein Orbit-Video auf Basis eines einzelnen Eingabebilds ohne Kamerabedingungen.
- SV3D_p erweitert dies, indem es sowohl ein einzelnes Bild als auch Orbit-Ansichten verarbeitet und 3D-Videos entlang eines vorgegebenen Kamerapfads erzeugt.
- Stable Video 3D kann für kommerzielle Zwecke über eine Stability AI-Mitgliedschaft genutzt werden; für nichtkommerzielle Zwecke können die Modellgewichte bei Hugging Face heruntergeladen und das Research Paper eingesehen werden.
Vorteile von Video Diffusion
- Durch die Anwendung des image-to-video diffusion-Modells Stable Video Diffusion mit zusätzlicher Kamerapfad-Konditionierung kann Stable Video 3D Multi-View-Videos von Objekten erzeugen.
- Die Nutzung eines Video-Diffusion-Modells bietet gegenüber dem in Stable Zero123 verwendeten Bild-Diffusionsmodell wesentliche Vorteile bei der Generalisierung der erzeugten Ausgaben und der View-Konsistenz.
- Darüber hinaus wird unter Nutzung der starken Fähigkeiten von Stable Video 3D eine verbesserte 3D-Optimierung vorgeschlagen, die beliebige Umlaufbahnen um ein Objekt erzeugen kann.
Erzeugung neuer Ansichten
- SV3D führt insbesondere bei der Novel View Synthesis (NVS) wichtige Fortschritte ein.
- Während bisherige Ansätze häufig mit eingeschränkten Perspektiven und Inkonsistenzen in den Ausgaben zu kämpfen haben, liefert SV3D aus jedem gegebenen Winkel konsistente Ansichten.
- Diese Fähigkeit verbessert nicht nur die Steuerbarkeit der Pose, sondern stellt auch ein konsistentes Erscheinungsbild des Objekts über mehrere Ansichten hinweg sicher und verbessert damit einen entscheidenden Aspekt realistischer und präziser 3D-Erzeugung weiter.
3D-Erzeugung
- SV3D nutzt die Multi-View-Konsistenz, um 3D Neural Radiance Fields (NeRF) und Mesh-Repräsentationen zu optimieren, wodurch die Qualität direkt aus neuen Ansichten erzeugter 3D-Meshes verbessert wird.
- Dafür wurde ein Masked Score Distillation Sampling Loss entworfen, um die 3D-Qualität in Bereichen weiter zu verbessern, die in den vorhergesagten Ansichten nicht sichtbar sind.
- Außerdem verwendet SV3D ein separates Beleuchtungsmodell, das zusammen mit 3D-Form und Textur optimiert wird, um Probleme durch eingebrannte Beleuchtung zu reduzieren.
1 Kommentare
Hacker-News-Kommentare