2 Punkte von GN⁺ 2024-03-19 | 1 Kommentare | Auf WhatsApp teilen

Stable Video 3D: Hochwertige Synthese neuer Ansichten und 3D-Erzeugung aus einem einzelnen Bild

  • Stable Video 3D (SV3D), ein auf Stable Video Diffusion basierendes generatives Modell, wurde veröffentlicht. Die Videoqualität und die Konsistenz zwischen den Ansichten wurden deutlich verbessert.
  • Es gibt zwei Varianten: SV3D_u und SV3D_p
    • SV3D_u erzeugt ein Orbit-Video auf Basis eines einzelnen Eingabebilds ohne Kamerabedingungen.
    • SV3D_p erweitert dies, indem es sowohl ein einzelnes Bild als auch Orbit-Ansichten verarbeitet und 3D-Videos entlang eines vorgegebenen Kamerapfads erzeugt.
  • Stable Video 3D kann für kommerzielle Zwecke über eine Stability AI-Mitgliedschaft genutzt werden; für nichtkommerzielle Zwecke können die Modellgewichte bei Hugging Face heruntergeladen und das Research Paper eingesehen werden.

Vorteile von Video Diffusion

  • Durch die Anwendung des image-to-video diffusion-Modells Stable Video Diffusion mit zusätzlicher Kamerapfad-Konditionierung kann Stable Video 3D Multi-View-Videos von Objekten erzeugen.
  • Die Nutzung eines Video-Diffusion-Modells bietet gegenüber dem in Stable Zero123 verwendeten Bild-Diffusionsmodell wesentliche Vorteile bei der Generalisierung der erzeugten Ausgaben und der View-Konsistenz.
  • Darüber hinaus wird unter Nutzung der starken Fähigkeiten von Stable Video 3D eine verbesserte 3D-Optimierung vorgeschlagen, die beliebige Umlaufbahnen um ein Objekt erzeugen kann.

Erzeugung neuer Ansichten

  • SV3D führt insbesondere bei der Novel View Synthesis (NVS) wichtige Fortschritte ein.
  • Während bisherige Ansätze häufig mit eingeschränkten Perspektiven und Inkonsistenzen in den Ausgaben zu kämpfen haben, liefert SV3D aus jedem gegebenen Winkel konsistente Ansichten.
  • Diese Fähigkeit verbessert nicht nur die Steuerbarkeit der Pose, sondern stellt auch ein konsistentes Erscheinungsbild des Objekts über mehrere Ansichten hinweg sicher und verbessert damit einen entscheidenden Aspekt realistischer und präziser 3D-Erzeugung weiter.

3D-Erzeugung

  • SV3D nutzt die Multi-View-Konsistenz, um 3D Neural Radiance Fields (NeRF) und Mesh-Repräsentationen zu optimieren, wodurch die Qualität direkt aus neuen Ansichten erzeugter 3D-Meshes verbessert wird.
  • Dafür wurde ein Masked Score Distillation Sampling Loss entworfen, um die 3D-Qualität in Bereichen weiter zu verbessern, die in den vorhergesagten Ansichten nicht sichtbar sind.
  • Außerdem verwendet SV3D ein separates Beleuchtungsmodell, das zusammen mit 3D-Form und Textur optimiert wird, um Probleme durch eingebrannte Beleuchtung zu reduzieren.

1 Kommentare

 
GN⁺ 2024-03-19
Hacker-News-Kommentare
  • Der erste Nutzer versuchte das Modell Stable Video 3D (SV3D) mit einer 4090-Grafikkarte (24 GB VRAM) auszuführen, erlebte jedoch nach mehr als einer Minute Laufzeit einen Absturz wegen Speichermangels. Nachdem er das Skript angepasst und die Anzahl der gleichzeitig erzeugten Frames reduziert hatte, funktionierte die Generierung erfolgreich; die VRAM-Nutzung lag bei maximal 19,5 GB, bei 225 Watt dauerte es 1 Minute und 25 Sekunden.

    Stable Video 3D (SV3D): Ein generatives Modell, das ein Standbild als Eingabe nimmt und ein Orbit-Video des entsprechenden Objekts erzeugt; es basiert auf Stable Video Diffusion.

  • Der zweite Nutzer fragte sich, ob SV3D tatsächlich ein 3D-Modell ausgeben kann oder nur Bilder davon erzeugt, wie das Objekt aus anderen Blickwinkeln aussehen würde.
  • Der dritte Nutzer meinte, dass, falls die gezeigte Animation repräsentativ sei, das erzeugte Mesh gut genug für den Einsatz im 3D-Druck sein könnte, und freut sich auf Experimente.
  • Der vierte Nutzer fragte nach den Hardware- oder Speicheranforderungen, um SV3D auszuführen.
  • Der fünfte Nutzer fragte sich, ob für die Eingabe mehr als ein Bild erforderlich sei, ob es eine Demo-URL zum Ausprobieren gebe, und stellte die Frage, ob „Single-Image-Input“ mehrere Bilder bedeute.
  • Der sechste Nutzer erwähnte, dass alle Beispiele wie Plastikspielzeug für Kinder aussähen, und fragte sich, wie das System mit anderen Objekten umgehen würde (Menschen, Stoffe, Gebäude, Pflanzen, Berge, Maschinenteile usw.).
  • Der siebte Nutzer bewertete die Demo-Animation als sehr clever und zufriedenstellend.
  • Der achte Nutzer hofft, dass sich eine solche Technologie für architektonisches Design einsetzen lässt.
  • Der neunte und zehnte Kommentar sind jeweils mit „[dead]“ und „[flagged]“ markiert, daher ist ihr Inhalt nicht bekannt.