Bolt3D – Modell zur ultraschnellen Erzeugung von 3D-Szenen

Latent-Diffusion-Modell zur ultraschnellen Erzeugung von 3D-Szenen
Kann aus einem oder mehreren Eingabebildern in weniger als 7 Sekunden hochauflösende 3D-Szenen erzeugen
Wurde mit einem großen Multi-View-Konsistenz-Datensatz trainiert und ist im Vergleich zu bestehenden 3D-Generierungsmodellen bis zu 300-mal schneller
Während bestehende Modelle einen Optimierungsprozess benötigen, ermöglicht Bolt3D durch einen Feed-Forward-Ansatz eine sofortige Szenenerzeugung

Grenzen und Probleme bestehender Modelle

Bestehende 2D-Generierungsmodelle können Bilder in hoher Qualität erzeugen, aber die Erzeugung von 3D-Szenen ist schwierig
Bestehende 3D-Modelle haben unter anderem folgende Probleme:
- Schwierigkeiten bei der Verarbeitung komplexer 3D-Datenstrukturen
- Mangel an hochwertigen realen 3D-Szenendaten
- Hohe Rechenkosten und langsame Verarbeitungsgeschwindigkeit

Verwendung einer 3D-Gaussian-Darstellung:
- 3D-Gaussians bestehen aus Farbe, Position, Opazität und einer Kovarianzmatrix
- Das Rendering der 3D-Gaussians erfolgt über ein pixel-ausgerichtetes Bild namens Splatter Image
- Auch nicht sichtbare Bereiche können ergänzt und erzeugt werden

Schätzung der 3D-Szene aus dem Eingabebild mithilfe eines Latent-Diffusion-Modells
Kodierung geometrischer Informationen in den latenten Raum über Geometry VAE
Gaussian Head sagt detaillierte Eigenschaften der 3D-Gaussians voraus und korrigiert sie (z. B. Opazität, Farbe)
Durchführung eines sofortigen Renderings der hochauflösenden 3D-Szene

Das Latent-Diffusion-Modell übernimmt eine aus 2D-Bildgenerierungsmodellen weiterentwickelte Struktur
Geometry VAE kodiert 3D-Punktkarten und Kameraposen
Gaussian Head ergänzt die detaillierten Eigenschaften der erzeugten 3D-Szene

Aufbau eines groß angelegten Multi-View-Datensatzes:
- Einschließlich CO3D, MVImg, RealEstate10K, DL3DV-7K
- Bestehend aus insgesamt rund 300.000 Multi-View-Szenen
- Nutzung der MASt3R-Methode zur Gewinnung präziser Geometriedaten
Trainingsprozess:
1. Geometry VAE: Training mit einer Auflösung von 256×256 → 512×512
2. Gaussian Head: Korrektur der Erzeugung von Splatter Images
3. Latent Diffusion Model: Feintuning auf Basis des CAT3D-Modells

Bolt3D liefert bessere Ergebnisse als die bestehenden Modelle Flash3D und DepthSplat
Im Vergleich mit Flash3D erzielte Bolt3D beim PSNR-Wert eine um etwa 3,6 Punkte höhere Leistung, außerdem verbesserten sich auch SSIM und LPIPS
Auch im Vergleich mit dem Modell DepthSplat lag Bolt3D bei allen Leistungskennzahlen vorn
Besonders groß war der Leistungszuwachs in Situationen mit nur einem Eingabebild

Im Vergleich zu bestehenden optimierungsbasierten Modellen wie CAT3D erreicht Bolt3D eine ähnliche oder bessere Leistung bei 300-mal höherer Geschwindigkeit
Während CAT3D für die Erzeugung einer Szene etwa 5 Minuten benötigt, kann Bolt3D dieselbe Aufgabe in nur 6,25 Sekunden ausführen
Bei den Leistungskennzahlen erzielte CAT3D zwar einen etwas höheren PSNR-Wert als Bolt3D, bei der Verarbeitungsgeschwindigkeit zeigt Bolt3D jedoch eine überwältigende Leistung

Verwendung eines dedizierten VAE für geometrische Informationen → höhere Genauigkeit als bei einem allgemeinen Bild-VAE
Anwendung nichtlinearer Skalierung und Tiefen-Mapping → verbesserte Modellleistung

Integration und Korrektur von Multi-View-Informationen
Einsatz von Cross-Attention → ermöglicht ergänzende Erzeugung auch in nicht sichtbaren Bereichen

Bolt3D ermöglicht durch das Lernen geometrischer Informationen und einen Feed-Forward-Ansatz eine schnelle Erzeugung von 3D-Szenen
Gegenüber bestehenden Modellen wurden sowohl Leistung als auch Geschwindigkeit verbessert
Sofortige Erzeugung hochwertiger 3D-Szenen in verschiedenen Anwendungsfeldern möglich:
- Spieleentwicklung
- Virtual Reality (VR) und Augmented Reality (AR)
- Architektur- und Designvisualisierung
Mit einer 300-fach verbesserten Verarbeitungsgeschwindigkeit bestehen hohe Potenziale für Kommerzialisierung und Skalierung

Erzeugung von 3D-Szenen in weniger als 7 Sekunden
300-mal schnellere Leistung als bestehende Modelle
Hochauflösende Detaildarstellung und Konsistenz
Hohe Leistung bei Single- und Multi-View
Auch in komplexen und unvollständigen Szenen ist eine natürliche ergänzende Erzeugung möglich