- SHARP ist ein Modell, das ein einzelnes Bild als Eingabe nimmt, in eine 3D-Gaussian-Repräsentation umwandelt und daraus realistische 3D-Ansichten erzeugt
- Es sagt die 3D-Szenenparameter mit einer einzelnen Inferenz eines neuronalen Netzes in weniger als 1 Sekunde auf einer Standard-GPU voraus
- Die erzeugte 3D-Repräsentation ist in Echtzeit renderbar und unterstützt metrische Kamerabewegungen einschließlich absoluter Skalierung
- Über mehrere Datensätze hinweg erreicht es 25–34 % bessere LPIPS- und 21–43 % bessere DISTS-Werte sowie eine um drei Größenordnungen schnellere Synthesegeschwindigkeit als bestehende Modelle
- Als Open Source veröffentlicht, sodass Entwickler CLI-basierte Vorhersage und Rendering direkt ausführen und mit verschiedenen 3D-Renderern integrieren können
Überblick über SHARP
- SHARP (Sharp Monocular View Synthesis) ist ein Ansatz zur Erzeugung photorealistischer 3D-Ansichten aus einem einzelnen Foto
- Auf Basis des Eingabebildes werden die Parameter einer 3D-Gaussian-Repräsentation per Regression geschätzt
- Auf einer Standard-GPU wird mit nur einem einzigen Feedforward-Pass eine Verarbeitungszeit von unter 1 Sekunde erreicht
- Die erzeugte 3D-Gaussian-Repräsentation kann in Echtzeit gerendert werden und liefert hochauflösende Bilder aus benachbarten Blickwinkeln
- Die Repräsentation besitzt eine metrische Struktur einschließlich absoluter Skalierung und unterstützt reale Kamerabewegungen
Leistung und Generalisierung
- Experimente zeigen, dass SHARP auf verschiedenen Datensätzen eine Zero-Shot-Generalisierung erreicht
- Gegenüber bisherigen Bestwerten sinken LPIPS um 25–34 % und DISTS um 21–43 %
- Die Synthesezeit wird um drei Größenordnungen verkürzt, also auf eine etwa 1000-fach schnellere Verarbeitung im Vergleich zu bisherigen Ansätzen
Installation und Ausführung
- Kann in einer Python-3.13-Umgebung ausgeführt werden; Abhängigkeiten werden mit
pip install -r requirements.txt installiert
- Über die Kommandozeilenschnittstelle (CLI) kann die Vorhersage wie folgt ausgeführt werden
sharp predict -i 입력경로 -o 출력경로
- Beim ersten Start wird der Modell-Checkpoint automatisch heruntergeladen und im lokalen Cache gespeichert
- Für einen manuellen Download kann die Option
-c verwendet werden
- Die Ausgabe wird als
.ply-Datei im Format 3D Gaussian Splat (3DGS) gespeichert und ist mit öffentlichen 3DGS-Renderern kompatibel
Rendering-Funktionen
- In einer CUDA-GPU-Umgebung ist Video-Rendering entlang einer Kameratrajektorie möglich
- Mit der Option
--render können Vorhersage und Rendering gleichzeitig ausgeführt werden
- Alternativ kann mit Zwischenergebnissen (
.ply) ein separates Rendering ausgeführt werden
- Es wird das OpenCV-Koordinatensystem verwendet (x nach rechts, y nach unten, z nach vorne); bei der Nutzung externer Renderer sind Skalierungs- und Rotationskorrekturen erforderlich
Evaluierung und Referenzmaterial
- Quantitative und qualitative Evaluierungsergebnisse sind im Paper enthalten
- Auf der Projektseite lassen sich Beispielvideos zum Vergleich ansehen
Lizenz und Zitation
- Code und Modell können gemäß den Bedingungen der Dateien LICENSE bzw. LICENSE_MODEL verwendet werden
- Für die Zitierung der Forschung siehe das arXiv-Paper „Sharp Monocular View Synthesis in Less Than a Second (2025)“
- Die Codebasis wurde auf mehreren Open-Source-Beiträgen aufgebaut
Noch keine Kommentare.