6 Punkte von GN⁺ 2025-12-28 | Noch keine Kommentare. | Auf WhatsApp teilen
  • SHARP ist ein Modell, das ein einzelnes Bild als Eingabe nimmt, in eine 3D-Gaussian-Repräsentation umwandelt und daraus realistische 3D-Ansichten erzeugt
  • Es sagt die 3D-Szenenparameter mit einer einzelnen Inferenz eines neuronalen Netzes in weniger als 1 Sekunde auf einer Standard-GPU voraus
  • Die erzeugte 3D-Repräsentation ist in Echtzeit renderbar und unterstützt metrische Kamerabewegungen einschließlich absoluter Skalierung
  • Über mehrere Datensätze hinweg erreicht es 25–34 % bessere LPIPS- und 21–43 % bessere DISTS-Werte sowie eine um drei Größenordnungen schnellere Synthesegeschwindigkeit als bestehende Modelle
  • Als Open Source veröffentlicht, sodass Entwickler CLI-basierte Vorhersage und Rendering direkt ausführen und mit verschiedenen 3D-Renderern integrieren können

Überblick über SHARP

  • SHARP (Sharp Monocular View Synthesis) ist ein Ansatz zur Erzeugung photorealistischer 3D-Ansichten aus einem einzelnen Foto
    • Auf Basis des Eingabebildes werden die Parameter einer 3D-Gaussian-Repräsentation per Regression geschätzt
    • Auf einer Standard-GPU wird mit nur einem einzigen Feedforward-Pass eine Verarbeitungszeit von unter 1 Sekunde erreicht
  • Die erzeugte 3D-Gaussian-Repräsentation kann in Echtzeit gerendert werden und liefert hochauflösende Bilder aus benachbarten Blickwinkeln
  • Die Repräsentation besitzt eine metrische Struktur einschließlich absoluter Skalierung und unterstützt reale Kamerabewegungen

Leistung und Generalisierung

  • Experimente zeigen, dass SHARP auf verschiedenen Datensätzen eine Zero-Shot-Generalisierung erreicht
  • Gegenüber bisherigen Bestwerten sinken LPIPS um 25–34 % und DISTS um 21–43 %
  • Die Synthesezeit wird um drei Größenordnungen verkürzt, also auf eine etwa 1000-fach schnellere Verarbeitung im Vergleich zu bisherigen Ansätzen

Installation und Ausführung

  • Kann in einer Python-3.13-Umgebung ausgeführt werden; Abhängigkeiten werden mit pip install -r requirements.txt installiert
  • Über die Kommandozeilenschnittstelle (CLI) kann die Vorhersage wie folgt ausgeführt werden
    • sharp predict -i 입력경로 -o 출력경로
    • Beim ersten Start wird der Modell-Checkpoint automatisch heruntergeladen und im lokalen Cache gespeichert
    • Für einen manuellen Download kann die Option -c verwendet werden
  • Die Ausgabe wird als .ply-Datei im Format 3D Gaussian Splat (3DGS) gespeichert und ist mit öffentlichen 3DGS-Renderern kompatibel

Rendering-Funktionen

  • In einer CUDA-GPU-Umgebung ist Video-Rendering entlang einer Kameratrajektorie möglich
    • Mit der Option --render können Vorhersage und Rendering gleichzeitig ausgeführt werden
    • Alternativ kann mit Zwischenergebnissen (.ply) ein separates Rendering ausgeführt werden
  • Es wird das OpenCV-Koordinatensystem verwendet (x nach rechts, y nach unten, z nach vorne); bei der Nutzung externer Renderer sind Skalierungs- und Rotationskorrekturen erforderlich

Evaluierung und Referenzmaterial

  • Quantitative und qualitative Evaluierungsergebnisse sind im Paper enthalten
  • Auf der Projektseite lassen sich Beispielvideos zum Vergleich ansehen

Lizenz und Zitation

  • Code und Modell können gemäß den Bedingungen der Dateien LICENSE bzw. LICENSE_MODEL verwendet werden
  • Für die Zitierung der Forschung siehe das arXiv-Paper „Sharp Monocular View Synthesis in Less Than a Second (2025)“
  • Die Codebasis wurde auf mehreren Open-Source-Beiträgen aufgebaut

Noch keine Kommentare.

Noch keine Kommentare.