Apple veröffentlicht Open-Source-Modell, das 2D-Fotos sofort in 3D-Ansichten umwandelt

(github.com/apple)

6 Punkte von GN⁺ 2025-12-28 | Noch keine Kommentare. | Auf WhatsApp teilen

SHARP ist ein Modell, das ein einzelnes Bild als Eingabe nimmt, in eine 3D-Gaussian-Repräsentation umwandelt und daraus realistische 3D-Ansichten erzeugt
Es sagt die 3D-Szenenparameter mit einer einzelnen Inferenz eines neuronalen Netzes in weniger als 1 Sekunde auf einer Standard-GPU voraus
Die erzeugte 3D-Repräsentation ist in Echtzeit renderbar und unterstützt metrische Kamerabewegungen einschließlich absoluter Skalierung
Über mehrere Datensätze hinweg erreicht es 25–34 % bessere LPIPS- und 21–43 % bessere DISTS-Werte sowie eine um drei Größenordnungen schnellere Synthesegeschwindigkeit als bestehende Modelle
Als Open Source veröffentlicht, sodass Entwickler CLI-basierte Vorhersage und Rendering direkt ausführen und mit verschiedenen 3D-Renderern integrieren können

Überblick über SHARP

SHARP (Sharp Monocular View Synthesis) ist ein Ansatz zur Erzeugung photorealistischer 3D-Ansichten aus einem einzelnen Foto
- Auf Basis des Eingabebildes werden die Parameter einer 3D-Gaussian-Repräsentation per Regression geschätzt
- Auf einer Standard-GPU wird mit nur einem einzigen Feedforward-Pass eine Verarbeitungszeit von unter 1 Sekunde erreicht
Die erzeugte 3D-Gaussian-Repräsentation kann in Echtzeit gerendert werden und liefert hochauflösende Bilder aus benachbarten Blickwinkeln
Die Repräsentation besitzt eine metrische Struktur einschließlich absoluter Skalierung und unterstützt reale Kamerabewegungen

Experimente zeigen, dass SHARP auf verschiedenen Datensätzen eine Zero-Shot-Generalisierung erreicht
Gegenüber bisherigen Bestwerten sinken LPIPS um 25–34 % und DISTS um 21–43 %
Die Synthesezeit wird um drei Größenordnungen verkürzt, also auf eine etwa 1000-fach schnellere Verarbeitung im Vergleich zu bisherigen Ansätzen

Kann in einer Python-3.13-Umgebung ausgeführt werden; Abhängigkeiten werden mit pip install -r requirements.txt installiert
Über die Kommandozeilenschnittstelle (CLI) kann die Vorhersage wie folgt ausgeführt werden
- sharp predict -i 입력경로 -o 출력경로
- Beim ersten Start wird der Modell-Checkpoint automatisch heruntergeladen und im lokalen Cache gespeichert
- Für einen manuellen Download kann die Option -c verwendet werden
Die Ausgabe wird als .ply-Datei im Format 3D Gaussian Splat (3DGS) gespeichert und ist mit öffentlichen 3DGS-Renderern kompatibel

In einer CUDA-GPU-Umgebung ist Video-Rendering entlang einer Kameratrajektorie möglich
- Mit der Option --render können Vorhersage und Rendering gleichzeitig ausgeführt werden
- Alternativ kann mit Zwischenergebnissen (.ply) ein separates Rendering ausgeführt werden
Es wird das OpenCV-Koordinatensystem verwendet (x nach rechts, y nach unten, z nach vorne); bei der Nutzung externer Renderer sind Skalierungs- und Rotationskorrekturen erforderlich

Code und Modell können gemäß den Bedingungen der Dateien LICENSE bzw. LICENSE_MODEL verwendet werden
Für die Zitierung der Forschung siehe das arXiv-Paper „Sharp Monocular View Synthesis in Less Than a Second (2025)“
Die Codebasis wurde auf mehreren Open-Source-Beiträgen aufgebaut