- Das von Apple vorgestellte SHARP ist eine Technik, die aus einem einzelnen Foto eine 3D-Gaußsche Darstellung schätzt und daraus fotorealistische neue Perspektiven synthetisiert
- Die Verarbeitung erfolgt auf einer Standard-GPU in einem einzelnen neuronalen Feedforward-Durchlauf in weniger als 1 Sekunde und ermöglicht Echtzeit-Rendering
- Die erzeugte 3D-Darstellung ist eine metrische Darstellung mit absolutem Maßstab und unterstützt reale Kamerabewegungen
- Auf mehreren Datensätzen zeigt das Verfahren Zero-Shot-Generalisierung und reduziert gegenüber bestehenden Modellen LPIPS um 25–34 % und DISTS um 21–43 %
- Gegenüber bisherigen Ansätzen ist die Synthesegeschwindigkeit 1000-mal höher und setzt damit einen neuen Maßstab für 3D-Ansichtssynthese auf Basis eines einzelnen Bildes
Überblick über SHARP
- SHARP (Sharp Monocular View Synthesis) ist ein Ansatz zur fotorealistischen 3D-Ansichtssynthese aus einem einzelnen Bild
- Aus einem einzelnen Eingabefoto werden die Parameter der 3D-Gaußschen Darstellung der Szene per Regression geschätzt
- Dieser Prozess ist auf einer Standard-GPU in weniger als 1 Sekunde abgeschlossen
- Die erzeugte 3D-Gaußsche Darstellung unterstützt Echtzeit-Rendering und erzeugt hochauflösende Bilder aus benachbarten Perspektiven
- Es wird eine Rendering-Geschwindigkeit von mehr als 100 Bildern pro Sekunde erreicht
- Feine Strukturen und scharfe Details bleiben erhalten
Technische Merkmale
- Die 3D-Darstellung von SHARP ist eine metrische Darstellung mit absolutem Maßstab, die reale Kamerabewegungen abbildet
- Die Verarbeitung erfolgt mit nur einem einzelnen Feedforward-Durchlauf eines neuronalen Netzwerks, was ohne komplexe Optimierung schnelle Ergebnisse liefert
- Durch Zero-Shot-Generalisierung bleibt die Leistung auch auf nicht trainierten Datensätzen stabil
Leistung und Vergleichsergebnisse
- Auf mehreren Datensätzen wird State of the Art erreicht
- LPIPS um 25–34 % und DISTS um 21–43 % verbessert
- Die Synthesezeit ist im Vergleich zu den bisher besten Modellen um den Faktor 1000 kürzer
- Diese Leistungssteigerung verbessert bei 3D-Ansichtssynthese auf Basis eines einzelnen Bildes Effizienz und Qualität gleichzeitig
Visuelle Ergebnisse
- SHARP visualisiert anhand von Fotos von Unsplash die aus einem einzelnen Eingabebild erzeugte 3D-Darstellung
- Die Rendering-Ergebnisse aus benachbarten Perspektiven bewahren scharfe Details und feine Strukturen
- Echtzeit-Rendering ermöglicht natürliche Perspektivwechsel
Forschungsquelle
- Die Forschungsarbeit wurde auf arXiv:2512.10685 veröffentlicht
- Titel: Sharp Monocular View Synthesis in Less Than a Second
- Forschungsteam: Lars Mescheder und 12 weitere
- Institution: Apple
Noch keine Kommentare.