SHARP – ein Ansatz zur Synthese fotorealistischer Ansichten aus einem einzelnen Bild
(apple.github.io)- Das von Apple vorgestellte SHARP ist eine Technik, die aus einem einzelnen Foto eine 3D-Gaußsche Darstellung schätzt und daraus fotorealistische neue Perspektiven synthetisiert
- Die Verarbeitung erfolgt auf einer Standard-GPU in einem einzelnen neuronalen Feedforward-Durchlauf in weniger als 1 Sekunde und ermöglicht Echtzeit-Rendering
- Die erzeugte 3D-Darstellung ist eine metrische Darstellung mit absolutem Maßstab und unterstützt reale Kamerabewegungen
- Auf mehreren Datensätzen zeigt das Verfahren Zero-Shot-Generalisierung und reduziert gegenüber bestehenden Modellen LPIPS um 25–34 % und DISTS um 21–43 %
- Gegenüber bisherigen Ansätzen ist die Synthesegeschwindigkeit 1000-mal höher und setzt damit einen neuen Maßstab für 3D-Ansichtssynthese auf Basis eines einzelnen Bildes
Überblick über SHARP
- SHARP (Sharp Monocular View Synthesis) ist ein Ansatz zur fotorealistischen 3D-Ansichtssynthese aus einem einzelnen Bild
- Aus einem einzelnen Eingabefoto werden die Parameter der 3D-Gaußschen Darstellung der Szene per Regression geschätzt
- Dieser Prozess ist auf einer Standard-GPU in weniger als 1 Sekunde abgeschlossen
- Die erzeugte 3D-Gaußsche Darstellung unterstützt Echtzeit-Rendering und erzeugt hochauflösende Bilder aus benachbarten Perspektiven
- Es wird eine Rendering-Geschwindigkeit von mehr als 100 Bildern pro Sekunde erreicht
- Feine Strukturen und scharfe Details bleiben erhalten
Technische Merkmale
- Die 3D-Darstellung von SHARP ist eine metrische Darstellung mit absolutem Maßstab, die reale Kamerabewegungen abbildet
- Die Verarbeitung erfolgt mit nur einem einzelnen Feedforward-Durchlauf eines neuronalen Netzwerks, was ohne komplexe Optimierung schnelle Ergebnisse liefert
- Durch Zero-Shot-Generalisierung bleibt die Leistung auch auf nicht trainierten Datensätzen stabil
Leistung und Vergleichsergebnisse
- Auf mehreren Datensätzen wird State of the Art erreicht
- LPIPS um 25–34 % und DISTS um 21–43 % verbessert
- Die Synthesezeit ist im Vergleich zu den bisher besten Modellen um den Faktor 1000 kürzer
- Diese Leistungssteigerung verbessert bei 3D-Ansichtssynthese auf Basis eines einzelnen Bildes Effizienz und Qualität gleichzeitig
Visuelle Ergebnisse
- SHARP visualisiert anhand von Fotos von Unsplash die aus einem einzelnen Eingabebild erzeugte 3D-Darstellung
- Die Rendering-Ergebnisse aus benachbarten Perspektiven bewahren scharfe Details und feine Strukturen
- Echtzeit-Rendering ermöglicht natürliche Perspektivwechsel
Forschungsquelle
- Die Forschungsarbeit wurde auf arXiv:2512.10685 veröffentlicht
- Titel: Sharp Monocular View Synthesis in Less Than a Second
- Forschungsteam: Lars Mescheder und 12 weitere
- Institution: Apple
1 Kommentare
Hacker-News-Kommentare
„Unsplash > Gen3C > The fly video“ ist wirklich ein alptraumhaftes Video
Wer es sich selbst ansehen will, kann diesen Link nutzen
Am Ende werden die Menschen wohl ihre Beziehungen zur Realität verlieren und sich an virtuelle Entertainment-Suits klammern
Wenn wir Glück haben, bleibt vielleicht wenigstens der Versuch, in der erweiterten Realität noch „echte“ Menschen zu treffen, aber wir sind schon jetzt viel zu abhängig von Technologie
Ich bezweifle, dass technischer Fortschritt am Ende gute Ergebnisse für den Menschen bringt
Ich habe es geschafft, etwas auf Apple Silicon zum Laufen zu bringen
Im ml-sharp-GitHub-Repository gibt es auch ein kleines Demo-GIF
Ich versuche, Gaussian splat anzunähern, ohne es neu zu implementieren, aber ehrlich gesagt ist das ganz schön heftig
Beeindruckend war, dass die KI die Struktur eines Bildes im Bild erkannt und den Flammenbereich nur in 2D belassen hat
„Was genau macht das hier?“
Diese Software verarbeitet das in weniger als einer Sekunde und erstellt daraus ein 3D-Modell
Gaussian splashing ist dabei besonders cool
Die Trennung von Personen funktioniert gut, und auch Szenen mit mehreren Motiven lassen sich verarbeiten
Das Prinzip ist ähnlich wie beim Porträtmodus-Effekt
„Photorealistic“ bedeutet dabei, dass reale Texturen und Beleuchtung erhalten bleiben
Ähnlich wie die Spatial-Scene-Funktion der Apple-Fotos-App — Demo-Video
Anschließend werden die Ebenen bewegt, um Parallaxe zu erzeugen — ähnlich wie der Tiefeneffekt von Hintergründen in 2D-Sidescroller-Spielen
Auffällig ist, dass in den Beispielen fast keine menschlichen Gesichter vorkommen
Meiner bisherigen Erfahrung nach wirken Personen bei solchen Modellen aus räumlicher Sicht wie 2D-Pappfiguren
Ich weiß nicht, ob dieses Modell tatsächlich ein räumliches Gefühl erzeugen kann, aber dass menschliche Gesichter fehlen, ist vielsagend
Depth Pro GitHub / LearnOpenCV-Erklärung
Es stammt zwar von Apple, ist aber nur für CUDA-GPUs gedacht zugehörige Dokumentation
Man wird wohl ein paar Jahre warten müssen
Von den bisherigen KI-Repositories war das eines der am einfachsten auszuführenden
Das Modell selbst läuft auf GPU, CPU und MPS
Als Ergebnis erhält man eine .ply-Datei, die man in den SparkJS-Viewer laden kann
CUDA wird nur für das Rendern eines Side-Scroll-Videos benötigt
Der Kernpunkt ist, dass in weniger als einer Sekunde aus einem einzelnen Foto eine realistische 3D-Repräsentation erzeugt wird
Die Spatial-Scene-Funktion der Apple-Fotos-App arbeitet ähnlich
Demo-Video
Es gab Zeiten, in denen das inhaltsbasierte Füllen von Photoshop sogar besser war
Gibt es Beispiel-Dateien für Gaussian splat?
Allerdings gibt es nur ein einziges Beispiel, daher lässt sich das schwer verallgemeinern
Die Ergebnisse sind beeindruckend, wirken aber zu scharf und künstlich
Allerdings ist TMPI immer heller, und ich weiß nicht, welche Variante genauer ist