SHARP – ein Ansatz zur Synthese fotorealistischer Ansichten aus einem einzelnen Bild

(apple.github.io)

5 Punkte von GN⁺ 2025-12-17 | 1 Kommentare | Auf WhatsApp teilen

Das von Apple vorgestellte SHARP ist eine Technik, die aus einem einzelnen Foto eine 3D-Gaußsche Darstellung schätzt und daraus fotorealistische neue Perspektiven synthetisiert
Die Verarbeitung erfolgt auf einer Standard-GPU in einem einzelnen neuronalen Feedforward-Durchlauf in weniger als 1 Sekunde und ermöglicht Echtzeit-Rendering
Die erzeugte 3D-Darstellung ist eine metrische Darstellung mit absolutem Maßstab und unterstützt reale Kamerabewegungen
Auf mehreren Datensätzen zeigt das Verfahren Zero-Shot-Generalisierung und reduziert gegenüber bestehenden Modellen LPIPS um 25–34 % und DISTS um 21–43 %
Gegenüber bisherigen Ansätzen ist die Synthesegeschwindigkeit 1000-mal höher und setzt damit einen neuen Maßstab für 3D-Ansichtssynthese auf Basis eines einzelnen Bildes

Überblick über SHARP

SHARP (Sharp Monocular View Synthesis) ist ein Ansatz zur fotorealistischen 3D-Ansichtssynthese aus einem einzelnen Bild
- Aus einem einzelnen Eingabefoto werden die Parameter der 3D-Gaußschen Darstellung der Szene per Regression geschätzt
- Dieser Prozess ist auf einer Standard-GPU in weniger als 1 Sekunde abgeschlossen
Die erzeugte 3D-Gaußsche Darstellung unterstützt Echtzeit-Rendering und erzeugt hochauflösende Bilder aus benachbarten Perspektiven
- Es wird eine Rendering-Geschwindigkeit von mehr als 100 Bildern pro Sekunde erreicht
- Feine Strukturen und scharfe Details bleiben erhalten

Technische Merkmale

Die 3D-Darstellung von SHARP ist eine metrische Darstellung mit absolutem Maßstab, die reale Kamerabewegungen abbildet
Die Verarbeitung erfolgt mit nur einem einzelnen Feedforward-Durchlauf eines neuronalen Netzwerks, was ohne komplexe Optimierung schnelle Ergebnisse liefert
Durch Zero-Shot-Generalisierung bleibt die Leistung auch auf nicht trainierten Datensätzen stabil

Leistung und Vergleichsergebnisse

Auf mehreren Datensätzen wird State of the Art erreicht
- LPIPS um 25–34 % und DISTS um 21–43 % verbessert
- Die Synthesezeit ist im Vergleich zu den bisher besten Modellen um den Faktor 1000 kürzer
Diese Leistungssteigerung verbessert bei 3D-Ansichtssynthese auf Basis eines einzelnen Bildes Effizienz und Qualität gleichzeitig

Visuelle Ergebnisse

SHARP visualisiert anhand von Fotos von Unsplash die aus einem einzelnen Eingabebild erzeugte 3D-Darstellung
- Die Rendering-Ergebnisse aus benachbarten Perspektiven bewahren scharfe Details und feine Strukturen
- Echtzeit-Rendering ermöglicht natürliche Perspektivwechsel

Forschungsquelle

Die Forschungsarbeit wurde auf arXiv:2512.10685 veröffentlicht
- Titel: Sharp Monocular View Synthesis in Less Than a Second
- Forschungsteam: Lars Mescheder und 12 weitere
- Institution: Apple

1 Kommentare

GN⁺ 2025-12-17

Hacker-News-Kommentare

„Unsplash > Gen3C > The fly video“ ist wirklich ein alptraumhaftes Video
Wer es sich selbst ansehen will, kann diesen Link nutzen
- Unternehmen werden solche schrecklichen Ergebnisse sehen und trotzdem versuchen, noch schneller voranzukommen, aber ich hoffe weiterhin, dass reale Videos erhalten bleiben
  Am Ende werden die Menschen wohl ihre Beziehungen zur Realität verlieren und sich an virtuelle Entertainment-Suits klammern
  Wenn wir Glück haben, bleibt vielleicht wenigstens der Versuch, in der erweiterten Realität noch „echte“ Menschen zu treffen, aber wir sind schon jetzt viel zu abhängig von Technologie
  Ich bezweifle, dass technischer Fortschritt am Ende gute Ergebnisse für den Menschen bringt
- Das erinnert an die frühen KI-Zeiten, in denen „sich alles in Hundeköpfe verwandelte“, und wirkt gerade deshalb irgendwie schön
- „san check, 1d10“ — ein Witz im Stil eines Horror-Game-Memes, dass das Video so verstörend sei, dass man einen geistigen Stabilitätscheck brauche
- „Seth Brundle has entered the chat.“ — eine Anspielung auf die Hauptfigur aus dem Film The Fly, um die mutierte Atmosphäre des Videos zu beschreiben
Ich habe es geschafft, etwas auf Apple Silicon zum Laufen zu bringen
Im ml-sharp-GitHub-Repository gibt es auch ein kleines Demo-GIF
Ich versuche, Gaussian splat anzunähern, ohne es neu zu implementieren, aber ehrlich gesagt ist das ganz schön heftig
- Durch die Banding-Artefakte im GIF wirkt es interessant, weil die Flamme dadurch tatsächlich zu flackern scheint
  Beeindruckend war, dass die KI die Struktur eines Bildes im Bild erkannt und den Flammenbereich nur in 2D belassen hat
- Die Beispielergebnisse sind ehrlich gesagt nicht besonders beeindruckend. Wenn man sich die unteren 20 % ansieht, fällt die Qualität ab
„Was genau macht das hier?“
- Es ist eine Technik, die wie in Geschichtsdokumentationen Personen oder Objekte aus alten Fotos vom Hintergrund trennt und ihnen eine räumliche Bewegung gibt
  Diese Software verarbeitet das in weniger als einer Sekunde und erstellt daraus ein 3D-Modell
  Gaussian splashing ist dabei besonders cool
- Mit einem einzelnen 2D-Bild wird ein Parallax-Effekt simuliert, als würde man den Kamerawinkel ändern
  Die Trennung von Personen funktioniert gut, und auch Szenen mit mehreren Motiven lassen sich verarbeiten
  Das Prinzip ist ähnlich wie beim Porträtmodus-Effekt
- Ein einzelnes Foto wird in eine grobe 3D-Szene umgewandelt, und wenn man die Kamera leicht bewegt, kann man einen neuen Blickwinkel sehen
  „Photorealistic“ bedeutet dabei, dass reale Texturen und Beleuchtung erhalten bleiben
  Ähnlich wie die Spatial-Scene-Funktion der Apple-Fotos-App — Demo-Video
- Aus einem einzelnen Foto wird eine verborgene 3D-Repräsentation erschlossen, um aus einem leicht anderen Blickwinkel ein realistisches Bild zu erzeugen
- Im Grunde wird die Szene per Tiefenschätzung (depth estimation) in mehrere Ebenen aufgeteilt, verdeckte Bereiche werden per Inpainting ergänzt
  Anschließend werden die Ebenen bewegt, um Parallaxe zu erzeugen — ähnlich wie der Tiefeneffekt von Hintergründen in 2D-Sidescroller-Spielen
Auffällig ist, dass in den Beispielen fast keine menschlichen Gesichter vorkommen
Meiner bisherigen Erfahrung nach wirken Personen bei solchen Modellen aus räumlicher Sicht wie 2D-Pappfiguren
Ich weiß nicht, ob dieses Modell tatsächlich ein räumliches Gefühl erzeugen kann, aber dass menschliche Gesichter fehlen, ist vielsagend
- Apple verwendet für die Tiefenschätzung das Depth Pro-Modell, und die Gesichtsdarstellung soll recht gut sein
  Depth Pro GitHub / LearnOpenCV-Erklärung
Es stammt zwar von Apple, ist aber nur für CUDA-GPUs gedacht zugehörige Dokumentation
- Interessanterweise läuft Apples eigenes Modell nicht auf MPS
  Man wird wohl ein paar Jahre warten müssen
- Die Gaussian-splat-Ausgabe kann auch auf der CPU erzeugt werden
  Von den bisherigen KI-Repositories war das eines der am einfachsten auszuführenden
- Eine angepasste Version gibt es hier
- Diese Einschränkung gilt nur für das Video-Rendering
  Das Modell selbst läuft auf GPU, CPU und MPS
- Das Modell funktioniert auch ohne CUDA
  Als Ergebnis erhält man eine .ply-Datei, die man in den SparkJS-Viewer laden kann
  CUDA wird nur für das Rendern eines Side-Scroll-Videos benötigt
Der Kernpunkt ist, dass in weniger als einer Sekunde aus einem einzelnen Foto eine realistische 3D-Repräsentation erzeugt wird
Die Spatial-Scene-Funktion der Apple-Fotos-App arbeitet ähnlich
Demo-Video
- Allerdings entstehen dabei oft verschwommene und unnatürliche Räume
  Es gab Zeiten, in denen das inhaltsbasierte Füllen von Photoshop sogar besser war
Gibt es Beispiel-Dateien für Gaussian splat?
- Ich habe die Ergebnisse meiner eigenen Tests in dieses Repository hochgeladen
  Allerdings gibt es nur ein einziges Beispiel, daher lässt sich das schwer verallgemeinern
Die Ergebnisse sind beeindruckend, wirken aber zu scharf und künstlich
- Ich persönlich mag sowohl die Ergebnisse von TMPI als auch von SHARP
  Allerdings ist TMPI immer heller, und ich weiß nicht, welche Variante genauer ist

SHARP – ein Ansatz zur Synthese fotorealistischer Ansichten aus einem einzelnen Bild

Überblick über SHARP

Technische Merkmale

Leistung und Vergleichsergebnisse

Visuelle Ergebnisse

Forschungsquelle

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare