5 Punkte von GN⁺ 2025-12-17 | 1 Kommentare | Auf WhatsApp teilen
  • Das von Apple vorgestellte SHARP ist eine Technik, die aus einem einzelnen Foto eine 3D-Gaußsche Darstellung schätzt und daraus fotorealistische neue Perspektiven synthetisiert
  • Die Verarbeitung erfolgt auf einer Standard-GPU in einem einzelnen neuronalen Feedforward-Durchlauf in weniger als 1 Sekunde und ermöglicht Echtzeit-Rendering
  • Die erzeugte 3D-Darstellung ist eine metrische Darstellung mit absolutem Maßstab und unterstützt reale Kamerabewegungen
  • Auf mehreren Datensätzen zeigt das Verfahren Zero-Shot-Generalisierung und reduziert gegenüber bestehenden Modellen LPIPS um 25–34 % und DISTS um 21–43 %
  • Gegenüber bisherigen Ansätzen ist die Synthesegeschwindigkeit 1000-mal höher und setzt damit einen neuen Maßstab für 3D-Ansichtssynthese auf Basis eines einzelnen Bildes

Überblick über SHARP

  • SHARP (Sharp Monocular View Synthesis) ist ein Ansatz zur fotorealistischen 3D-Ansichtssynthese aus einem einzelnen Bild
    • Aus einem einzelnen Eingabefoto werden die Parameter der 3D-Gaußschen Darstellung der Szene per Regression geschätzt
    • Dieser Prozess ist auf einer Standard-GPU in weniger als 1 Sekunde abgeschlossen
  • Die erzeugte 3D-Gaußsche Darstellung unterstützt Echtzeit-Rendering und erzeugt hochauflösende Bilder aus benachbarten Perspektiven
    • Es wird eine Rendering-Geschwindigkeit von mehr als 100 Bildern pro Sekunde erreicht
    • Feine Strukturen und scharfe Details bleiben erhalten

Technische Merkmale

  • Die 3D-Darstellung von SHARP ist eine metrische Darstellung mit absolutem Maßstab, die reale Kamerabewegungen abbildet
  • Die Verarbeitung erfolgt mit nur einem einzelnen Feedforward-Durchlauf eines neuronalen Netzwerks, was ohne komplexe Optimierung schnelle Ergebnisse liefert
  • Durch Zero-Shot-Generalisierung bleibt die Leistung auch auf nicht trainierten Datensätzen stabil

Leistung und Vergleichsergebnisse

  • Auf mehreren Datensätzen wird State of the Art erreicht
    • LPIPS um 25–34 % und DISTS um 21–43 % verbessert
    • Die Synthesezeit ist im Vergleich zu den bisher besten Modellen um den Faktor 1000 kürzer
  • Diese Leistungssteigerung verbessert bei 3D-Ansichtssynthese auf Basis eines einzelnen Bildes Effizienz und Qualität gleichzeitig

Visuelle Ergebnisse

  • SHARP visualisiert anhand von Fotos von Unsplash die aus einem einzelnen Eingabebild erzeugte 3D-Darstellung
    • Die Rendering-Ergebnisse aus benachbarten Perspektiven bewahren scharfe Details und feine Strukturen
    • Echtzeit-Rendering ermöglicht natürliche Perspektivwechsel

Forschungsquelle

  • Die Forschungsarbeit wurde auf arXiv:2512.10685 veröffentlicht
    • Titel: Sharp Monocular View Synthesis in Less Than a Second
    • Forschungsteam: Lars Mescheder und 12 weitere
    • Institution: Apple

1 Kommentare

 
GN⁺ 2025-12-17
Hacker-News-Kommentare
  • „Unsplash > Gen3C > The fly video“ ist wirklich ein alptraumhaftes Video
    Wer es sich selbst ansehen will, kann diesen Link nutzen

    • Unternehmen werden solche schrecklichen Ergebnisse sehen und trotzdem versuchen, noch schneller voranzukommen, aber ich hoffe weiterhin, dass reale Videos erhalten bleiben
      Am Ende werden die Menschen wohl ihre Beziehungen zur Realität verlieren und sich an virtuelle Entertainment-Suits klammern
      Wenn wir Glück haben, bleibt vielleicht wenigstens der Versuch, in der erweiterten Realität noch „echte“ Menschen zu treffen, aber wir sind schon jetzt viel zu abhängig von Technologie
      Ich bezweifle, dass technischer Fortschritt am Ende gute Ergebnisse für den Menschen bringt
    • Das erinnert an die frühen KI-Zeiten, in denen „sich alles in Hundeköpfe verwandelte“, und wirkt gerade deshalb irgendwie schön
    • „san check, 1d10“ — ein Witz im Stil eines Horror-Game-Memes, dass das Video so verstörend sei, dass man einen geistigen Stabilitätscheck brauche
    • „Seth Brundle has entered the chat.“ — eine Anspielung auf die Hauptfigur aus dem Film The Fly, um die mutierte Atmosphäre des Videos zu beschreiben
  • Ich habe es geschafft, etwas auf Apple Silicon zum Laufen zu bringen
    Im ml-sharp-GitHub-Repository gibt es auch ein kleines Demo-GIF
    Ich versuche, Gaussian splat anzunähern, ohne es neu zu implementieren, aber ehrlich gesagt ist das ganz schön heftig

    • Durch die Banding-Artefakte im GIF wirkt es interessant, weil die Flamme dadurch tatsächlich zu flackern scheint
      Beeindruckend war, dass die KI die Struktur eines Bildes im Bild erkannt und den Flammenbereich nur in 2D belassen hat
    • Die Beispielergebnisse sind ehrlich gesagt nicht besonders beeindruckend. Wenn man sich die unteren 20 % ansieht, fällt die Qualität ab
  • „Was genau macht das hier?“

    • Es ist eine Technik, die wie in Geschichtsdokumentationen Personen oder Objekte aus alten Fotos vom Hintergrund trennt und ihnen eine räumliche Bewegung gibt
      Diese Software verarbeitet das in weniger als einer Sekunde und erstellt daraus ein 3D-Modell
      Gaussian splashing ist dabei besonders cool
    • Mit einem einzelnen 2D-Bild wird ein Parallax-Effekt simuliert, als würde man den Kamerawinkel ändern
      Die Trennung von Personen funktioniert gut, und auch Szenen mit mehreren Motiven lassen sich verarbeiten
      Das Prinzip ist ähnlich wie beim Porträtmodus-Effekt
    • Ein einzelnes Foto wird in eine grobe 3D-Szene umgewandelt, und wenn man die Kamera leicht bewegt, kann man einen neuen Blickwinkel sehen
      „Photorealistic“ bedeutet dabei, dass reale Texturen und Beleuchtung erhalten bleiben
      Ähnlich wie die Spatial-Scene-Funktion der Apple-Fotos-App — Demo-Video
    • Aus einem einzelnen Foto wird eine verborgene 3D-Repräsentation erschlossen, um aus einem leicht anderen Blickwinkel ein realistisches Bild zu erzeugen
    • Im Grunde wird die Szene per Tiefenschätzung (depth estimation) in mehrere Ebenen aufgeteilt, verdeckte Bereiche werden per Inpainting ergänzt
      Anschließend werden die Ebenen bewegt, um Parallaxe zu erzeugen — ähnlich wie der Tiefeneffekt von Hintergründen in 2D-Sidescroller-Spielen
  • Auffällig ist, dass in den Beispielen fast keine menschlichen Gesichter vorkommen
    Meiner bisherigen Erfahrung nach wirken Personen bei solchen Modellen aus räumlicher Sicht wie 2D-Pappfiguren
    Ich weiß nicht, ob dieses Modell tatsächlich ein räumliches Gefühl erzeugen kann, aber dass menschliche Gesichter fehlen, ist vielsagend

  • Es stammt zwar von Apple, ist aber nur für CUDA-GPUs gedacht zugehörige Dokumentation

    • Interessanterweise läuft Apples eigenes Modell nicht auf MPS
      Man wird wohl ein paar Jahre warten müssen
    • Die Gaussian-splat-Ausgabe kann auch auf der CPU erzeugt werden
      Von den bisherigen KI-Repositories war das eines der am einfachsten auszuführenden
    • Eine angepasste Version gibt es hier
    • Diese Einschränkung gilt nur für das Video-Rendering
      Das Modell selbst läuft auf GPU, CPU und MPS
    • Das Modell funktioniert auch ohne CUDA
      Als Ergebnis erhält man eine .ply-Datei, die man in den SparkJS-Viewer laden kann
      CUDA wird nur für das Rendern eines Side-Scroll-Videos benötigt
  • Der Kernpunkt ist, dass in weniger als einer Sekunde aus einem einzelnen Foto eine realistische 3D-Repräsentation erzeugt wird

  • Die Spatial-Scene-Funktion der Apple-Fotos-App arbeitet ähnlich
    Demo-Video

    • Allerdings entstehen dabei oft verschwommene und unnatürliche Räume
      Es gab Zeiten, in denen das inhaltsbasierte Füllen von Photoshop sogar besser war
  • Gibt es Beispiel-Dateien für Gaussian splat?

    • Ich habe die Ergebnisse meiner eigenen Tests in dieses Repository hochgeladen
      Allerdings gibt es nur ein einziges Beispiel, daher lässt sich das schwer verallgemeinern
  • Die Ergebnisse sind beeindruckend, wirken aber zu scharf und künstlich

    • Ich persönlich mag sowohl die Ergebnisse von TMPI als auch von SHARP
      Allerdings ist TMPI immer heller, und ich weiß nicht, welche Variante genauer ist