6 Punkte von GN⁺ 2025-12-28 | 1 Kommentare | Auf WhatsApp teilen
  • SHARP ist ein Modell, das ein einzelnes Bild als Eingabe nimmt, in eine 3D-Gaussian-Repräsentation umwandelt und daraus realistische 3D-Ansichten erzeugt
  • Es sagt die 3D-Szenenparameter mit einer einzelnen Inferenz eines neuronalen Netzes in weniger als 1 Sekunde auf einer Standard-GPU voraus
  • Die erzeugte 3D-Repräsentation ist in Echtzeit renderbar und unterstützt metrische Kamerabewegungen einschließlich absoluter Skalierung
  • Über mehrere Datensätze hinweg erreicht es 25–34 % bessere LPIPS- und 21–43 % bessere DISTS-Werte sowie eine um drei Größenordnungen schnellere Synthesegeschwindigkeit als bestehende Modelle
  • Als Open Source veröffentlicht, sodass Entwickler CLI-basierte Vorhersage und Rendering direkt ausführen und mit verschiedenen 3D-Renderern integrieren können

Überblick über SHARP

  • SHARP (Sharp Monocular View Synthesis) ist ein Ansatz zur Erzeugung photorealistischer 3D-Ansichten aus einem einzelnen Foto
    • Auf Basis des Eingabebildes werden die Parameter einer 3D-Gaussian-Repräsentation per Regression geschätzt
    • Auf einer Standard-GPU wird mit nur einem einzigen Feedforward-Pass eine Verarbeitungszeit von unter 1 Sekunde erreicht
  • Die erzeugte 3D-Gaussian-Repräsentation kann in Echtzeit gerendert werden und liefert hochauflösende Bilder aus benachbarten Blickwinkeln
  • Die Repräsentation besitzt eine metrische Struktur einschließlich absoluter Skalierung und unterstützt reale Kamerabewegungen

Leistung und Generalisierung

  • Experimente zeigen, dass SHARP auf verschiedenen Datensätzen eine Zero-Shot-Generalisierung erreicht
  • Gegenüber bisherigen Bestwerten sinken LPIPS um 25–34 % und DISTS um 21–43 %
  • Die Synthesezeit wird um drei Größenordnungen verkürzt, also auf eine etwa 1000-fach schnellere Verarbeitung im Vergleich zu bisherigen Ansätzen

Installation und Ausführung

  • Kann in einer Python-3.13-Umgebung ausgeführt werden; Abhängigkeiten werden mit pip install -r requirements.txt installiert
  • Über die Kommandozeilenschnittstelle (CLI) kann die Vorhersage wie folgt ausgeführt werden
    • sharp predict -i 입력경로 -o 출력경로
    • Beim ersten Start wird der Modell-Checkpoint automatisch heruntergeladen und im lokalen Cache gespeichert
    • Für einen manuellen Download kann die Option -c verwendet werden
  • Die Ausgabe wird als .ply-Datei im Format 3D Gaussian Splat (3DGS) gespeichert und ist mit öffentlichen 3DGS-Renderern kompatibel

Rendering-Funktionen

  • In einer CUDA-GPU-Umgebung ist Video-Rendering entlang einer Kameratrajektorie möglich
    • Mit der Option --render können Vorhersage und Rendering gleichzeitig ausgeführt werden
    • Alternativ kann mit Zwischenergebnissen (.ply) ein separates Rendering ausgeführt werden
  • Es wird das OpenCV-Koordinatensystem verwendet (x nach rechts, y nach unten, z nach vorne); bei der Nutzung externer Renderer sind Skalierungs- und Rotationskorrekturen erforderlich

Evaluierung und Referenzmaterial

  • Quantitative und qualitative Evaluierungsergebnisse sind im Paper enthalten
  • Auf der Projektseite lassen sich Beispielvideos zum Vergleich ansehen

Lizenz und Zitation

  • Code und Modell können gemäß den Bedingungen der Dateien LICENSE bzw. LICENSE_MODEL verwendet werden
  • Für die Zitierung der Forschung siehe das arXiv-Paper „Sharp Monocular View Synthesis in Less Than a Second (2025)“
  • Die Codebasis wurde auf mehreren Open-Source-Beiträgen aufgebaut

1 Kommentare

 
GN⁺ 2025-12-28
Hacker-News-Kommentare
  • Auf HN wurde Apples SHARP-Projekt erneut zum Gesprächsthema.
    Eine entsprechende Diskussion gab es auch schon im vorherigen Thread.

    • Der bereits unter dem Titel „SHARP, an approach to photorealistic view synthesis from a single image“ vorgestellte Beitrag wurde noch einmal geteilt.
    • Es wurde darauf hingewiesen, dass die GitHub-Installationsanleitung für das AI-Projekt nicht richtig funktioniert. Da meist vorausgesetzt wird, dass die Entwicklungsumgebung bereits eingerichtet ist, ist die Einstiegshürde für Anfänger hoch.
  • Offizielle Materialien zu SHARP finden sich auf der Projektseite und im Paper (arXiv).

    • Ein Nutzer erwähnte, dass Bradleys Demo-Video deutlich beeindruckender sei als die offizielle Seite.
    • Ein anderer Nutzer äußerte Neugier über die Veränderung in der Zusammensetzung von STEM-Fachkräften, da die Autoren alle aus dem Ausland zu stammen schienen.
  • In der Modelllizenz steht ausdrücklich „nur für Forschungszwecke“, daher ist das Projekt in Wirklichkeit nicht Open Source.

    • Auch im README wird es nicht als Open Source bezeichnet, sondern nur als auf Open-Source-Grundlagen aufgebaut.
    • Es wurde angemerkt, dass Metas Einfluss auf die Verwässerung der Bedeutung von „Open Source“ dazu geführt habe, dass inzwischen oft schon veröffentlichte Gewichte = Open Source angenommen werde.
    • Ein Nutzer meinte, „Gewichte unterliegen möglicherweise nicht dem Urheberrecht“, daher sei letztlich die rechtliche Durchsetzbarkeit durch Apple der entscheidende Punkt.
    • Da in der Hauptlizenz keine Einschränkungen genannt werden, scheint dadurch Verwirrung entstanden zu sein.
    • Ein Nutzer erklärte, er werde prüfen, „ob man damit ein profitables Produkt bauen kann“.
  • Ein Nutzer sagte, er habe das Projekt bereits so geforkt, dass es auf MPS rendern kann, und teilte sein GitHub-Repository.

    • Ein anderer Nutzer bedankte sich mit den Worten, es „sehe gut aus“.
  • Jemand hinterließ scherzhaft den Kommentar, dies sei „ein großer Tag für VR-Porno“.

    • Darauf erklärte ein anderer Nutzer, dass die Qualitätsgrenzen von VR-Inhalten in Wirklichkeit klar seien.
      Das Modell inferiere nur entlang einer Achse, sei außerdem auf 768px + 2 Layer begrenzt, und Echtzeitverarbeitung sei ebenfalls nicht möglich.
      Er fügte hinzu, dass es in diesem Jahr eher bei Bildbearbeitung und Video-Modellen größere Innovationen gegeben habe.
    • Ein weiterer Nutzer scherzte, der Begriff „Gaussian splat“ klinge für ihn nach etwas ganz anderem.
  • Es wurde angemerkt, dass sich die Debatte über die Definition von Open Source jedes Mal wiederhole, wenn ein Großunternehmen ein Modell veröffentliche, und dass sich der Begriff „Source“ bei AI-Modellen von dem in Software unterscheide.
    Apple wolle sich offenbar akademische Glaubwürdigkeit sichern und zugleich kommerzielle Optionen offenhalten.

    • Ein anderer Nutzer sagte, es sei schade, dass die Lizenzdebatte die oberen Kommentare dominiere, obwohl „die Technologie selbst erstaunlich“ sei, und bewertete es als eigentliche Stärke von Apple, dass man mit dieser Technik alte Fotos in VR erleben könne.
    • Ein weiterer Nutzer machte sich darüber lustig, dass der Ausdruck „which isn’t unsurprising“ unnötig kompliziert sei.
    • Danach folgte noch Humor in der Art von „Es ist überraschend, dass es nicht überraschend ist“.
  • Es wurde erwähnt, dass Menschen häufig mehrere Fotos desselben Objekts machen und damit faktisch stereoskopische Bilddaten liefern.

    • Ein anderer Nutzer ergänzte, dass sich auch die Frames von „Live Photo“ nutzen ließen.
  • Ein Nutzer sagte, er zögere mit dem Testen, weil er Conda nicht möge.

    • Ein anderer empfahl pixi und teilte konkrete Installationsbefehle mit; tatsächlich genügten auch Python 3.13 und uv ganz ohne Conda.
    • Ein weiterer Nutzer stimmte zu und meinte, das sei „keine irrationale Abneigung“.
  • Ein Nutzer berichtete, er experimentiere im Urlaub mit verwandten Projekten wie StereoCrafter und GeometryCrafter.
    Auf Video angewendet sei das wegen Problemen mit der temporalen Konsistenz deutlich schwieriger und rechenintensiver, aber beim Verräumlichen alter Heimvideos aus der Zeit des Koreakriegs habe es erstaunlich gut funktioniert.
    StereoCrafter-Link, GeometryCrafter-Link

    • Ein anderer Nutzer antwortete, dass er dieses Beispiel unbedingt sehen wolle.