Apple veröffentlicht Open-Source-Modell, das 2D-Fotos sofort in 3D-Ansichten umwandelt
(github.com/apple)- SHARP ist ein Modell, das ein einzelnes Bild als Eingabe nimmt, in eine 3D-Gaussian-Repräsentation umwandelt und daraus realistische 3D-Ansichten erzeugt
- Es sagt die 3D-Szenenparameter mit einer einzelnen Inferenz eines neuronalen Netzes in weniger als 1 Sekunde auf einer Standard-GPU voraus
- Die erzeugte 3D-Repräsentation ist in Echtzeit renderbar und unterstützt metrische Kamerabewegungen einschließlich absoluter Skalierung
- Über mehrere Datensätze hinweg erreicht es 25–34 % bessere LPIPS- und 21–43 % bessere DISTS-Werte sowie eine um drei Größenordnungen schnellere Synthesegeschwindigkeit als bestehende Modelle
- Als Open Source veröffentlicht, sodass Entwickler CLI-basierte Vorhersage und Rendering direkt ausführen und mit verschiedenen 3D-Renderern integrieren können
Überblick über SHARP
- SHARP (Sharp Monocular View Synthesis) ist ein Ansatz zur Erzeugung photorealistischer 3D-Ansichten aus einem einzelnen Foto
- Auf Basis des Eingabebildes werden die Parameter einer 3D-Gaussian-Repräsentation per Regression geschätzt
- Auf einer Standard-GPU wird mit nur einem einzigen Feedforward-Pass eine Verarbeitungszeit von unter 1 Sekunde erreicht
- Die erzeugte 3D-Gaussian-Repräsentation kann in Echtzeit gerendert werden und liefert hochauflösende Bilder aus benachbarten Blickwinkeln
- Die Repräsentation besitzt eine metrische Struktur einschließlich absoluter Skalierung und unterstützt reale Kamerabewegungen
Leistung und Generalisierung
- Experimente zeigen, dass SHARP auf verschiedenen Datensätzen eine Zero-Shot-Generalisierung erreicht
- Gegenüber bisherigen Bestwerten sinken LPIPS um 25–34 % und DISTS um 21–43 %
- Die Synthesezeit wird um drei Größenordnungen verkürzt, also auf eine etwa 1000-fach schnellere Verarbeitung im Vergleich zu bisherigen Ansätzen
Installation und Ausführung
- Kann in einer Python-3.13-Umgebung ausgeführt werden; Abhängigkeiten werden mit
pip install -r requirements.txtinstalliert - Über die Kommandozeilenschnittstelle (CLI) kann die Vorhersage wie folgt ausgeführt werden
sharp predict -i 입력경로 -o 출력경로- Beim ersten Start wird der Modell-Checkpoint automatisch heruntergeladen und im lokalen Cache gespeichert
- Für einen manuellen Download kann die Option
-cverwendet werden
- Die Ausgabe wird als
.ply-Datei im Format 3D Gaussian Splat (3DGS) gespeichert und ist mit öffentlichen 3DGS-Renderern kompatibel
Rendering-Funktionen
- In einer CUDA-GPU-Umgebung ist Video-Rendering entlang einer Kameratrajektorie möglich
- Mit der Option
--renderkönnen Vorhersage und Rendering gleichzeitig ausgeführt werden - Alternativ kann mit Zwischenergebnissen (
.ply) ein separates Rendering ausgeführt werden
- Mit der Option
- Es wird das OpenCV-Koordinatensystem verwendet (x nach rechts, y nach unten, z nach vorne); bei der Nutzung externer Renderer sind Skalierungs- und Rotationskorrekturen erforderlich
Evaluierung und Referenzmaterial
- Quantitative und qualitative Evaluierungsergebnisse sind im Paper enthalten
- Auf der Projektseite lassen sich Beispielvideos zum Vergleich ansehen
Lizenz und Zitation
- Code und Modell können gemäß den Bedingungen der Dateien LICENSE bzw. LICENSE_MODEL verwendet werden
- Für die Zitierung der Forschung siehe das arXiv-Paper „Sharp Monocular View Synthesis in Less Than a Second (2025)“
- Die Codebasis wurde auf mehreren Open-Source-Beiträgen aufgebaut
1 Kommentare
Hacker-News-Kommentare
Auf HN wurde Apples SHARP-Projekt erneut zum Gesprächsthema.
Eine entsprechende Diskussion gab es auch schon im vorherigen Thread.
Offizielle Materialien zu SHARP finden sich auf der Projektseite und im Paper (arXiv).
In der Modelllizenz steht ausdrücklich „nur für Forschungszwecke“, daher ist das Projekt in Wirklichkeit nicht Open Source.
Ein Nutzer sagte, er habe das Projekt bereits so geforkt, dass es auf MPS rendern kann, und teilte sein GitHub-Repository.
Jemand hinterließ scherzhaft den Kommentar, dies sei „ein großer Tag für VR-Porno“.
Das Modell inferiere nur entlang einer Achse, sei außerdem auf 768px + 2 Layer begrenzt, und Echtzeitverarbeitung sei ebenfalls nicht möglich.
Er fügte hinzu, dass es in diesem Jahr eher bei Bildbearbeitung und Video-Modellen größere Innovationen gegeben habe.
Es wurde angemerkt, dass sich die Debatte über die Definition von Open Source jedes Mal wiederhole, wenn ein Großunternehmen ein Modell veröffentliche, und dass sich der Begriff „Source“ bei AI-Modellen von dem in Software unterscheide.
Apple wolle sich offenbar akademische Glaubwürdigkeit sichern und zugleich kommerzielle Optionen offenhalten.
Es wurde erwähnt, dass Menschen häufig mehrere Fotos desselben Objekts machen und damit faktisch stereoskopische Bilddaten liefern.
Ein Nutzer sagte, er zögere mit dem Testen, weil er Conda nicht möge.
uvganz ohne Conda.Ein Nutzer berichtete, er experimentiere im Urlaub mit verwandten Projekten wie StereoCrafter und GeometryCrafter.
Auf Video angewendet sei das wegen Problemen mit der temporalen Konsistenz deutlich schwieriger und rechenintensiver, aber beim Verräumlichen alter Heimvideos aus der Zeit des Koreakriegs habe es erstaunlich gut funktioniert.
StereoCrafter-Link, GeometryCrafter-Link