1 Punkte von GN⁺ 2023-12-14 | 1 Kommentare | Auf WhatsApp teilen

Streambares, speichereffizientes Radiance Field (SMERF) für die Echtzeit-Erkundung großer Szenen

  • Fortschritte bei der Echtzeit-Ansichtssynthese ermöglichen es, nahezu fotorealistische Szenen in Echtzeit zu rendern.
  • Es besteht ein Spannungsverhältnis zwischen expliziten, rasterisierbaren Szenenrepräsentationen und neuronalen Feldern auf Basis von Ray Marching.
  • SMERF stellt einen Ansatz zur Ansichtssynthese vor, der bei großen Szenen in Echtzeit eine Spitzenleistung bei der Genauigkeit erreicht.

Methoden zur Steigerung der Ausdrucksstärke bei der Verarbeitung großer Szenen

  • Große Szenen mit mehreren Räumen werden als mehrere unabhängige Teilmodelle modelliert, und beim Rendering werden Teilmodelle auf Basis des Kameraursprungs ausgewählt.
  • Um komplexe blickrichtungsabhängige Effekte zu modellieren, werden innerhalb jedes Teilmodells zusätzlich gitterausgerichtete Parameter eines verzögerten MLP instanziiert.
  • Jedes Teilmodell repräsentiert die gesamte Szene, aber nur die dem Teilmodell zugewiesenen Gitterzellen werden in hoher Auflösung modelliert.

Nutzung von Distillation zur Maximierung der Ausdrucksstärke

  • Es wird gezeigt, dass sich die Bildqualität durch Distillation deutlich verbessern lässt.
  • Zunächst wird ein aktuelles Offline-Radiance-Field (Zip-NeRF) trainiert, und die RGB-Farbvorhersagen dieses Modells werden als Supervision für das eigene Modell verwendet.
  • Durch die Minimierung der volumetrischen Dichtewerte des Teacher-Modells wird die Differenz der Volume-Rendering-Gewichte zwischen Teacher und Student minimiert.

Meinung von GN⁺

  • SMERF ist eine innovative Technologie, die hochwertige Ansichtssynthese in großen Szenen in Echtzeit ermöglicht.
  • Diese Technologie ermöglicht 6DOF-Navigation im Webbrowser und liefert Echtzeitleistung auf verschiedenen Consumer-Geräten.
  • Der Ansatz von SMERF zeigt im Bereich der Echtzeit-Ansichtssynthese eine Leistung, die bestehende Techniken übertrifft, und ist damit eine spannende Entwicklung mit Anwendungsmöglichkeiten in Bereichen wie Virtual Reality, Spieleentwicklung und Online-Immobilienrundgängen.

1 Kommentare

 
GN⁺ 2023-12-14
Hacker-News-Kommentare
  • In dem Berliner Beispiel kann man durch den Spiegel an der Badezimmerwand in die Küche des Nachbarraums sehen. Vermutlich liegt das daran, dass der Tiefenmessalgorithmus Parallaxe nutzt und der Spiegel ihn wie ein Fenster verwirrt. Die Rückseite des Spiegels erzeugt in der Küche zwar einen unscharfen Bereich, aber durch diese Unschärfe kann man beide Räume sehen. Der Effekt wirkt etwas unheimlich. Es fühlt sich an wie ein Geist, der durch Wände schaut. Selbst auf einem zwei Jahre alten S21 FE funktioniert es beeindruckend gut.
  • Es ist im Berliner Demo sehr beeindruckend, wie beim Erkunden des Raums weitere Bilder gestreamt werden. Auch der Reflexionseffekt des Fernsehers ist sehr eindrucksvoll. Allerdings wird die Szene erst gerendert, wenn alle Bilder geladen sind, und es dauert lange, bis die anfänglichen etwa 40 Bilder vollständig geladen sind. Ich frage mich, ob es möglich ist, bereits mit partiellem Rendering zu beginnen, sobald Bilder eintreffen, oder ob man vor dem ersten großen Rendering zwingend auf alle Bilder warten muss.
  • Ich habe ein paar Fragen zur Demo fulllivingroom. (Bevorzuge den FPS-Modus)
    1. Wie viele Eingabebilder gibt es?
    2. Wie lange dauert es, dieses Modell zu berechnen?
    3. Wie lange dauert es, dieses Modell im Browser mit allen Levels usw. bereitzustellen?
    4. Habt ihr das schon in VR ausprobiert?
  • Ich frage mich, welchen Zusammenhang es zwischen dieser Rendering-Technik und den generierten BD-Szenen in Cyberpunk 2077 gibt. Das Verhalten von Volumen und „Voxel“ sieht sehr ähnlich aus.
  • Ich verfolge diese Technik über Two Minute Papers und freue mich darauf, sie zu nutzen. Mein Großvater ist vor zwei Jahren gestorben, und ich habe, wie im Demo gezeigt, Fotos von ihm gemacht. Vielen Dank.
  • Ich frage mich, ob es eine Open-Source-Toolchain gibt, mit der sich erfassbare, verarbeitbare und begehbare 3D-Walkthroughs hosten lassen (zum Beispiel so etwas wie ein Open-Source-Matterport).
  • Sehr beeindruckend wären Informationen dazu, wie sich diese Technik im Vergleich zu 3D Gaussian Splatting hinsichtlich Performance, Qualität oder Datengröße schlägt.
  • Was man aus diesen Techniken erkennen kann, ist ein sehr präzises einzelnes navigierbares 3D-Bild. Für Feature- und Objekterkennung, Verdeckung und Extraktion habe ich jedoch noch nichts gesehen. Hoffentlich braucht ein effizienterer und streambarer Codec eine Struktur, die sich auch leichter auf Analysen anwenden lässt.
  • Ich frage mich, wann wir diese Technologie in Consumer-VR sehen werden. Ich hätte erwartet, dass es sie schon gibt, aber offenbar ist das wegen Rechenbeschränkungen noch nicht der Fall. Ich frage mich, ob dadurch die Rechenanforderungen genug sinken, um auf Quest 2/3 zu laufen, oder ob es andere Faktoren gibt, die die binokulare Nutzung behindern.
  • Eine Frage an die Autoren: Gibt es eine Möglichkeit, bei der Rekonstruktion eines Szenenmodells auf Optimierungs- oder Tuningverfahren zu verzichten? Ihr verbessert die effiziente Art, Ansichten einer Szene zu rendern, aber die Szene selbst bleibt weiterhin statisch. Auch die Rekonstruktion der Szene kostet noch Zeit. Ich frage mich, ob es eine Möglichkeit gibt, das großartige Aussehen und die Details von RF und GS auch ohne teure Rekonstruktionskosten zu erreichen, und ob man mit der neuen Darstellung, bei der das Rendering nun schnell erfolgt, die Szene vielleicht mit traditionellen CG-Methoden gierig rekonstruieren könnte. Falls ich etwas missverstanden habe, entschuldige ich mich im Voraus, und ich bin euch wirklich dankbar für die Arbeit, die ihr leistet.