1 Punkte von GN⁺ 2024-05-18 | 1 Kommentare | Auf WhatsApp teilen
  • Menschen können die 3D-Welt auch in Bildern ohne 3D-Konsistenz wahrnehmen
  • Toon3D kann Kameraposen und hochdichte Geometrie durch piecewise-rigid deformable Optimierung rekonstruieren
  • Handgezeichnete Szenen sind nicht 3D-konsistent, lassen sich mit Toon3D jedoch rekonstruieren, und neue, zuvor ungesehene Ansichten können interpoliert werden

Abstract

  • Vorschlag von Toon3D
    • rekonstruiert die zugrunde liegende 3D-Struktur von Szenen, die geometrisch nicht konsistent sind
    • konzentriert sich auf handgezeichnete Bilder aus Comics und Animationen
    • viele Comics werden von Künstlern direkt gezeichnet, ohne 3D-Rendering-Engine
    • handgezeichnete Bilder stellen die Welt qualitativ getreu dar, aber es ist schwierig, mehrere Perspektiven 3D-konsistent zu zeichnen
    • Menschen können 3D-Szenen auch aus inkonsistenten Eingaben leicht erkennen
    • korrigiert Inkonsistenzen in 2D-Zeichnungen, damit neu verformte Zeichnungen untereinander konsistent werden
    • rekonstruiert dichte Struktur mithilfe eines benutzerfreundlichen Annotationswerkzeugs, Kameraposen-Schätzung und Bildverformung
    • kann Bilder so verformen, dass sie zu einem Perspektivkamera-Modell passen, und in Rekonstruktionsmethoden zur Erzeugung neuer Ansichten eingesteckt werden

Comic-Rekonstruktion

  • rekonstruiert zuerst Kameraposen und eine ausgerichtete Point Cloud
  • initialisiert Gaußsche Verteilungen aus der dichten Point Cloud und optimiert Gaussian Splatting mit den rekonstruierten Kameras
  • verfügt über Tiefenregularisierung und basiert auf Nerfstudio
  • zeigt Fly-through-Renderings der Szene

Methode

  • sagt die Tiefe jedes Bildes mit Marigold voraus und erhält mit SAM Kandidatenmasken für temporäre Bereiche
  • beschriftet Bilder mit dem Toon3D Labeler, um Korrespondenzen zu erhalten und temporäre Bereiche zu markieren
  • optimiert Kameraposen und verzerrt Bilder, um korrigierte Perspektivkameras zu erhalten
  • initialisiert Gaußsche Verteilungen mit der ausgerichteten dichten Point Cloud und führt eine Verfeinerung durch

Toon3D Labeler

  • zeigt zwei Hauptschritte der Methode
    • Sparse-Alignment-Video: grobe Schätzung der Kameraparameter
    • Dense-Alignment-Video: zeigt, wie in 3D mit verschiedenen Layern ausgerichtet wird (Kamera, spärliche Korrespondenzen, Verzerrungs-Mesh usw.)

Erkundung des Hausinneren aus Rick and Morty

  • rekonstruiert das Innere des Hauses aus Rick and Morty, indem Wände und Decken beschriftet und Räume verbunden werden
  • erstes Video: zeigt Point Cloud, Kameras und eine benutzerdefinierte Labeling-Oberfläche
  • zweites Video: per Slider kann man durch das Hausinnere navigieren

Point Cloud und Kameras

  • zeigt Point Clouds und rekonstruierte Kameras für 12 Comic-Szenen aus dem Toon3D-Datensatz
  • durch Klick auf die Icons lassen sich die Szenen erkunden

Rekonstruktion aus spärlichen Ansichten

  • kann Szenen mit wenigen Bildern und großen Blickwinkeländerungen rekonstruieren
  • wo COLMAP scheitern kann, können Menschen mit dem Toon3D Labeler eingreifen und beschriftete Korrespondenzen bereitstellen
  • zeigt Fly-through-Renderings für zwei Räume in einem Airbnb-Inserat ("Wohnzimmer" und "Schlafzimmer 2")

Visualisierung von Inkonsistenzen

  • da Comics von Hand gezeichnet sind, müssen Bilder für 3D-Konsistenz verzerrt werden
  • erster Eintrag: Video, in dem während der Alignment-Optimierung Verzerrungen entstehen
  • die nächsten beiden Einträge: Bilder der Original- und verzerrten Zeichnungen sowie ihre Überlagerung
  • unscharfe Bereiche zeigen, wo starke Verzerrungen aufgetreten sind

Rekonstruktion von Zeichnungen

  • mit Toon3D lassen sich auch handgezeichnete Illustrationen rekonstruieren
  • zunächst wird die Tiefe jedes Bildes vorhergesagt, dann werden Point Clouds ausgerichtet und verzerrt
  • abschließend wird mit Gaußscher Verfeinerung ein Video erzeugt

Meinung von GN⁺

  • Toon3D ist eine innovative Methode zur 3D-Rekonstruktion handgezeichneter Bilder aus Comics und Animationen
  • die Technik bietet neue visuelle Erfahrungen und könnte besonders für Animationsproduktion und Spieleentwicklung sehr hilfreich sein
  • der manuelle Beschriftungsprozess kann jedoch etwas umständlich sein; weiterentwickelte automatisierte Methoden wären wünschenswert
  • ähnliche Projekte mit vergleichbaren Funktionen sind COLMAP und Nerfstudio
  • bei der Einführung dieser Technik sind präzise Beschriftung und Tiefenvorhersage wichtig, um eine konsistentere 3D-Rekonstruktion zu erhalten

1 Kommentare

 
GN⁺ 2024-05-18
Hacker-News-Diskussion

Zusammenfassung der Hacker-News-Kommentare

  • Beispiel mit dem Planet-Express-Gebäude aus Futurama

    • Es ist interessant, dass das Planet-Express-Gebäude aus Futurama als Beispiel für 3D-Inkonsistenzen verwendet wurde. Tatsächlich scheint es aus einem 3D-Modell erzeugt worden zu sein.
    • Ich bin kein Grafikartist, schätze aber sehr, dass die Kunst von Illustratoren kreative Ausdruckstechniken nutzt, um komplexe Bedeutungen zu vermitteln.
    • Es erinnert an die „verwirrende“ 3D-Raumrekonstruktion, ähnlich dem jüngsten Hype um LLMs (Large Language Models).
  • Der Spaß an der Erzeugung von 3D-Räumen

    • Es ist eine sehr unterhaltsame Idee, aus inkonsistenten Quellbildern einen 3D-Raum zu erzeugen.
    • Vor einigen Jahren habe ich versucht, abstrakte, nicht-räumliche Bilder in Virtual-Reality-Räume umzuwandeln. Zum Beispiel, abstrakte Gemälde von Kandinsky oder Pollock in erkundbare VR-Räume zu transformieren.
    • Der Workflow beginnt mit einem abstrakten Bild, verwendet dann SinGan, um alternative „Viewpoints“ der „Szene“ zu erzeugen, führt anschließend per 3D Photo Inpainting ein Depth Mapping durch und speist die Frames dann in eine Photogrammetrie-App ein.
  • Möglichkeiten zukünftiger 3D-Modellerzeugung

    • Es ist erstaunlich, dass man auf Basis einer Zeichnung einer vorgestellten Szene ein 3D-Modell, wenn auch von geringer Qualität, erzeugen kann.
    • Vielleicht können Künstler in Zukunft mit nur wenigen Bildern ein präzises 3D-Modell erhalten.
    • Es gibt Bedenken hinsichtlich der Auswirkungen von AI-ähnlichen Tools auf Künstler. Dennoch lässt sich eine Zukunft vorstellen, in der Machine-Learning-basierte Systeme direkter mit Künstlern zusammenarbeiten.
    • Wenn man über den Wert nachdenkt, dass Künstler Kunst erschaffen, könnte ein Ersetzen der Künstler durch AI für die gesamte Zivilisation schlechte Folgen haben.
  • Probleme bei der 3D-Umwandlung von 2D-Artwork

    • 2D-Artwork besitzt keinen konsistenten 3D-Raum. Dieses Problem scheint hier nicht sinnvoll gelöst worden zu sein.
    • Sobald man die ursprüngliche Kameraposition verlässt, ist die Szene nahezu nicht mehr konsistent.
  • Photogrammetrie und VR

    • Jemand hat mit einer Quest 2 zu Photogrammetrie experimentiert. Dabei wurde eine Pipeline untersucht, die aus Fotos aus mehreren Blickwinkeln ein 3D-Modell erstellt.
    • Für die Portierung in VR ist die Erzeugung eines sauberen Meshes entscheidend. Die aktuellen Tools erzeugen keine 3D-Meshes.
    • Es gab die Motivation, ein Modell wie Matterport zu bauen und es an Immobilienfirmen zu verkaufen. Der arbeitsintensivste Schritt ist jedoch die automatische Erzeugung eines sauberen Meshes.
  • Notwendige Verbesserungen des Algorithmus

    • Bei der Rekonstruktion des Erscheinungsbilds aus der Perspektive bestimmter Bilder ist die Leistung nicht gut. Als Beispiel wurde der Magic School Bus genannt.
    • Der Algorithmus müsste so abgestimmt werden, dass er den Bildern stärker vertraut.
  • Probleme mit automatisch abspielenden Videos auf der Website

    • Eine Website, auf der alle Videos automatisch abgespielt und in Schleife wiederholt werden, ist unangenehm. Beim Besuch der Seite kommt es zu Rucklern, wenn man auf einem zweiten Bildschirm Videos ansieht.
  • Miyazakis mögliche Reaktion

    • Wenn man ihm das Beispiel aus Spirited Away zeigen würde, würde Miyazaki vermutlich sagen, es sei eine Beleidigung des Lebens selbst.
  • Ergebnisse bleiben hinter den Erwartungen zurück

    • Alle Beispiele sehen sehr schlecht aus. Wegen des Rauschens und der Unschärfe in den Zwischenframes sind sie zusammen mit dem Original kaum nutzbar.
    • Die Start- und Endpunkte der einzelnen Elemente sind fast gar nicht verbunden. Wände, Türen usw. fliegen zwar zum Ziel, verschwinden aber einige Fuß vor ihrer endgültigen Position.
    • Die Idee ist großartig, aber ich würde gern eine Version sehen, die tatsächlich funktioniert.