Toon3D: Comics aus einer neuen Perspektive

(toon3d.studio)

1 Punkte von GN⁺ 2024-05-18 | 1 Kommentare | Auf WhatsApp teilen

Toon3D ist eine Methode, die aus Comic- und Animationsbildern derselben Szene Kameraposen und dichte 3D-Strukturen rekonstruiert, um Ansichten aus Perspektiven zu synthetisieren, die nie tatsächlich gezeichnet wurden
Da handgezeichneten Szenen oft explizite 3D-Konsistenz fehlt, scheitert herkömmliches SfM leicht; Toon3D gleicht Kamera und Szenengeometrie gemeinsam ab, während die Bilder verformt werden
Die Pipeline kombiniert Marigold-Tiefenvorhersage, SAM-Transient-Mask-Kandidaten und menschliche Beschriftung im Toon3D Labeler, um Korrespondenzen und transiente Bereiche in die Ausrichtung einzubeziehen
Die rekonstruierte dichte Punktwolke wird zur Initialisierung von Gaussian Splatting verwendet; mit Nerfstudio-basierter Optimierung und Tiefenregularisierung entstehen Fly-through-Renderings von Comic-Szenen
Der Fokus liegt darauf, stabilere Kameraposen und Szenengeometrie zu erhalten als mit COLMAP, Bundle Adjustment und DUSt3R; die Methode wird auch auf die Rekonstruktion von Airbnb-Zimmern und Gemälden angewendet

Warum SfM bei handgezeichneten Szenen schwierig ist

Menschen können die zugrunde liegende 3D-Szene selbst in Bildern erkennen, die nicht vollständig 3D-konsistent sind; Maschinen tun sich unter denselben Bedingungen schwer
Comics und Animationsbilder werden für Storytelling und kreative Ausdrucksformen oft ohne explizite geometrische Konsistenz gezeichnet
Da klassische Structure-from-Motion-(SfM-)Verfahren 3D-Konsistenz voraussetzen, scheitern sie bei solchen handgezeichneten Bildern häufig deutlich
COLMAP kann selbst mit perfekten Korrespondenzen keine nichtgeometrischen handgezeichneten Bilder rekonstruieren; auch Bundle Adjustment und DUSt3R zeigen sehr schlechte Leistung

Eine Ausrichtungsmethode, die Inkonsistenzen absorbiert

Toon3D rekonstruiert Kameraposen und Szenengeometrie gemeinsam, während geometrisch inkonsistente Bilder verformt werden
Die Kernidee ist, geometrische Inkonsistenzen zwischen Bildern durch Verformung zu absorbieren und die Szene so an eine konsistentere 3D-Struktur anzupassen
Strukturinformationen aus monokularer Tiefenvorhersage steuern diesen Ausrichtungsprozess
Auf Basis manuell beschrifteter Keypoints wird eine Piecewise-Rigid-Deformation optimiert, um Kameraposen und dichte Geometrie zu rekonstruieren

Verarbeitungspipeline

Die Tiefe jedes Bildes wird mit Marigold vorhergesagt
Kandidaten für Transient-Masken werden mit SAM erzeugt
Nutzer beschriften mit dem Toon3D Labeler Korrespondenzen zwischen Bildern und markieren transiente Bereiche
Im Optimierungsschritt werden Kameraposen angepasst und Bilder gewarpt, um korrigierte perspektivische Kameras zu erhalten
Abschließend werden aus der ausgerichteten dichten Punktwolke Gaussians initialisiert und ein Refinement ausgeführt

Gleichzeitige Optimierung von Kamera und Verformung

Toon3D hat zwei Hauptziele: camera alignment und deformation alignment
Das Camera-Alignment-Objective rekonstruiert die Kameraparameter
Das Deformation-Alignment-Objective verformt das Mesh für eine engere Ausrichtung
In der eigentlichen Optimierung werden beide Ziele gleichzeitig erfüllt
Die Methodenvisualisierung umfasst mehrere Ebenen wie Kameras, sparse correspondences, warping meshes, point clouds und gaussians

Neue-Ansicht-Synthese und Fly-through-Rendering

Toon3D rekonstruiert zunächst Kameraposen und eine ausgerichtete Punktwolke
Anschließend werden aus der dichten Punktwolke Gaussians initialisiert und Gaussian Splatting mit den rekonstruierten Kameras optimiert
Die Implementierung basiert auf Nerfstudio und umfasst Tiefenregularisierung
Das Ergebnis kann als Fly-through-Rendering von Comic-Szenen betrachtet werden
Zu den Beispielszenen gehören Bob's Burgers, Family Guy, SpongeBob SquarePants, Rick and Morty, Simpsons, Spirited Away, Futurama, Avatar, BoJack Horseman, Magic School Bus und Scooby-Doo

Toon3D-Dataset und Beschriftungstool

Das Toon3D Dataset besteht aus Multi-View-Bildern aus Comics und Animationen
Der Datensatz enthält verlässliche Annotationen für sparse correspondences
Für die Annotation wurde ein benutzerfreundliches Toon3D-Annotation-Tool verwendet
Die rekonstruierten Punktwolken werden mit Verfahren zur Novel-View-Synthesis verknüpft, sodass Comics aus Perspektiven betrachtet werden können, die nie gezeichnet wurden
Die Seite visualisiert Punktwolken und rekonstruierte Kameras für 12 Comic-Szenen

Rekonstruktion des Hausinneren aus Rick and Morty

Das Hausinnere aus Rick and Morty wird rekonstruiert, indem Wände und Decken beschriftet werden, um die Räume miteinander zu verbinden
Das erste Video zeigt Punktwolke, Kameras und eine benutzerdefinierte Beschriftungsoberfläche
Im zweiten Video lässt sich per Slider ein Walkthrough durch das Hausinnere ansehen
Das Bild der nächstgelegenen Kamera wird unten rechts auf dem Bildschirm angezeigt

Sparse-View- und andere Eingabefälle

Toon3D kann auch Szenen mit wenigen Bildern und großen Perspektivänderungen rekonstruieren
In Situationen, in denen COLMAP scheitern kann, lassen sich mit dem Toon3D Labeler manuell beschriftete Korrespondenzen ergänzen
Für zwei Räume eines Airbnb-Listings, „Living room“ und „Bedroom 2“, werden Fly-through-Renderings gezeigt
COLMAP konnte nicht alle Kameras rekonstruieren, aber Beschriftungen können COLMAP zum Erfolg verhelfen
Toon3D liefert im Hinblick auf die Vervollständigung der Szene die besten Ergebnisse

Warping-Visualisierung und Rekonstruktion von Gemälden

Da Comics von Hand gezeichnet sind, müssen Bilder gewartpt werden, um 3D-Konsistenz zu erreichen
Ein Video zeigt, wie das Warping während der Ausrichtungsoptimierung fortschreitet
Enthalten ist auch eine Visualisierung, die Originalbild, gewarptes Bild und die Überlappung beider Bilder vergleicht
Verschwommene Bereiche zeigen Stellen, an denen viel Warping aufgetreten ist
Toon3D wird auch auf handgezeichnete Gemälde angewendet: Nach der Tiefenvorhersage pro Bild werden Punktwolken ausgerichtet und gewarpt, und per Gaussian Refinement wird ein Video erzeugt

Verfügbare Materialien

arXiv: Toon3D-Paper
Code: Implementierungscode
Toon3D Labeler: Tool zum Beschriften von Korrespondenzen und transienten Bereichen
Demo: Hugging Face-Demo
Overview Video: Video zur Problemstellung und Methodenübersicht

1 Kommentare

GN⁺ 2024-05-18

Meinungen auf Hacker News

Interessant, dass das Planet-Express-Gebäude aus Futurama als Beispiel für 3D-Inkonsistenz genannt wird.
Das Äußere wirkt tatsächlich eher wie etwas, das per Computer aus einem 3D-Modell erzeugt wurde. Wenn man die Serie anschaut, gibt es häufig Establishing Shots, in denen die Kamera weich und komplex um das Gebäude herumfährt.
- Stimme zu. Das Planet-Express-Gebäude und die meisten oder alle Raumschiffe waren schon seit den frühen Staffeln 3D-Renderings, und auch einige Szenen mit Bender im All nutzten 3D-Rendering, wenn komplexe, kontinuierliche Perspektivwechsel nötig waren.
  Nicht fotorealistische 3D-Grafik (NPR) wird in Animationen schon viel länger eingesetzt, als man denkt. Ich habe kürzlich Disneys Animationsfilm „Oliver and Company“ von 1988 noch einmal gesehen und war überrascht, dass Autos und Gebäude „cel-shaded“ 3D-Modelle waren. Zuerst dachte ich, es sei remastert worden, aber beim Nachschlagen stellte sich heraus, dass es der erste Disney-Film war, der CGI in großem Umfang einsetzte[0], und dass das, was ich gesehen hatte, schon im Original enthalten war.
  Auf der gefundenen Seite steht: „This was the first Disney movie to make heavy use of computer animation. CGI effects were used for making the skyscrapers, the cars, trains, Fagin's scooter-cart and the climactic Subway chase. It was also the first Disney film to have a department created specifically for computer animation.“
  References
  0: https://disney.fandom.com/wiki/Oliver_%26_Company
- Ich vermute, 3D in Serien oder Spielen arbeitet oft mit Tricks, damit es für die Zuschauer gut aussieht.
  Ich erinnere mich an einen Artikel darüber, was 3D-Animatoren tun, damit etwas natürlich wirkt: Figuren auf 9 Fuß vergrößern, weil sie bei einer Kamerafahrt in der tatsächlichen Systemeinheit zu klein wirken würden; Torbögen riesig machen, die in bestimmten perspektivischen Shots aber normal aussehen; kleinere Figuren auf blaue Boxen außerhalb des Bildes stellen, damit extreme Größenunterschiede nicht seltsam wirken. Oder ein Korridor wäre in Wirklichkeit 1.000 Fuß lang, wirkt aber wegen der Kamerabewegung innerhalb der Welt wie 100 Fuß, während jede Tür in diesem Korridor 18 Fuß hoch ist.
  Wenn Werke wie Futurama solche Techniken genutzt haben, könnten beim Reverse Engineering und Rekonstruieren des 3D-Raums, in dem die Animatorinnen und Animatoren gearbeitet haben, riesige Türen, 9 Fuß große Menschen und nichteuklidische Korridore sichtbar werden. Nur weil es bei einer Kamerafahrt weich aussieht, heißt das nicht, dass das eigentliche 3D-Modell auch aus anderen Blickwinkeln Sinn ergibt.
- Heutzutage enthalten auch Animationen, die nicht wie 3D-Animation aussehen, oft irgendwo in der Produktionspipeline 3D-Modelle.
  Selbst wenn es keine digitalen 3D-Modelle gibt, stehen in Studios manchmal physische Modelle wichtiger Orte, damit Animatorinnen und Animatoren sie als Referenz nutzen können.
- Genau. Futurama nutzte schon ab der ersten Folge 1999 komposited 3D elements, und Fahrzeuge waren fast immer 3D.
- Das Äußere wurde eher nicht aus einem einzelnen 3D-Modell erzeugt, sondern aus mehreren 3D-Modellen, die dasselbe Objekt darstellen.
  Es kann sich im Laufe der Zeit geändert haben oder von Szene zu Szene anders gewesen sein; man kann es ähnlich sehen wie bei den Modellen der Star Trek Enterprise.
Cool ist es schon, aber mir fällt nicht wirklich ein, wofür man es praktisch einsetzen würde.
2D-Zeichnungen haben normalerweise keinen konsistenten 3D-Raum, und das Paper räumt das auch ein, aber es scheint dieses Problem nicht in einem nützlichen Sinn überwunden zu haben. Sobald man sich von der ursprünglich gezeichneten Kameraposition entfernt, wird die Konsistenz der Szene ziemlich schwach.
- Futurama und Family Guy verwenden zum Beispiel 3D-Rendering für Fahrzeuge, rendern sie so, dass sie wie Cartoons aussehen, und compositen sie dann mit flacher 2D-Animation.
  Eine ähnliche Art von Arbeit könnte ein Anwendungsfall sein.
  Eine weitere Nutzung könnten Game-Development-Studios sein, die lizenzierte Spiele auf Basis von 2D-Cartoons in 3D umsetzen. Als Visualisierungstool während Planung und Entwicklung, um schnell zu iterieren und als Referenz dafür, wie das ursprüngliche 2D in 3D übersetzt werden könnte.
- SpongeBob bricht die Regeln des 3D-Raums ganz offen. In der Serie gibt es schließlich sogar Feuer unter Wasser.
  Sowohl Autoren als auch Artists wurden stark von Looney Tunes inspiriert, und dort werden solche Regeln gebrochen, weil genau das lustig ist.
- Eine ausgereiftere Version könnte wohl genutzt werden, um Cartoons in stereoskopische Bilder zu verwandeln.
  Allerdings wäre es wahrscheinlich besser, statt dieses Mapping-Prozesses nur Tiefenschätzung zu verwenden und leere Bereiche per Bildgenerierung zu füllen.
- Ich sehe das eher als Vehikel, um die Technologie zu demonstrieren und weiterzuentwickeln.
  Solche Umgebungen erfordern keinen großen Aufwand für 3D-Modellierung, daher bezweifle ich, dass es in diesem Kontext einen echten Anwendungsfall gibt.
- Wenn das künftig weiter ausgereift ist, könnte man daraus Videospiele zu mehreren Serien erzeugen.
  Auch wenn es noch grob ist, sieht es so aus, als würde es die Originalzeichnungen besser übertragen als manche Umsetzungen von Spielen auf Cartoon-Basis.
Die Idee, aus inkonsistenten Ausgangsbildern einen 3D-Raum zu erstellen, ist wirklich spannend.
Vor ein paar Jahren habe ich etwas Ähnliches auf ziemlich grobe und schlechte Weise ausprobiert – nicht nur mit inkonsistenten Räumen ohne eindeutige richtige Lösung, sondern auch mit rein abstrakten, nicht-räumlichen Bildern, die von vornherein gar keinen 3D-Raum darstellen wollten. Es war ein Versuch, abstrakte Gemälde wie die von Kandinsky oder Pollock in erkundbare Virtual-Reality-Räume zu verwandeln. Natürlich gibt es keine richtige Antwort darauf, was es bedeutet, „in einem Pollock-Gemälde herumzulaufen“; das Ziel war einfach zu sehen, was passiert, wenn man es erzwingt.
Der Workflow sah so aus: 1. Mit einem einzelnen abstrakten Ausgangsbild beginnen 2. Mit SinGan andere „Blickwinkel“ der „Szene“ erzeugen 3. Auf das Original und die SinGan-Bilder 3d-photo-inpainting oder Projekte im Stil von Ken Burns anwenden und per monokularer Tiefenkartierung Zoom-/Rotations-/Schwenk-Videos ausgeben 4. Die Frames aus 3d-photo-inpainting in eine Photogrammetrie-App stecken. NeRF gab es noch nicht, und ich habe alle Einstellungen hochgedreht, um Fehler und Inkonsistenzen möglichst stark zuzulassen 5. Beten, dass der Photogrammetrie-Prozess nicht explodiert. In 9 von 10 Fällen crashte er nach 24 Stunden, was brutal war.
Ich müsste Beispiele auf Twitter gepostet haben, finde aber die Suchbegriffe nicht. Trotzdem kamen schon mit Tiefenkartierung auf dem Stand von 2019 ziemlich interessante Videos aus abstrakten Bildern heraus: https://x.com/jonathanfly/status/1174033265524690949 Am nächsten dran ist ein Photogrammetrie-Ergebnis eines NVIDIA-GauGAN-Videos ohne Konsistenz zwischen den Frames: https://x.com/jonathanfly/status/1258127899401609217
Ich frage mich, ob dieses Projekt dieselbe Idee besser umsetzen kann. Vielleicht probiere ich es dieses Wochenende aus.
- Welche Techniken oder Bibliotheken gibt es, die aus einem Bild einer 3D-Umgebung oder einer Raumzeichnung ein grobes Mesh erkennen können, das Boden, Wände und Hindernisse hervorhebt?
Nachdem ich mir früher eine Quest 2 gekauft hatte und in die Welt der Photogrammetrie eingetaucht war, habe ich mir die gesamte Pipeline angesehen, mit der man aus Fotos eines Objekts aus verschiedenen Winkeln ein 3D-Modell erstellt.
Ich habe MeshRoom und einige weitere Software genutzt, um Meshes zu bereinigen und nach Unity zu übertragen.
Nach meinem oberflächlichen Verständnis ist der entscheidende Punkt beim Überführen von etwas in VR – sodass man in Unity um ein Objekt herumlaufen kann – die Erstellung eines sauberen Meshes. Die 3D-Modelle, die Tools wie das in diesem Artikel erzeugen, sind, soweit ich es bisher nicht tiefer angeschaut habe, eher Punktwolken im 3D-Raum. Sie erzeugen kein 3D-Mesh.
Bei meiner Recherche habe ich Tools wie https://developer.nvidia.com/blog/getting-started-with-nvidi... gesehen, aber auch das erstellt kein Mesh. Ich würde es eher als eine Art Video sehen, nicht als etwas, in dem man in VR einfach herumlaufen kann.
Die unterschwellige Motivation war, etwas wie Matterport nachzubauen oder als Modell zu erstellen und an Immobilienfirmen zu verkaufen. Die große Lücke in meinem Verständnis – und der Grund, warum ich das Interesse verlor – war, dass ich nicht sicher war, wie man den Schritt automatisiert, aus mehreren Kamerafotos ein sauberes Mesh zu erzeugen. Für mich sah dieser Teil am arbeitsintensivsten aus. Später hörte ich, dass es Machine-Learning-Modelle gibt, die diesen Schritt übernehmen können, aber damit kenne ich mich nicht gut aus.
- Unreal + Nanite + PCVR zu verwenden, könnte die bessere Wahl sein.
  Nanite kann sehr komplexe Meshes verarbeiten und sie in Echtzeit algorithmisch vereinfachen. Im Grunde ist es ein fortgeschrittenes LOD-System. Ich kenne die Grenzen nicht, aber es wäre einen Versuch wert. Für Photogrammetrie kann ich Reality Capture sehr empfehlen. Es ist sehr günstig und man zahlt pro Scan.
- NeRF ist gewissermaßen die Technologie vom letzten Jahr; die derzeitige überhitzte Aufmerksamkeit gilt Gaussian Splatting.
  Soweit ich es verstehe, nehmen solche Techniken einige Bilder als Eingabe, trainieren ein Modell, und dieses Modell lernt in gewissem Sinne den besten Weg, die Bilder als Szenenmodell zu rendern. Gaussian Splatting stellt Bilder als eine Art „Klumpen“ im Raum dar, und jedes Bild muss aus einem bestimmten Blickwinkel mit derselben Menge von Klumpen gerendert werden. Wenn man also die Positionen der Splats so bestimmt, dass jedes Bild korrekt gerendert wird, kann man die Szene rekonstruieren.
  Derzeit ist dieses Training sehr teuer und muss für jedes Modell erneut durchgeführt werden, aber das Ergebnis lässt sich in Echtzeit erkunden.
  Der Photogrammetrie-Ansatz, den Matterport und andere verwenden, ist älter und benötigt Eingabedaten von deutlich höherer Qualität; die neueren Ansätze können meiner Ansicht nach aber auch mit weniger und qualitativ schlechteren Daten funktionieren.
- https://www.reddit.com/r/sdforall/comments/13lenfm/free_seam...
  https://github.com/3DTopia/OpenLRM
  Es heißt zwar, es sei von NeRF inspiriert, aber das zugrunde liegende Paper scheint sich für Vision Transformer entschieden zu haben. Die Open-Source-Version scheint Metas DINO als eine der Kernkomponenten zu verwenden.
- So etwas wie Shrink Wrap in Rhino?
Es ist ziemlich erstaunlich, dass man aus einer von jemandem imaginierten und gezeichneten Szene ein zwar schlechtes, aber brauchbares 3D-Modell erstellen kann.
Für die Zukunft kann man sich vorstellen, dass ein Artist nur ein paar Skizzen einer Szene zeichnet und daraus ein präzises 3D-Modell erhält.
Oder dass ein 2D-Artist nur ein paar Posen skizziert und daraus automatisch ein gut strukturiertes 3D-Modell samt Texturen entsteht.
In der Branche gibt es viele Sorgen darüber, welche Auswirkungen KI und ähnliche Tools auf Artists haben werden, aber man kann sich auch eine Zukunft vorstellen, in der Machine-Learning-Systeme direkter mit Artists zusammenarbeiten als beim Rendering auf Basis von Textprompts.
Was die moralische Debatte rund um das Training von KI angeht, sind meine Gefühle nicht eindeutig. Was mir mehr Sorgen macht als die Frage, wie trainiert wurde, ist, welche Auswirkungen es auf Menschen haben wird. Selbst wenn ein vollständig „ethisch“ trainiertes Modell perfekte Kunst erzeugt und Artists zu einem Nischenberuf werden, könnte das für die Zivilisation insgesamt ein schlechtes Ergebnis sein, weil ich es für wertvoll halte, dass Menschen Kunst schaffen, und weil auch eine Gesellschaft wertvoll ist, in der diese Tätigkeit in gewissem Maß nachhaltig ist.
Andererseits sind die Ergebnisse, die Menschen mit Bildmodellen erzeugen, auch erstaunlich, deshalb bin ich mir nicht sicher. Idealerweise könnten wir Menschen dabei unterstützen, das zu tun, was sie möchten, auch wenn es keinen Markt dafür gibt – aber die Welt ist dafür noch nicht bereit.
Ich bin zwar kein Grafiker, aber ich habe den Eindruck, dass in der Arbeit von Illustrator:innen viele kreative Ausdruckstechniken stecken, um komplexe Bedeutungen zu vermitteln.
Allerdings erinnert die im Video zu sehende missratene 3D-Raumrekonstruktion an den jüngsten Hype um große Sprachmodelle.
Das heißt: Das Ausdrucksprodukt hat zwar eine deutliche Verbindung zur „Wahrheit“ oder den „Fakten“ des Ausgangsmaterials, ist aber nicht genau genug, um als nützliches Ausgangsmaterial für anschließende Arbeiten gelten zu können.
- Ich habe das schon einmal ähnlich gesagt: Ich bin gespannt, ob ein LLM neue Episoden schreiben kann, die sich wie bestehende Episoden anfühlen.
  „Neue“ Episoden alter Cartoons zu sehen, wäre wirklich spannend. Das urheberrechtliche Chaos, das darauf folgen würde, ist natürlich eine andere Sache.
Ich war überrascht, wie schlecht die Ansicht aus der Perspektive bestimmter Bilder reproduziert wird.
Wenn man sich zum Beispiel unten den Magic School Bus ansieht, scheint man den Algorithmus in Richtung mehr Vertrauen in das Bild justieren zu können.
- Ein großer Teil von Kunst besteht darin, zwischen dem zu unterscheiden, was in der Realität stimmt, und dem, was sich gefühlt richtig anfühlt.
  Auch in 3D-Animation und Film, wo ich hauptsächlich arbeite, werden Hintergründe oder unscharfe Objekte im Vordergrund oft verzerrt und seltsam platziert, damit sie richtig aussehen, selbst wenn sie auf eine reale Weltkonstruktion abgebildet keinen Sinn ergeben würden. 2D-Kunst ist noch weniger an die Darstellung der realen Welt gebunden.
  Bei solchen Anwendungen sieht man, wie erstaunlich unser Gehirn darin ist, Konzepte auf Basis relativ abstrakter Darstellungen zu konstruieren, und wie beeindruckend die Fähigkeit von Künstler:innen ist, in diesem weniger definierten Bereich zu arbeiten. Eine Szene kann sich für das Publikum so anfühlen, als hätte sie eine konsistente Perspektive, aber das Sofa und der Beistelltisch im Hintergrund könnten so gezeichnet sein, als wären sie mit einem 120-mm-Objektiv aufgenommen, während der Vordergrund absichtlich beengt wie mit einem 30-mm-Objektiv wirkt. Das kann trotzdem richtig aussehen, weil wir keinen realistischen 3D-Raum erschließen müssen, in dem die Figuren existieren; wir müssen nur verstehen, dass sie sich in einem solchen Raum befinden. Wir wissen, wie es ist, in einem Raum zu sein, und wie Menschen mit diesem Raum interagieren.
  Gute Kunst liefert gerade genug, um die zentrale Idee zu vermitteln, macht sie zum Fokus der Botschaft und lässt das Gehirn unbewusst Verbindungen herstellen und Kontext ergänzen, sodass eine vollständige „Erfahrung“ entsteht. Alles — die Art von Sofa und Beistelltisch, die häufig verdrehte oder überzeichnete Skalierung und die Beziehungen zwischen Objekten — kann eine Kommunikationsebene für eine beabsichtigte künstlerische Wirkung sein und hat oft keine konsistente Entsprechung in der realen Welt. Außerdem werden Objekte in einzelnen Shots sicher auch verschoben, um die Komposition zu unterstützen oder Interaktionen hervorzuheben. Wenn man es bemerkt, ist es ein Kontinuitätsproblem; wenn man es nicht bemerkt, ist es gut gemacht. In der überwältigenden Mehrheit der Fälle bemerkt es niemand und hat einfach das Gefühl, eine Welt gesehen zu haben, deren Komposition aus jedem Winkel überzeugt.
  Ein Algorithmus, der Linien betrachtet und ein Szenario in der realen Welt finden muss, das dieser Darstellung entspricht, versucht womöglich etwas zu erzeugen, das in keiner konsistenten Form überhaupt existieren kann.
Ich verstehe nicht, warum eine Website mit so vielen Videos überall Autoplay und Endlosschleifen aktiviert.
Ich habe auf dem zweiten Bildschirm ein Video geschaut, und jedes Mal, wenn ich die Seite öffne, ruckelt alles.
- Ist das ein Chrome-Problem? Unter Firefox auf Windows starten die Videos nicht automatisch.
- Vielleicht ist deshalb mein Telefon beim Laden in Firefox auf dem iPhone eingefroren.
  Es ließ sich erst durch einen Neustart wieder lösen.
Wenn man Miyazaki das Beispiel aus Spirited Away zeigen würde, würde er es wahrscheinlich eine Beleidigung des Lebens selbst nennen.
- Für alle, die neugierig sind: Das ist eine Anspielung auf ein älteres Video: https://www.youtube.com/watch?v=ngZ0K3lWKRc
  Es ist also keine Übertreibung.
Ich bin überrascht, dass vor dem Schreiben dieses Beitrags offenbar nicht mit einem 3D-Animator gesprochen wurde. Der folgende Satz ist schlicht falsch:

The hand-drawn images are usually faithful representations of the world, but only in a qualitative sense, since it is difficult for humans to draw multiple perspectives of an object or scene 3D consistently. Nevertheless, people can easily perceive 3D scenes from inconsistent inputs!
Es stimmt, dass es für menschliche Künstler schwierig ist, perfekte geometrische Konsistenz einzuhalten. Aber das ist nicht der Grund, warum 3D-Szenen in 2D-Animation geometrisch inkonsistent sind. Der Grund ist, dass Künstler 3D-Szenen stilisieren und überzeichnen, um eine bestimmte künstlerische Absicht zu erzielen. Das gilt besonders für surreale Werke wie SpongeBob, und selbst King of the Hill hat Stilisierungen wie „Wohnzimmer-Perspektive“ oder „Küchen-Perspektive“. Künstler wollen es nicht realistisch aussehen lassen, sondern gut. Und sie wollen auch nicht, dass Menschen ein perfektes 3D-Bild rekonstruieren, sondern unsere 3D-Vorstellungskraft anregen. Das ist etwas völlig anderes.
Pixar und andere hochwertige 3D-Animationsstudios verzerren die tatsächliche Geometrie einer Szene absichtlich für filmische Wirkung. Ein kleines Kind aus der Perspektive eines Erwachsenen kann mit einem seltsam langen Hals und einem kurzen, gedrungenen Rumpf gerendert werden, weil der Animator die perspektivische Verkürzung bewusst übertreibt, um die emotionale Wirkung eines kleinen Kindes zu betonen. Realistische Perspektive ist einfach langweilig. Solche Techniken finden sich überall in Pixar-Filmen, und deshalb sehen sie viel besser aus als Ergebnisse, bei denen wie bei Billigstudios nur eine virtuelle Kamera durch einen euklidischen 3D-Raum bewegt wird.
Zu den technischen Details will ich nichts sagen, aber es wirkt, als hätten die Autoren den künstlerischen Kern verfehlt.
- Als jemand, der in diesem Bereich arbeitet: Meine Handfläche und mein Gesicht waren sich noch nie so nah.
  Am Projekt selbst ist nichts auszusetzen. Forschung ist Forschung, und es wird ja auch nicht als „gelöstes Problem“ verkauft. Aber bei bestimmten technisch geprägten Leuten lösen AI-Bildwerkzeuge ein völlig unbegründetes Wir haben Kunst gelöst-Gehabe aus. Das führt dazu, dass sie unbelegte Annahmen über grundlegende künstlerische Prinzipien arrogant, manchmal sogar von oben herab, in den Raum stellen.
  Ich arbeite seit Langem in der Softwarebranche, und die Arroganz der Softwareentwicklung ist mir nichts Neues; manchmal kann sie sogar nützlich sein. Aber ich glaube, ich habe in der Softwarewelt selten eine derart ausgeprägte kollektive Selbstüberschätzung zu einem einzelnen Thema gesehen.
- Besonders witzig ist das, wenn man bedenkt, dass dasselbe auch bei echten TV-Kameras passiert.
  Ein einfaches Beispiel: Viele Sets in Sitcoms, die wie quadratische Räume aussehen, sind in Wirklichkeit Trapeze, deren Wände in stumpfen Winkeln aufeinandertreffen. Kaum jemand bemerkt das.
- Selbst wenn man Stilisierung aus bestimmten künstlerischen Gründen beiseitelässt, sind Arbeiten in diesem Kontext schon allein wegen der simplen Anforderungen der Kamera oder „Kamera“ immer zwangsläufig verzerrt.
  Bei Werken aus der Zeit vor HD war das noch stärker der Fall. Denn damit Perspektiven nah genug waren, um Mimik und Gestik lesen zu können, mussten Menschen oder Figuren ziemlich eng ins Bild passen. Selbst wenn man sich die „realistischsten“ und bravsten Serien jener Zeit genau ansieht, findet man irgendwann Momente, in denen Möbel oder sogar Wände stillschweigend verschoben wurden, nur damit eine bestimmte Einstellung funktioniert.

Toon3D: Comics aus einer neuen Perspektive

Warum SfM bei handgezeichneten Szenen schwierig ist

Eine Ausrichtungsmethode, die Inkonsistenzen absorbiert

Verarbeitungspipeline

Gleichzeitige Optimierung von Kamera und Verformung

Neue-Ansicht-Synthese und Fly-through-Rendering

Toon3D-Dataset und Beschriftungstool

Rekonstruktion des Hausinneren aus Rick and Morty

Sparse-View- und andere Eingabefälle

Warping-Visualisierung und Rekonstruktion von Gemälden

Verfügbare Materialien

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News