Generative Bilddynamik

Ein Ansatz, der auf ein einzelnes statisches Bild einen Bildraum-Prior für Szenenbewegungen anwendet, um es in ein nahtlos schleifendes Video oder eine interaktiv nutzbare dynamische Szene zu verwandeln
Für das Training werden Trajektorien aus realen Videosequenzen verwendet, die natürlich oszillierende Bewegungen enthalten, etwa von Bäumen, Blumen, Kerzenflammen oder im Wind wehender Kleidung
Das Modell verarbeitet langfristige Bewegungen im Fourier-Bereich und sagt aus einem einzelnen Bild per frequenzkonditioniertem Diffusions-Sampling ein Spektralvolumen voraus
Das vorhergesagte Spektralvolumen wird in eine Motion Texture für das gesamte Video umgewandelt und für die Erzeugung von Schleifenvideos sowie für Objektinteraktionen in realen Fotos genutzt
Die Demo erfordert einen Browser mit WebGL2-Unterstützung und verwendet aus Geschwindigkeitsgründen Mesh-Warping anstelle des hochwertigen Rendering-Modells aus der Arbeit

Dynamische Szenen aus statischen Bildern erzeugen

Generative Image Dynamics ist eine Methode zur Modellierung eines Bildraum-Priors für Szenenbewegungen
Die Eingabe ist ein einzelnes statisches Bild, die Ausgabe ein nahtlos schleifendes Video oder eine dynamische Szene, mit der Nutzer interagieren können
Es gibt einsehbar: Paper, arXiv, Supplementary Material
Diese Arbeit erhielt den CVPR 2024 Best Paper Award

Bewegungs-Prior und Rendering-Verfahren

Die Trainingsdaten bestehen aus einer Sammlung von Bewegungstrajektorien, die aus realen Videosequenzen extrahiert wurden
- Als Beispiele dienen natürliche, oszillierende Bewegungen wie bei Bäumen, Blumen, Kerzenflammen oder im Wind wehender Kleidung
Das Modell modelliert dichte, langfristige Bewegungs-Priors im Fourier-Bereich
- Wenn ein einzelnes Bild gegeben ist, sagt es per frequenzkonditioniertem Diffusions-Sampling ein Spektralvolumen voraus
- Das Spektralvolumen kann in eine Motion Texture über das gesamte Video umgewandelt werden
In Kombination mit einem bildbasierten Rendering-Modul sind verschiedene Anwendungen möglich
- Es verwandelt statische Bilder in nahtlos schleifende Videos
- Interpretiert man das Spektralvolumen als modale Basis im Bildraum, lassen sich Objekte in realen Fotos realistisch interaktiv machen
- Die dynamische Reaktion von Objekten auf Nutzerimpulse wird mithilfe der Modalanalyse von Davis et al. simuliert

Demo und weitere Anwendungen

Die Demo zeigt, wie sich die Szene bewegt, wenn man einen Punkt im Bild anklickt, zieht und dann loslässt
- Der Browser muss WebGL2 unterstützen
- Für höhere Geschwindigkeit wird Mesh-Warping statt des hochwertigen Rendering-Modells aus dem Paper verwendet
Durch Anpassen der Amplitude der Motion Texture lässt sich die Animationsbewegung verringern oder verstärken
Durch Interpolation der vorhergesagten Motion Texture lassen sich Slow-Motion-Videos erzeugen
Verwandte frühere Arbeiten sind Animating Pictures with Stochastic Motion Textures, Image-space Modal Bases for Plausible Manipulation of Objects in Video, Visual Vibration Analysis

1 Kommentare

GN⁺ 2023-09-18

Hacker-News-Meinungen

Wirklich cool. Ich mag Cinemagraphs schon lange, und ob im Marketing oder beim Filmen habe ich immer versucht, so ein subtiles Gefühl von Stillstand einzubauen. Das könnte also zu einem Werkzeug werden, das ich häufig nutze.
Der Trick bei einem 10/10-Cinemagraph ist: Je subtiler, desto größer der Impact. Am besten denkt der Betrachter zunächst, es sei ein Standfoto, bis das Gehirn verzögert merkt: „Moment, da stimmt etwas nicht, das ist ja kein Foto, sondern ein Video.“
Wenn man Bäume am Rand zieht, ist die Verzerrung stark. Trotzdem eine interessante Idee.
- Vermutlich müsste man das mit Segmentierung und Generative Fill für die Hintergrundebene kombinieren. Zum Glück hat sich auch in dem Bereich viel getan.
Bei der roten Rose im ersten Bild bewegen sich auch die Blumen im Hintergrund; ich frage mich, warum man denselben Effekt beim Baum im dritten Bild nicht sieht.
Auffällig ist auch, dass sich die Bewegungsmenge im ersten und zweiten Bild unterscheidet; vielleicht berücksichtigt das System die Dichte rund um den Pointer. Die Beispiele mit langsamer Bewegung sind beim Anschauen wirklich entspannend.
- Ich weiß nicht warum, aber das Rosenbeispiel wirkte auf mich etwas gruselig.
Es ist schön zu sehen, dass Google-Forscher weiterhin öffentliche Paper zusammen mit Demos veröffentlichen. Ich werde nicht noch einmal wiederholen, dass Google daran scheitert, KI-Forschung in Produkte zu überführen oder als Open Source zu veröffentlichen.
Wirklich cool. Es wird nicht die Welt erschüttern oder die Produktivität steigern, aber es ist trotzdem sehr cool.
Das könnte zu einer Standardfunktion für Desktop- und Handy-Hintergründe werden. Wenn es auch weiche Bewegungen von Wasser oder Wolken handhaben kann, wäre es auch gut geeignet, um Fotos etwa in historischen Dokumentationen selektiv damit zu bearbeiten.
In der Demo wurde WebGL verwendet. Schön.
- In Videospielen wäre das der Hammer. Man könnte zum Beispiel durch Büsche laufen, während die Pflanzen am Körper mitgezogen werden.
Das hat wie EbSynth die Einschränkung, dass geringe Vektorbewegungen nötig sind.
- Die Leistung scheint hier vor allem in der Erzeugung der Bilddynamik zu liegen. Wenn zum Beispiel eine Katze im Bild ist, versteht das Modell, dass eine Katze atmen sollte, erzeugt eine Bewegung, bei der sich die Lungen zusammenziehen, und das Paper scheint zu beschreiben, wie man diese Bilddynamik und das Originalbild in ein flüssiges Video umwandelt. Ich könnte mich irren.
Es fühlt sich an, als fehle nur noch ein Schritt, bis statische Fotos zu Porträtfotos im Harry-Potter-Stil werden.
Wow, das wirkt surreal. Ich kann es kaum erwarten, es auszuprobieren, sobald es in Photoshop integriert ist.

Generative Bilddynamik

Dynamische Szenen aus statischen Bildern erzeugen

Bewegungs-Prior und Rendering-Verfahren

Demo und weitere Anwendungen

Verwandte Beiträge

1 Kommentare

Hacker-News-Meinungen