Erzeugung visueller Täuschungen aus mehreren Perspektiven: Forschung mit Diffusionsmodellen
- Daniel Geng, Inbum Park und Andrew Owens von der University of Michigan stellen eine neue Methode vor, mit der sich mithilfe von Diffusionsmodellen visuelle Täuschungen aus mehreren Perspektiven erzeugen lassen.
- Die Methode erzeugt Bilder, die bei Transformationen ein anderes Aussehen oder eine andere Identität annehmen, und unterstützt verschiedene Umwandlungen wie Rotation, Spiegelung, Farbinvertierung, Scherung, Neuordnung als Jigsaw-Puzzle und zufällige Permutationen.
- Die Forschung belegt die Wirksamkeit der Methode nicht nur theoretisch, sondern auch anhand konkreter Beispiele.
Methodik
- Die verwendete Methode ist konzeptionell einfach und nutzt handelsübliche Diffusionsmodelle, um das Rauschen in verschiedenen Ansichten oder Transformationen eines Bildes zu schätzen.
- Das geschätzte Rauschen wird durch Anwendung der inversen Ansicht ausgerichtet und gemittelt; diese gemittelte Rauschschätzung wird anschließend für den Diffusionsschritt verwendet.
Bedingungen für Ansichten
- Nicht alle Ansichtsfunktionen sind mit der oben beschriebenen Methode kompatibel; die Ansichtsfunktion muss invertierbar sein.
- Damit die Ansichtsfunktion die Gewichtung zwischen Signal und Rauschen beibehält, muss sie linear sein; dies lässt sich durch eine quadratische Matrix
A erreichen, die eine lineare Transformation darstellt.
- Das Diffusionsmodell setzt voraus, dass das Rauschen unabhängig und identisch aus einer Standardnormalverteilung gezogen wird, daher muss auch das transformierte Rauschen diesen Statistiken folgen.
- Im Fall linearer Transformationen entspricht dies der Bedingung, dass
A eine orthogonale Matrix sein muss.
Orthogonale Transformationen
- Die meisten orthogonalen Transformationen sind visuell nicht sinnvoll, doch Permutationsmatrizen sind eine Teilmenge orthogonaler Matrizen und lassen sich als Neuordnung der Pixel innerhalb eines Bildes interpretieren.
- Die meisten in dieser Arbeit vorgestellten Täuschungen können als bestimmte Neuordnungen von Pixeln verstanden werden, etwa Rotation, Spiegelung, Scherung, „interne Rotation“, Neuordnung als Jigsaw-Puzzle oder Patch-Permutationen.
- Farbinvertierung ist keine Permutation, aber als Negation von Pixelwerten eine orthogonale Transformation.
Meinung von GN⁺
- Diese Forschung trägt dazu bei, die Grenze zwischen künstlicher Intelligenz und Kunst zu erweitern, indem sie eine neue Methode zur Erzeugung verschiedener visueller Täuschungen durch Bildtransformationen vorstellt.
- Besonders kreativ ist die Methode, durch Neuordnung der Bildpixel unterschiedliche visuelle Effekte zu erzeugen; dadurch dürfte die Entstehung neuer Formen künstlerischer Arbeiten möglich werden.
- Der Beitrag ist interessant, weil er einen originellen Ansatz zur Erzeugung visueller Täuschungen mit bestehenden Diffusionsmodellen untersucht; das ist auch eine Forschung, die selbst Junior-Softwareingenieurinnen und -ingenieuren neue Inspiration geben kann.
1 Kommentare
Hacker-News-Kommentare