1 Punkte von GN⁺ 2023-12-01 | 1 Kommentare | Auf WhatsApp teilen

Erzeugung visueller Täuschungen aus mehreren Perspektiven: Forschung mit Diffusionsmodellen

  • Daniel Geng, Inbum Park und Andrew Owens von der University of Michigan stellen eine neue Methode vor, mit der sich mithilfe von Diffusionsmodellen visuelle Täuschungen aus mehreren Perspektiven erzeugen lassen.
  • Die Methode erzeugt Bilder, die bei Transformationen ein anderes Aussehen oder eine andere Identität annehmen, und unterstützt verschiedene Umwandlungen wie Rotation, Spiegelung, Farbinvertierung, Scherung, Neuordnung als Jigsaw-Puzzle und zufällige Permutationen.
  • Die Forschung belegt die Wirksamkeit der Methode nicht nur theoretisch, sondern auch anhand konkreter Beispiele.

Methodik

  • Die verwendete Methode ist konzeptionell einfach und nutzt handelsübliche Diffusionsmodelle, um das Rauschen in verschiedenen Ansichten oder Transformationen eines Bildes zu schätzen.
  • Das geschätzte Rauschen wird durch Anwendung der inversen Ansicht ausgerichtet und gemittelt; diese gemittelte Rauschschätzung wird anschließend für den Diffusionsschritt verwendet.

Bedingungen für Ansichten

  • Nicht alle Ansichtsfunktionen sind mit der oben beschriebenen Methode kompatibel; die Ansichtsfunktion muss invertierbar sein.
  • Damit die Ansichtsfunktion die Gewichtung zwischen Signal und Rauschen beibehält, muss sie linear sein; dies lässt sich durch eine quadratische Matrix A erreichen, die eine lineare Transformation darstellt.
  • Das Diffusionsmodell setzt voraus, dass das Rauschen unabhängig und identisch aus einer Standardnormalverteilung gezogen wird, daher muss auch das transformierte Rauschen diesen Statistiken folgen.
  • Im Fall linearer Transformationen entspricht dies der Bedingung, dass A eine orthogonale Matrix sein muss.

Orthogonale Transformationen

  • Die meisten orthogonalen Transformationen sind visuell nicht sinnvoll, doch Permutationsmatrizen sind eine Teilmenge orthogonaler Matrizen und lassen sich als Neuordnung der Pixel innerhalb eines Bildes interpretieren.
  • Die meisten in dieser Arbeit vorgestellten Täuschungen können als bestimmte Neuordnungen von Pixeln verstanden werden, etwa Rotation, Spiegelung, Scherung, „interne Rotation“, Neuordnung als Jigsaw-Puzzle oder Patch-Permutationen.
  • Farbinvertierung ist keine Permutation, aber als Negation von Pixelwerten eine orthogonale Transformation.

Meinung von GN⁺

  • Diese Forschung trägt dazu bei, die Grenze zwischen künstlicher Intelligenz und Kunst zu erweitern, indem sie eine neue Methode zur Erzeugung verschiedener visueller Täuschungen durch Bildtransformationen vorstellt.
  • Besonders kreativ ist die Methode, durch Neuordnung der Bildpixel unterschiedliche visuelle Effekte zu erzeugen; dadurch dürfte die Entstehung neuer Formen künstlerischer Arbeiten möglich werden.
  • Der Beitrag ist interessant, weil er einen originellen Ansatz zur Erzeugung visueller Täuschungen mit bestehenden Diffusionsmodellen untersucht; das ist auch eine Forschung, die selbst Junior-Softwareingenieurinnen und -ingenieuren neue Inspiration geben kann.

1 Kommentare

 
GN⁺ 2023-12-01
Hacker-News-Kommentare
  • Ein Nutzer sagte, er habe Anfang letzten Jahres eine ähnliche Idee gehabt und mit einer Schachbrett-Methode experimentiert. Als Beispiel nannte er ein einzelnes Katzenbild, das aus Katzenbildern im Stil von neun berühmten Malern erstellt wurde. Er erwähnte, dass diese Technik nichts mit dem vor einigen Monaten umstrittenen "Spiral"-ControlNet-Bild zu tun habe und auf DeepFloyd-IF basiere.
  • Ein anderer Nutzer fand das farbinvertierte Männer-/Frauenbild beeindruckend und meinte, er könne Bilder gedanklich rotieren, um andere Perspektiven zu sehen, tue sich aber mit Farbinversion schwer.
  • Ein weiterer Nutzer mochte das Männer-/Frauen-Umkehrbild sehr und fragte sich, auf wie viele Permutationen sich dieselbe Technik erweitern lasse, um sie in einem einzigen Bild unterzubringen. Ihm fehle das mathematische Verständnis dafür, ob zwei orthogonale Transformationen, die nacheinander angewendet werden, weiterhin eine orthogonale Transformation ergeben.
  • Ein Nutzer bewertete alle gezeigten Beispiele als "ganz okay" und meinte, das Pinguin-/Giraffenbild sei vermutlich das beste. Das Bild mit altem Mann/Kleid ähnele seiner Meinung nach keinem von beidem besonders gut.
  • Ein Nutzer meinte außerdem, der Einsatz neuronaler Netze sei für diese Aufgabe womöglich übertrieben und vielleicht kein optimaler Ersatz für ein theoretisches Verständnis optischer Täuschungen, die Ergebnisse seien jedoch unbestreitbar.
  • Manche Nutzer genießen solche Bilder und bezeichneten den Beitrag als großartig.
  • Ein Nutzer brachte die Idee ein, dass es cool wäre, ein Bild zu erzeugen, das unter rotem bzw. blauem Licht unterschiedlich aussieht.
  • Ein weiterer Nutzer meinte, das Ente-/Kaninchen-Bild wäre wirklich großartig für ein Schiebepuzzle, das zwei gültige Lösungen bietet.
  • Ein Nutzer fragte sich, ob es tatsächlich käufliche Puzzles dieser Art gibt.