Was wissen generative Modelle? Wissen sie es wirklich?

(intrinsic-lora.github.io)

1 Punkte von GN⁺ 2024-02-25 | 1 Kommentare | Auf WhatsApp teilen

In den Interna von GAN-, autoregressiven und Diffusion-Modellen, die reale Szenen plausibel erzeugen, können Szenen-intrinsische Eigenschaften wie Tiefe, Normalen, Albedo und Shading implizit enthalten sein
Der vorgeschlagene Ansatz nutzt LoRA, das weniger stark an eine bestimmte Modellarchitektur gebunden ist, und verwendet bestehende Decoder zur Bilderzeugung unverändert, um intrinsische Repräsentationen zu rekonstruieren
Bei VQGAN und Stable Diffusion wird eine leichtgewichtige LoRA an Attention-Layern angebracht, bei StyleGAN an Affine-Layern, um ohne separaten task-spezifischen Decoding-Head intrinsische Bilder zu erhalten
Bei Stable Diffusion werden bei Rank 2 nur 0,04 % der gesamten Modellgewichte als trainierbare Parameter hinzugefügt; dennoch ist die Erzeugung intrinsischer Bilder bereits mit nur 250 gelabelten Bildern möglich
In Kontrollversuchen zeigte sich die Tendenz, dass mit höherer Qualität des generativen Modells auch die Genauigkeit der rekonstruierten Szenen-intrinsischen Eigenschaften steigt; die Extrahierbarkeit hängt jedoch vom Modell und von der Domäne ab

Forschungsfrage und LoRA-Ansatz

Ausgangspunkt ist die Frage, ob in den internen Repräsentationen generativer Modelle Szenen-intrinsische Eigenschaften (scene intrinsic) enthalten sein könnten, wenn diese Modelle reale Szenen gut nachbilden
Die Studie will vier Punkte überprüfen
- Welches intrinsische Wissen GAN-, autoregressive und Diffusion-Modelle enkodieren
- Ob sich ein allgemeines Framework zur Rekonstruktion intrinsischer Repräsentationen schaffen lässt, unabhängig von Architektur oder Modelltyp
- Wie wenige Trainingsparameter und gelabelte Daten dafür nötig sein können
- Ob es einen direkten Zusammenhang zwischen der Qualität des generativen Modells und der Genauigkeit der rekonstruierten Intrinsics gibt
Im Zentrum der Methode steht Low-Rank Adaptation (LoRA)
- Bei VQGAN und Stable Diffusion wird LoRA auf Attention-Layer angewendet
- Bei StyleGAN wird LoRA auf Affine-Layer angewendet
- Es wird kein separater task-spezifischer Decoding-Head oder Layer hinzugefügt, sondern derselbe Decoder-Head verwendet, der auch für die Bilderzeugung genutzt wird
Weitere Materialien

Rekonstruktionsergebnisse und Unterschiede je Modell

Mit nur kleinen LoRA-Modulen lassen sich in mehreren generativen Modellen Depth, Normals, Albedo und Shading rekonstruieren
Bei Stable Diffusion sinkt die Zahl der trainierbaren Parameter mit Rank-2-LoRA auf 0,04 % der gesamten Modellgewichte
Schon mit nur 250 gelabelten Bildern können über die LoRA-Module intrinsische Bilder erzeugt werden
In Kontrollversuchen wurde eine positive Korrelation zwischen Modellqualität und Genauigkeit der rekonstruierten Intrinsics festgestellt
Je nach Modell und Domäne fallen die Ergebnisse der Intrinsic-Extraktion unterschiedlich aus
- VQGAN / Autoregressive / FFHQ: Normals und Depth in mittlerer Qualität, Albedo und Shading in hoher Qualität
- StyleGAN-v2 / GAN / FFHQ: Normals, Albedo und Shading in hoher Qualität, Depth in mittlerer Qualität
- StyleGAN-v2 / GAN / LSUN Bed: Normals, Depth, Albedo und Shading alle in hoher Qualität
- StyleGAN-XL / GAN / FFHQ: Normals, Albedo und Shading in hoher Qualität, Depth in mittlerer Qualität
- StyleGAN-XL / GAN / ImageNet: Normals, Depth, Albedo und Shading allesamt nicht extrahierbar
- Stable Diffusion-UNet / Diffusion / Open: Normals, Depth, Albedo und Shading alle in hoher Qualität
- Stable Diffusion / Diffusion / Open: Normals, Depth, Albedo und Shading alle in hoher Qualität
Intrinsic Maps eines auf Stable Diffusion 2.1 erweiterten Ansatzes werden mit Pseudo-Ground-Truth verglichen; die Vergleichsgrößen sind Surface Normals, Depth, Albedo und Shading

1 Kommentare

GN⁺ 2024-02-25

Meinungen auf Hacker News

Einer der Gründe, warum die Erwartungen an Sora so groß waren, war, dass einige Videos den Eindruck vermittelten, im Inneren laufe eine Simulation der physischen Welt, und das Video sei so etwas wie eine Kameraaufnahme dieser 3D-Szene.
Man hatte intuitiv das Gefühl, dass im Hintergrund viel mehr passiert, als nur verschiedene Videofragmente aneinanderzukleben, und dieses Paper wirkt wie ein Beleg dafür.
Auch bei Standbild-Generatoren zeigt sich, dass das Modell im Grunde lernt, eine 3D-Szene zu rendern und ein Foto davon zu machen. Es ist erstaunlich: Man wollte keine 3D-Engine bauen, sondern hat nur einen Haufen Bilder in lineare Algebra gesteckt und optimiert – und herausgekommen ist ein Weltsimulator.
- Menschen leben in einer 3D-Welt, und auch die Trainingsdaten sind ein kontinuierlicher binokularer visueller Stream, der dieselbe Szene aus verschiedenen Blickwinkeln zeigt. Sora hingegen hat die Welt gewissermaßen durchs Fernsehen gelernt; um die implizite Repräsentation und das Rendering von 3D-Szenen zu lernen, müsste es vielleicht mehr Videospiele spielen.
- Es überrascht mich immer noch, dass Leute tatsächlich glauben, es würden in Wirklichkeit nur Videofragmente zusammengeklebt.
- „Man wollte keine 3D-Engine bauen, sondern hat Bilder in lineare Algebra geworfen und optimiert, und heraus kam ein Weltsimulator“ klingt wie etwas, das eine vermenschlichte Evolution über den Geist sagen würde.
- Selbst in den vom Hersteller ausgewählten Videos gab es eine Szene, in der einer Katze ein fünftes Bein wuchs und kurz darauf wieder verschwand. Ich frage mich, wie solche Phänomene zu dieser optimistischen Erzählung passen.
- Neuronale Netze sind keine lineare Algebra. Wenn man davon ausgeht, dass heute meist ReLU-Aktivierungen verwendet werden, dann ist der Kern neuronaler Netze eine halb-lineare Struktur, und genau diese halbe Linearität verleiht ihnen ihre Kraft.
Der Name stammt von der fiktiven Gameshow Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out! aus Bojack Horseman.
https://bojackhorseman.fandom.com/wiki/Hollywoo_Stars_and_Ce...!
- Ich liebe diese Show wirklich und habe sogar einen Sticker davon auf meinem Laptop. Falls ihr Bojack Horseman nicht gesehen habt: Es ist witzig und zugleich aufrichtig, mit stark existenzialistischer Note; wenn das eurem Geschmack entspricht, ist es unbedingt sehenswert.
  Als rundes Animationspaket halte ich es für deutlich besser als Futurama. Es hat viel Tiefe, mit der man mitfühlen kann, trifft hart, bleibt aber leicht genug, dass man sich danach noch okay fühlt.
  Da ich inzwischen im Filmtech-Bereich arbeite, passt der Hollywoo-Sticker jetzt noch besser.
- Ich habe diesem Beitrag allein wegen des Titels ein Upvote gegeben.
- Ich zitiere den Titel dieser bestimmten Gameshow ziemlich oft, aber kaum jemand versteht die Anspielung; schade, weil ich dann einfach nur wie ein komischer Typ wirke.
- Dass sie sie in der Show ständig HSaCWDTKDTKTLFO nennen, ist ebenfalls großartig. Dass sie das ganze lange Akronym Buchstabe für Buchstabe wie ein kurzes Akronym vorlesen, ist vielleicht mein liebster Running Gag der Show.
- Ich habe das Gefühl, meine Leute gefunden zu haben. Ich habe die Show bestimmt etwa sechsmal gesehen.
Das erinnert mich an die Zeit, als ich versucht habe, aus dem Testprojekt der Unity High Definition Rendering Pipeline einen G-buffer herauszuziehen: https://www.youtube.com/watch?v=Fwtc694qNUM
Allerdings bin ich mir nicht sicher, ob dieses Paper wirklich etwas beweist. Hier wird ein riesiges UNet-LoRA-Modell trainiert, und es ist unklar, ob dabei etwas aus dem bestehenden Modell „extrahiert“ wird oder ob man ein neues Modell baut, das Kanäle erzeugt, wie sie aus einer Deferred-Rendering-Pipeline stammen könnten.
Deferred Rendering, bei dem Normalen, Albedo und Tiefe kombiniert werden, ist nur eine von mehreren Techniken zum Erzeugen von 3D-Szenen und wurde selbst in Videospielen erst mit einem Shrek-Spiel für die Xbox Anfang der 2000er verwendet (https://sites.google.com/site/richgel99/the-early-history-of...)
Wirklich spannend wäre meiner Meinung nach ein LoRA-Modell, mit dem man aus einem Bildgenerierungsmodell die Rotations- und Translationsmatrix der „Kamera“ extrahieren könnte. Das wäre ein viel stärkerer Beleg und zugleich ziemlich nützlich.
- In den ergänzenden Materialien gibt es ein Experiment, bei dem LoRA auf einem zufällig initialisierten UNet trainiert wird. In diesem Fall lassen sich, anders als bei der Nutzung eines vortrainierten Stable-Diffusion-UNet, kaum Oberflächennormalen extrahieren; damit wird ziemlich deutlich, dass die bereits vorhandenen Merkmale im Modell wichtig für die Leistung sind.
- Ich kenne mich damit nicht besonders gut aus, aber beantwortet nicht die Stelle „die neu trainierten Parameter machen weniger als 0,6 % der Gesamtparameter des generativen Modells aus“ diese Frage?
  0,6 % klingt nach einer kleinen Zahl, aber ich frage mich, ob damit das Richtige gemessen wurde. Das Modell muss nicht unbedingt genau dieselbe Repräsentation kodiert haben wie das, was wir extrahieren; wenn es aber etwas kodiert, das sich aus Sicht der Modellgröße günstig und zuverlässig auf Normalen, Albedo und Tiefe abbilden lässt, wirkt schon das sehr bedeutsam.
  Welche Basisvektoren verwendet werden, ist egal; man muss nur wissen, wie man sie auf meine Repräsentation abbildet.
Ich habe das Paper überflogen, fand aber vieles schwierig. Da ich mit Bildgenerierungs-KI nicht vertraut bin, frage ich mich, was der scheinbare Kernsatz genau bedeutet: „I-LoRA modulates key feature maps to extract intrinsic scene properties such as normals, depth, albedo, and shading, using the models' existing decoders without additional layers, revealing their deep understanding of scene intrinsics“.
Ich würde gern verstehen, was es heißt, „zentrale Feature-Maps zu modulieren, um intrinsische Szeneneigenschaften zu extrahieren“, und wie solche Bilder mit Szeneneigenschaften ohne zusätzliche Decoding-Schichten erzeugt wurden.
- Wenn man sich ein neuronales Netz mit einer Milliarde Parametern vorstellt, fügt man an verschiedenen Stellen etwa fünf Millionen Parameter hinzu und trainiert dann nach dem LoRA-Verfahren nur diese neuen Parameter weiter, während das Basisnetzwerk unangetastet bleibt. So entsteht ein moduliertes Netzwerk, das Szeneneigenschaften vorhersagt.
  Interessant ist, dass nur sehr wenige zusätzliche Parameter nötig sind; das scheint darauf hinzudeuten, dass das ursprüngliche Netzwerk diesem Punkt bereits ziemlich nahe war.
Ich weiß nicht, warum Toyota oder Adobe Forschung mit so einem Namen finanzieren, aber ich finde es großartig. Ich wünschte, auch in die Wissenschaft käme wieder etwas Verspieltheit zurück.
Praktischer betrachtet: Wenn es heißt, dass „ein mit wenigen gelabelten Bildern optimierter modellunabhängiger Ansatz sich an verschiedene generative Architekturen wie Diffusion-Modelle, GANs und autoregressive Modelle anpasst“, frage ich mich, ob das ein rein visuelles/räumliches Werkzeug ist.
Sind die Beispiele nur zufällig visuell, oder gibt es keinen Weg, das auf Textmodelle auszuweiten? So einen Ansatz zur Interpretierbarkeit sehe ich zum ersten Mal, und er ist sehr beeindruckend.
- Es gibt auch Forschung zum Editieren von Faktenwissen in Sprachmodellen. https://rome.baulab.info/
- Verstehst du wirklich nicht, warum Toyota oder Adobe Computer-Vision-Forschung finanzieren?
- Das ist die Bojack-Horseman-Referenz, von der wir nicht wussten, dass wir sie brauchen.
Ziemlich erstaunlich. Diese Modelle zaubern nicht nur in nicht entzifferbaren, milliarden-dimensionalen Hyperebenen herum, sondern lernen tatsächlich für Menschen interpretierbare Repräsentationen.
- Aus Sicht eines alten 3D-Grafik-Engineers ist die Tatsache, dass darin Albedo steckt, erwartbar und zugleich wirklich beeindruckend.
  Die zentralen Bausteine physikbasierter Renderings sind Position, Oberflächennormale, einfallendes Licht und mindestens eine Oberflächenmaterialeigenschaft wie Albedo sowie Reflexionsgrad/Rauheit. Die Position lässt sich aus XY im Bild und Tiefe ableiten.
  Dass KI Tiefe modelliert, ist ziemlich erwartbar, und Oberflächennormalen kann man als lokale Faltung der Tiefe betrachten. Aber Albedo getrennt vom einfallenden Licht zu modellieren, ist großartig. Ich frage mich, ob auch Reflexionsgrad irgendwo verborgen ist.
- Obwohl es viele Hinweise darauf gibt, dass generative Modelle recht komplexe interne Weltmodelle haben, ist es erstaunlich, dass manche immer noch darauf beharren, sie seien bloß „stochastische Papageien“ und würden „nichts wirklich verstehen“.
Das sind gute Nachrichten für VR beziehungsweise Spatial Computing. Wenn Modelle die physische Welt so gut verstehen, wie das Paper zeigt, klingt es nicht nach einer allzu schwierigen Anforderung, zwei Projektionen einer Szene zu erzeugen. Ich bin wirklich gespannt, was kommt.
Wenn das aus realen Bildern Albedo und Beleuchtung vorhersagen kann, hoffe ich, dass jemand relightbare Gaussian-Splatting-Szenen daraus baut. Dynamische Beleuchtung würde die Einsatzmöglichkeiten fotografisch erstellter 3D-Scans stark erweitern, aber ich habe in diesem Bereich noch keine Ergebnisse gesehen, die man als „gut“ bezeichnen könnte.
- Kann man reale Bilder wirklich sicher verwenden? Falls ja, wäre das Extrahieren von Tiefenkarten aus realen Bildern vermutlich die nützlichste Anwendung.
Ich will nicht skeptisch klingen, aber ich frage mich, woher man weiß, dass Bildgenerierungsfirmen ihre Datensätze nicht mit Dingen wie Normal Maps angereichert haben.
Ich verstehe, dass dieses Paper verifizierbare Open-Source-Modelle behandelt, aber könnte die geheime Zutat fortgeschrittenerer Modelle nicht genau so etwas sein?
- Dafür müsste man Normal-Map-Bilder paarweise mit den Originalbildern trainieren. Soweit ich weiß, ist das keine verbreitete Trainingsmethode, und diese Fähigkeit scheint sich über mehrere offene Modelle hinweg zu zeigen.
Es wäre interessant, die Wahrnehmungsfähigkeit generativer Modelle mit optischen Täuschungen zu testen, auf die Menschen hereinfallen. Zum Beispiel würde mich interessieren, ob sie bei der Ponzo-Illusion die Tiefe korrekt einschätzen.

Was wissen generative Modelle? Wissen sie es wirklich?

Forschungsfrage und LoRA-Ansatz

Rekonstruktionsergebnisse und Unterschiede je Modell

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News