1 Punkte von GN⁺ 2024-02-25 | 1 Kommentare | Auf WhatsApp teilen

Entdeckung der verborgenen Fähigkeiten von INTRINSIC LoRA (I-LoRA)

  • INTRINSIC LoRA (I-LoRA) deckt verborgene Fähigkeiten generativer Modelle wie VQGAN, StyleGAN-XL, StyleGAN-v2 und Stable Diffusion auf.
  • Diese Methode nutzt den bestehenden Decoder des Modells ohne zusätzliche Layer, um grundlegende Oberflächeneigenschaften wie Normalen, Tiefe, Albedo und Schattierung zu extrahieren.

Das latente Verständnis generativer Modelle

  • Generative Modelle sind in der Lage, sehr detaillierte und realistische Bilder zu synthetisieren.
  • Es wird vermutet, dass diese Modelle intrinsische Bildeigenschaften wie Oberflächennormalen, Tiefe oder Schatten implizit lernen.
  • Diese Arbeit liefert überzeugende Belege dafür, dass generative Modelle intern tatsächlich hochwertige intrinsische Szenenkarten erzeugen.

Einführung in INTRINSIC LoRA (I-LoRA)

  • INTRINSIC LoRA (I-LoRA) stellt einen universellen Plug-and-Play-Ansatz vor, der jedes generative Modell in einen Prädiktor für intrinsische Szeneneigenschaften verwandeln kann.
  • Ohne zusätzlichen Decoder oder Feinabstimmung des gesamten Netzwerks lassen sich intrinsische Szenenkarten direkt aus dem ursprünglichen Generator-Netzwerk extrahieren.
  • Die Methode nutzt Low-Rank Adaptation (LoRA) zentraler Feature-Maps mit neuen Parametern, die weniger als 0,6 % der Gesamtparameter des generativen Modells ausmachen.
  • Sie wird mit einer kleinen Menge annotierter Bilder optimiert und kann auf verschiedene generative Architekturen angewendet werden, darunter Diffusion-Modelle, GANs und autoregressive Modelle.

Zusammenfassung der Fähigkeit zur Extraktion intrinsischer Szeneneigenschaften in verschiedenen generativen Modellen

  • Es wird zusammengefasst, dass sich hochwertige intrinsische Eigenschaften aus verschiedenen generativen Modellen extrahieren lassen, ohne den Generator-Head zu verändern.
  • ✓: Intrinsische Eigenschaften können in hoher Qualität extrahiert werden.
  • ~: Intrinsische Eigenschaften können in mittlerer Qualität extrahiert werden.
  • ✗: Intrinsische Eigenschaften können nicht extrahiert werden.

Vergleich der Erzeugung intrinsischer Karten mit I-LoRA

  • Eine Abbildung zeigt den Vergleich zwischen den mit dieser Methode unter Verwendung von Stable Diffusion 2.1 erzeugten intrinsischen Karten und entsprechendem Ground Truth.

Meinung von GN⁺

  • INTRINSIC LoRA (I-LoRA) ist ein innovativer Ansatz, der die latenten Fähigkeiten bestehender generativer Modelle auf eine neue Ebene hebt.
  • Diese Forschung zeigt, dass generative Modelle über die reine Bilderzeugung hinaus die intrinsischen Eigenschaften realer Szenen verstehen, und liefert damit neue Einsichten in die visuelle Verständigungsfähigkeit künstlicher Intelligenz.
  • Die Technologie hat Anwendungspotenzial in vielen Bereichen wie Computer Vision, Grafik sowie AR/VR und ist daher eine äußerst spannende Entwicklung für Forschende und Entwickler in diesem Feld.

1 Kommentare

 
GN⁺ 2024-02-25
Hacker-News-Kommentare
  • Eine der euphorischen Reaktionen auf Sora war das Gefühl, dass im Inneren wohl eine Simulation der physikalischen Welt steckt. Das deutet darauf hin, dass im Hintergrund mehr passiert, als nur verschiedene Videos aneinanderzukleben.

    • Die Modelle lernen, 3D-Szenen zu rendern und Fotos aufzunehmen. Überraschend ist, dass dabei ein Weltsimulator herauskam, obwohl wir gar nicht versucht haben, eine 3D-Engine zu bauen, sondern einfach Bilder in die lineare Algebra geworfen und optimiert haben.
  • Der Name ist eine Anspielung auf die fiktive Gameshow „Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out!" aus der Serie „Bojack Horseman“.

  • Das erinnert an die Erfahrung, in einem Testprojekt mit der Unity High Definition Rendering Pipeline zu versuchen, den G-buffer zu extrahieren.

    • Es ist nicht sicher, ob diese Arbeit tatsächlich irgendetwas beweist. Da ein riesiges UNET-LoRA-Modell trainiert wird, ist unklar, ob hier etwas aus einem bestehenden Modell „extrahiert“ wird oder ob einfach ein neues Modell gebaut wird, das Kanäle erzeugen kann, wie sie aus einer Deferred-Rendering-Pipeline stammen könnten.
  • Als jemand, der mit Bildgenerierungs-KI nicht vertraut ist, wurde das Paper grob überflogen, war aber schwer zu verstehen.

    • Es wird um eine Erklärung gebeten, was genau gemeint ist, wenn gesagt wird, dass I-LoRA ohne zusätzliche Layer den bestehenden Decoder des Modells verwendet, um intrinsische Eigenschaften einer Szene wie Normalen, Tiefe, Albedo und Schattierung zu extrahieren.
  • Das ist ziemlich bemerkenswert. Die Modelle lernen tatsächlich für Menschen verständliche Repräsentationen und vollführen nicht nur Magie auf Hyperflächen mit Milliarden von Dimensionen, die wir nicht entschlüsseln können.

  • Diese Forschung ist eine gute Nachricht für VR (oder Spatial Computing). Wenn das Modell die physikalische Welt gut versteht, scheint es nicht schwer zu sein, zwei Projektionen einer Szene zu erzeugen. Es ist sehr spannend, was als Nächstes kommt.

  • Diese Technik kann reale Bilder nehmen und Albedo sowie Beleuchtung vorhersagen. Jemand bittet darum, dass das jemand nutzt, um relightbare Gaussian-Splatting-Szenen zu erstellen. Dynamische Beleuchtung würde den Nutzen von aus Fotos erzeugten 3D-Scans stark erweitern, und bislang wurden noch keine Ergebnisse gesehen, die man als wirklich „gut“ bezeichnen würde.

  • Ist das GPT für Bilder? Man nimmt ein generatives Modell und wendet über LoRA Fine-Tuning für Teilaufgaben wie Oberflächennormalen an und schließt daraus, dass diese Modelle solche Repräsentationen intrinsisch lernen. Es zeigt bessere Ergebnisse als überwachte Ansätze.

  • Nicht aus Skepsis, aber woher weiß man, dass Normal Maps und Ähnliches nicht bereits reichlich in den Datensätzen enthalten waren, die von den Bildgenerierungsfirmen verwendet wurden?

    • Dieses Paper verlinkt auf ein Open-Source-Modell, mit dem sich das überprüfen ließe, aber es könnte auch eine geheime Zutat fortschrittlicherer Modelle sein.
  • Wie werden zum Beispiel Normal Maps gewonnen? Erzeugt die KI sie bereits vor der Bilderzeugung und liest sie dann aus ihrem internen Zustand aus?