Lumiere: Ein räumlich-zeitliches Diffusionsmodell für realistische Videogenerierung

(lumiere-video.github.io)

1 Punkte von GN⁺ 2024-01-26 | 1 Kommentare | Auf WhatsApp teilen

Um die bei der Videogenerierung schwierige Bewegungskonsistenz zu verbessern, ist Lumiere von Google Research ein Text-zu-Video-Diffusionsmodell, das auf realistische und vielfältige Videosynthese abzielt
Der Kern ist ein Space-Time U-Net, das statt zunächst weit auseinanderliegende Keyframes zu erzeugen und dann zu interpolieren den gesamten Zeitabschnitt in einem einzigen Modelldurchlauf generiert
Es verwendet Downsampling und Upsampling sowohl in räumlicher als auch in zeitlicher Richtung und erzeugt mithilfe eines vortrainierten Text-zu-Bild-Diffusionsmodells direkt niedrig aufgelöste Videos mit voller Framerate
Die Demos decken ein breites Spektrum an Generierungs- und Bearbeitungsaufgaben ab, darunter Text-zu-Video, Bild-zu-Video, stilisierte Generierung, Video-Stilisierung, Cinemagraphs und Video-Inpainting
Auch Einsteiger können damit visuelle Inhalte flexibel erstellen, zugleich ist wegen des Missbrauchspotenzials für gefälschte oder schädliche Inhalte auch die Erkennung von Bias und böswilliger Nutzung erforderlich

Zielsetzung und veröffentlichte Materialien von Lumiere

Lumiere ist ein Text-zu-Video-Diffusionsmodell, das sich darauf konzentriert, bei der Videosynthese Realismus, Vielfalt und zeitliche Konsistenz von Bewegungen zu erhöhen
Auf der Projektseite lassen sich das Paper und verschiedene Demo-Videos ansehen
Gezeigt werden nicht nur Generierungsaufgaben, sondern auch Anwendungen zur Videobearbeitung

Eine Architektur, die den gesamten Zeitabschnitt auf einmal erzeugt

Lumiere führt die Architektur Space-Time U-Net ein, die die gesamte zeitliche Länge eines Videos in einem einzigen Modelldurchlauf erzeugt
Bestehende Videomodelle erzeugen meist zunächst weit auseinanderliegende Keyframes und wenden anschließend zeitliche Super-Resolution an, wodurch globale zeitliche Konsistenz schwer zu erreichen ist
Dieses Modell wendet Downsampling und Upsampling nicht nur räumlich, sondern auch entlang der Zeitachse an
Mithilfe eines vortrainierten Text-zu-Bild-Diffusionsmodells erzeugt es direkt niedrig aufgelöste Videos mit voller Framerate auf mehreren räumlich-zeitlichen Skalen

Videogenerierung aus Text und Bildern

Die Text-to-Video-Demos erzeugen Videos allein aus Text-Prompts
- Beispiele sind ein Wanderer auf einem Berggipfel, ein Astronaut nahe einer Marsbasis, ein Hund mit Sonnenbrille am Steuer, Schokoladensirup, der über Vanilleeis gegossen wird, Feuerwerk und ein Zeitraffer eines Sonnenuntergangs am Strand
Die Image-to-Video-Demos erstellen Videos auf Basis eines Eingabebildes und eines Prompts
- Beispiele sind eine traurige Katze im gestreiften Hemd, ein im Schnee tanzender Teddybär, eine im Meer schwimmende Schildkröte, ein Affe, der am Laptop arbeitet und Kaffee trinkt, sowie eine Klavier spielende Katze

Stilisierte Generierung und Videobearbeitung

Stylized Generation erzeugt Videos im Zielstil mithilfe eines einzelnen Referenzbildes
Dabei werden feinabgestimmte Gewichtungen eines Text-zu-Bild-Modells verwendet
Beispiele für Stilreferenzen sind Sticker, 3D Melting Gold, Flat cartoon, 3D Rendering, Line drawing, Glowing und Watercolor painting
Bei der Video Stylization lässt sich mit textbasierter Bildbearbeitung eine konsistente Videobearbeitung durchführen
- Beispielhafte Stil-Prompts sind „Made of wooden blocks“, „Origami folded paper art“, „Made of colorful toy bricks“ und „Made of flowers“

Bereichsbasierte Animation und Inpainting

Mit der Funktion Cinemagraphs lassen sich nur bestimmte, vom Nutzer festgelegte Bereiche eines Bildinhalts animieren
Die Video Inpainting-Demo nimmt ein maskiertes Originalvideo als Eingabe und erzeugt daraus ein Ausgabevideo
Zu den Inpainting-Beispielen gehören Prompts zum Ändern von Kleidung oder Accessoires
- “wearing a gold strapless gown”
- “wearing sunglasses”
- “wearing a red scarf”
- “wearing rain boots”

Gesellschaftliche Auswirkungen und Sicherheit

Ein zentrales Ziel von Lumiere ist es, auch unerfahrenen Nutzern die kreative und flexible Erstellung visueller Inhalte zu ermöglichen
Dieselbe Technologie birgt jedoch auch das Risiko, für die Erstellung gefälschter oder schädlicher Inhalte missbraucht zu werden
Für eine sichere und faire Nutzung müssen Werkzeuge zur Erkennung von Bias und böswilligen Anwendungsfällen entwickelt und eingesetzt werden

1 Kommentare

GN⁺ 2024-01-26

Hacker-News-Kommentare

Ich finde es sehr unangenehm, dass diese Arbeit unter dem Deckmantel wissenschaftlicher Forschung präsentiert wird.
Das wirkt eher wie Angeberei, Werbung und Marketing; ein reproduzierbares Verfahren wird nicht beschrieben.
Ein Architekturdiagramm kann andere inspirieren, bietet aber nicht das, was in der Wissenschaft am wichtigsten ist: Falsifizierbarkeit.
Da es keine Möglichkeit gibt zu überprüfen, ob Google lügt, muss man davon ausgehen, dass alle Beispiele kuratiert und nachbearbeitet wurden.
Man sollte außerdem davon ausgehen, dass die Trainingsdaten des Modells illegal beschafft wurden, und mit extremer Skepsis starten, weil Google inzwischen wiederholt unbelegbare Behauptungen aufstellt.
Vergleicht man die Gemini-Leistung von Bard mit GPT-4, liegt sie deutlich zurück, und das Video, das angeblich eine Interaktion mit dem Modell zeigte, war in Wirklichkeit keine solche.
Keine Organisation sollte so arbeiten, aber Google ist hier zu einem besonders schweren Wiederholungstäter geworden.
- Diese Haltung wirkt für die Wissenschaft nicht produktiv.
  Wenn du den Ergebnissen nicht glaubst, kannst du die behaupteten Outputs ignorieren und nur die Kernidee übernehmen.
  Man muss keine bösen Absichten unterstellen, um ihre sogenannte Werbung zu entkräften.
  So eine Haltung kann sich zwar etwas besser anfühlen, macht die Behauptungen aber politisch – und falls sie tatsächlich stimmen, bremst sie einen eher aus.
  Es gibt eine Geschichte, in der etliche Google-Paper kaum reproduzierbare Artefakte enthielten und am Ende trotzdem zur Grundlage nützlicher Technologien wurden.
- Zur Einordnung: Daten zu verwenden, um ein Modell zu trainieren, ist an sich nicht illegal.
  Illegal ist es, wenn das Modell für kommerzielle Zwecke genau dieselben Daten ausgibt.
  Dieser Unterschied wird absichtlich verwischt, aber man sollte ihn verstehen.
- Ich frage mich, wie du Zugriff auf Gemini Ultra bekommen hast.
  Oder meinst du Gemini Pro, das mit GPT-3.5 verglichen wird?
- Dieses Video wirkt fast sicher so, als sei es für Google-Investoren gedacht: „Wir sind nicht tot, und die Suche ist auch nicht tot! Ein tanzender Bär!“
  Wenn die Technik aber wirklich hält, was die Werbung verspricht, ist sie sehr beeindruckend.
- Da Google schon einmal beim Manipulieren einer AI-Demo erwischt wurde, kann man wohl mit hoher Wahrscheinlichkeit annehmen, dass sie lügen oder Beispiele so ausgewählt haben, dass es gut aussieht.
  In der realen Forschungswelt würde man, wenn man bei so etwas erwischt wird, nicht nur spätere Arbeiten, sondern auch frühere Arbeiten einer strengen Prüfung unterziehen.
Die Beispiele sind viel konsistenter und laufen länger durch als andere Verfahren, die ich bisher gesehen habe.
Im Vergleich zu anderen Modellen rutschen die Beine weniger über den Boden.
Menschliche Gesichter sahen dagegen nicht gut aus, zum Beispiel bei der Szene mit dem Mona-Lisa-Lächeln.
Für mich wirkt es wie das erste brauchbare Videogenerierungsmodell.
Edit: Habe gerade gesehen, dass es von Google ist. Dann wird es wohl nie öffentlich veröffentlicht.
- Falls es veröffentlicht wird, dürfte innerhalb einer Woche ein darauf basierendes NSFW-Modell auf Civitai landen.
- Nein, Forscher werden wie immer auf dieser Arbeit aufbauen, und irgendwann wird ein Unternehmen auf Basis dieser und vieler weiterer Forschungsergebnisse ein erfolgreiches Produkt bauen.
  Dann werden wir uns beschweren, dass Google abgehängt wurde.
  Es ist ziemlich cool, dass Google so viel Spitzenforschung finanziert und öffentlich teilt.
  Ich weiß nicht, wie lange das noch so weitergeht.
- Ich frage mich, wie viele der Samples in diesem Demovideo echt sind.
  https://arstechnica.com/information-technology/2023/12/googl...
- Du sagst „Mona-Lisa-Lächeln“, aber das ist nicht Leonardo da Vincis "Mona Lisa"[1], sondern Johannes Vermeers "Girl with a Pearl Earring"[2].
  [1] https://en.wikipedia.org/wiki/Mona_Lisa
  [2] https://en.wikipedia.org/wiki/Girl_with_a_Pearl_Earring
Auf ihrem GitHub gibt es derzeit außer der verlinkten Seite nichts.
https://github.com/lumiere-video
Sie haben zwar nie behauptet, dass dort überhaupt etwas liegt, aber ich habe trotzdem nachgesehen; auch einen Link zum GitHub-Profil konnte ich nicht finden.
Für alle, die anhand der URL der gehosteten Website nicht selbst die Profiladresse eintippen wollen, lasse ich den Link hier.
- Das sieht man im AI-/Machine-Learning-Bereich häufig: Informationen zu etwas, das nicht veröffentlicht wurde, auf GitHub stellen und sagen, es sei „auf GitHub“.
- Große Sprachmodelle haben leider einen neuen Trend geschaffen.
Video-Inpainting ist interessant.
Meine Kinder haben neulich alte SpongeBob-Folgen geschaut, und das 4:3-Seitenverhältnis war ziemlich störend.
Ich dachte, es könnte ein interessanter Use Case sein, die Ränder links und rechts per Inpainting auf 16:9 zurückzubringen; um Objekte zu behandeln, die von der Seite ins Bild kommen, bräuchte man aber wohl eine Art Vorschau-basierter Feinanpassung.
- Das klingt tatsächlich nach einem Produkt, das jemand in der TV- und Filmbranche kaufen würde.
  Es geht darum, Videos mit festem Seitenverhältnis ohne Streckung oder sichtbare Verzerrung dynamisch auf eine nicht ursprüngliche Größe anzupassen.
  Man müsste die hinzugefügten Ränder nur so genau schätzen, dass das Publikum sie nicht bemerkt.
  4:3 <-> 16:9 <-> 143:100 (IMAX) <-> 11:8 (Academy) <-> 3:2 (35 mm) <-> 16:10 (Tablet/Desktop)
  Man könnte auch neue Filme wie klassische schwarz-weiße Stummfilme aussehen lassen und ihnen dann den passenden Frame geben.
  Jeder Film ließe sich so anpassen, dass er auf einer IMAX-Leinwand natürlich wirkt.
- Könnte man das Video nicht einfach rückwärts verarbeiten?
Angesichts des seltsamen, unheimlich traumartigen Charakters dieser kleinen AI-Videogenerierungs-Samples finde ich es immer schade, dass Paper nicht einmal als Easter Egg den Prompt "dreaming of electric sheep" eingeben.
Verdammt, vor 2–3 Jahren wäre diese Ankündigung schockierend gewesen.
Wir haben uns alle daran gewöhnt, dass solche neuen Releases in rasendem Tempo erscheinen, aber es ist trotzdem erstaunlich.
Ich kann es kaum erwarten, Software mit solchen Fähigkeiten auszuprobieren.
Edit: Ach nein, ist von Google. Ich warte, bis etwas Open Source herauskommt.
Es scheint, als würden alte Bilder oft mit modernen Datensätzen vermischt
Wenn man ein Porträt von George Washington vorgibt und „lächelnder Mann“ als Prompt eingibt, sieht man dann [Zahnprothesen][1] oder strahlend weiße Zähne?
[1] https://en.wikipedia.org/wiki/George_Washington%27s_teeth
- Solche Daten außerhalb der Verteilung müsste man wohl selbstverständlich im Prompt angeben
  Es ist nicht klar, ob solche Modelle wie größere Large Language Models ein riesiges Weltmodell über Fakten aufgebaut haben; hauptsächlich erfassen sie, wie sich Dinge bewegen
  In den Datensätzen zeigen die meisten Menschen strahlend weiße Zähne, und es gibt kein Videomaterial von Washingtons Mund; daher dürfte das die Standardeinstellung sein, sofern man die gewünschten Zahnprothesen nicht detailliert beschreibt
Ein paar Gedanken: Weil es Google ist, werden wir es wahrscheinlich nie selbst ausprobieren können
Trotzdem ist die Idee sehr interessant. Das Modell wird zuerst darauf trainiert, eine kleine, vollständige zeitliche Repräsentation des Videos zu erzeugen, und skaliert dann sowohl zeitlich als auch in den Pixeln hoch
Im Grunde: Wenn man bei früheren Modellen gesehen hat, dass Tiefenkarten hinzugefügt wurden, dann wird hier mit einer Zeitkarte eine weitere Dimension ergänzt
Optisch ist die Konsistenz ziemlich gut
Das Unstimmige scheint weniger das übliche Scheitern an der Konsistenz von Frame zu Frame zu sein, sondern eher die Entscheidung des Modells, was ein Objekt über die Zeit hinweg „tun soll“
Die große Einsicht der Google-Forscher ist, dass man die Konsistenz selbst konditionieren, lernen und erzeugen und anschließend die Frames ausfüllen kann
Mehrere Modellanbieter wie Stability dürften das gut nachbauen können; es gibt nichts, was besonders unmöglich zu implementieren wirkt
Ein Beitrag im Pixel-Theme zu einem Paper im Pixel-Theme
Ziemlich beeindruckend, und dürfte schon bald dazu führen, dass eine enorme Welle von „Film aus einem Absatz“-Programmen entsteht
Da es von Google ist, landet es vermutlich in einer Kiste und wird zu einem Rick-and-Morty-Tool, das wir nie zu Gesicht bekommen
Die Autorenkennzeichnung gefällt mir
Markierungen wie 1,2,3,4,*,+ eignen sich gut, um Hauptautoren, institutionelle Zugehörigkeiten und zentrale Beitragende zu unterscheiden
Wenn man viele Arbeiten aus Astronomie und Physik liest, gibt es oft mehr als 10 Autoren, ohne dass man erkennen kann, wer was gemacht hat
Beim arXiv-Link etwa sehe ich kein ähnliches Format
Und das wird sehr wahrscheinlich direkt für missbräuchliche Pornografie verwendet werden
Walking Woman, 5. Variante: „Wearing no clothing“
- Daran hatte ich nicht gedacht, aber stimmt. Mit solcher Technik wird missbräuchliche Pornografie bald allgegenwärtig sein
  Jeder auf der Welt könnte bald realistische, explizite Pornografie mit seinem eigenen Gesicht haben
Dieses Jahr werden wir den ersten KI-generierten Langfilm sehen
Falls das verrückt klingt: In der Frühzeit des Films lag die durchschnittliche Einstellungslänge bei 12 Sekunden, heute sind es nur 2,5 Sekunden
Einige wichtige Techniken, etwa die Konsistenz von Subjekten zwischen Generierungen zu erhalten, müssen noch weiter verfeinert werden
Aber ich denke, man kann viele Inkonsistenzen mit bestehenden Methoden überdecken: Ebenen nach Tiefe trennen und eher statische Bilder verwenden oder dort, wo mehr Tiefe nötig ist, einfache 3D-Modelle mit Texturen erstellen
Mit genug Aufwand und Können scheint es schon mit der heutigen Technik möglich zu sein
- Man kann sich leicht vorstellen, dass Filmschaffende mehrere Entwurfsversionen eines Films erstellen, um Drehbuch und Dreharbeiten zu verfeinern, so wie sie heute Storyboards verwenden
- Warum überhaupt einen „Film“ machen? Warum nicht eine einzelne Handlung erstellen, bei der die Zuschauer die Kostüme beliebig ändern können?
- Wie all die anderen Medien, die Menschen damit massenhaft produzieren, wird es vermutlich völlig miserabel sein

Lumiere: Ein räumlich-zeitliches Diffusionsmodell für realistische Videogenerierung

Zielsetzung und veröffentlichte Materialien von Lumiere

Eine Architektur, die den gesamten Zeitabschnitt auf einmal erzeugt

Videogenerierung aus Text und Bildern

Stilisierte Generierung und Videobearbeitung

Bereichsbasierte Animation und Inpainting

Gesellschaftliche Auswirkungen und Sicherheit

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare