1 Punkte von GN⁺ 2024-01-26 | 1 Kommentare | Auf WhatsApp teilen

Text-zu-Video

  • Das Google-Forschungsteam stellt ein Text-zu-Video-Diffusionsmodell namens Lumiere vor.
  • Dieses Modell konzentriert sich auf die Synthese von Videos, die realistische, vielfältige und konsistente Bewegungen darstellen.
  • Mithilfe einer räumlich-zeitlichen U-Net-Architektur wird die gesamte zeitliche Abfolge des Videos auf einmal erzeugt.

Bild-zu-Video

  • Mit Lumiere lassen sich Videos im Zielstil unter Verwendung eines einzelnen Referenzbildes erzeugen.
  • Dabei werden feinabgestimmte Gewichte eines Text-zu-Bild-Modells genutzt.

Videostilisierung

  • Mit Lumiere können bestehende textbasierte Bildbearbeitungsmethoden für konsistente Videobearbeitung eingesetzt werden.

Cinemagraphs

  • Das Lumiere-Modell kann den Bildinhalt innerhalb eines vom Nutzer vorgegebenen bestimmten Bereichs animieren.

Video-Inpainting

  • Das Lumiere-Modell kann den Inhalt maskierter Videos rekonstruieren und so ein vervollständigtes Video erzeugen.

Autoren und Danksagung

  • Das Forschungsteam besteht aus Mitautoren des Google Research Lab und mehrerer Universitäten.
  • Es spricht den Autoren, die im Rahmen von Praktika zur Forschung beigetragen haben, sowie verschiedenen Personen Dank aus, die Zusammenarbeit und Unterstützung geleistet haben.

GN⁺-Meinung:

  • Das Lumiere-Modell stellt einen wichtigen Fortschritt im Bereich der Videosynthese dar. Die Möglichkeit, Videos mit realistischen und vielfältigen Bewegungen zu erzeugen, dürfte Content Creators und Videoeditoren erheblich helfen.
  • Diese Technologie kann besonders in der Film- und Werbebranche dazu beitragen, visuelles Storytelling zu stärken und kreative Ausdrucksmöglichkeiten zu erweitern.
  • Die Entwicklung von Lumiere zeigt, wie KI-basierte Kreativwerkzeuge kreative Arbeit verändern.

1 Kommentare

 
GN⁺ 2024-01-26
Hacker-News-Kommentare
    • Dieses Werk, das im Namen der wissenschaftlichen Forschung präsentiert wird, empfinde ich als äußerst unerquicklich. Das lässt sich nur als Prahlerei, Werbung und Marketing erklären. Es wird kein reproduzierbarer Prozess beschrieben, und das Architekturdiagramm mag inspirierend sein, erlaubt aber keine Widerlegung, dem wichtigsten Aspekt eines wissenschaftlichen Vorhabens. Es gibt keine Möglichkeit zu überprüfen, ob Google lügt, also muss man davon ausgehen, dass alle Beispiele sorgfältig ausgewählt und nachbearbeitet wurden. Man muss annehmen, dass die zum Training des Modells verwendeten Daten illegal beschafft wurden. Da Google inzwischen routinemäßig Behauptungen aufstellt, die sich nicht belegen lassen, sollte man von extremer Skepsis ausgehen. Zum Beispiel bleibt die Leistung von Gemini in Bard im Vergleich zu GPT-4 weit zurück. Als ein Video veröffentlicht wurde, das angeblich die Interaktion mit dem Modell zeigte, war das in Wirklichkeit nicht der Fall.
    • Die Beispiele wirken deutlich konsistenter und länger als frühere Techniken, die ich gesehen habe. Im Vergleich zu anderen Modellen rutschen die Beine viel seltener über den Boden. Andererseits sehen menschliche Gesichter nicht gut aus, etwa die lächelnde Mona Lisa. Das wirkt wie das erste wirklich gute Modell zur Videogenerierung. Korrektur: Ich habe gerade gesehen, dass es von Google ist, also wird es wohl nie veröffentlicht.
    • In ihrem GitHub gibt es derzeit außer der verlinkten Seite nichts. Sie haben auch nie behauptet, es veröffentlichen zu wollen. Ich musste trotzdem nachsehen, und ich habe keinen Link zu einem GitHub-Profil gefunden. Für alle, die die URL der gehosteten Website nicht manuell eingeben wollen, teile ich den Link hier.
    • Video-Inpainting ist interessant. Kürzlich haben meine Kinder alte SpongeBob-Folgen geschaut, und das 4:3-Seitenverhältnis fiel stark auf. Die seitlichen Ränder zu inpain­ten, um wieder auf 16:9 zu kommen, wäre ein interessanter Anwendungsfall. Allerdings scheint dafür irgendeine Form von Voraussicht über Objekte nötig zu sein, die von der Seite ins Bild kommen.
    • Wegen der bizarren, traumartigen Eigenschaften dieser kleinen KI-Videogenerierungs-Samples bin ich immer enttäuscht, dass solche Papers nicht als Easter Egg den Prompt "träumen von elektrischen Schafen" enthalten.
    • Wenn diese Ankündigung nur 2 bis 3 Jahre früher gekommen wäre, wäre sie wirklich verblüffend gewesen. Wir haben uns alle daran gewöhnt, dass solche neuen Produkte sehr schnell und häufig erscheinen, aber ich finde es trotzdem noch erstaunlich. Ich kann den Tag kaum erwarten, an dem wir Software mit solchen Fähigkeiten haben. Korrektur: Da es von Google ist, werde ich warten, bis eine Open-Source-Version veröffentlicht wird.
    • Es wirkt oft so, als würden alte Bilder mit modernen Datensätzen vermischt. Wenn man ein Porträt von George Washington nimmt und "lächelnder Mann" anfordert, sieht man dann seine Zahnprothese oder weiße Zähne?
    • Ein paar Anmerkungen: Weil es von Google ist, werden wir es nicht selbst nutzen können. Trotzdem ist die Idee sehr interessant -- man trainiert das Modell darauf, eine kleine vollständige zeitliche Repräsentation des Videos zu erzeugen, und skaliert dann sowohl in der Zeit als auch bei den Pixeln hoch. Ich habe Modelle gesehen, die Tiefenkarten hinzufügen, aber dieses Modell fügt eine "Zeitkarte" als weitere Dimension hinzu. Die Konsistenz sieht ziemlich gut aus. Auffälliger ist eher die Unbeholfenheit dabei, wie das Modell entscheidet, was es über die Zeit hinweg "tun" soll. Die große Einsicht der Googler scheint zu sein, dass man Konsistenz als eigenständige Eigenschaft konditionieren, trainieren und generieren kann. Das dürfte von anderen Modellanbietern wie Stability reproduzierbar sein; nichts daran wirkt unmöglich umzusetzen.
    • Ein Pixel-Themenbeitrag über ein Paper mit Pixel-Thema. Ziemlich beeindruckend und vermutlich der Auslöser für eine riesige Welle von Programmen nach dem Motto "einen Film aus einem Absatz machen". Da es von Google ist, wird es wahrscheinlich weggesperrt und zu einem Rick-and-Morty-Gerät, das wir nie zu sehen bekommen. Das Format der Autorenliste ist cool. Die Kennzeichnung 1,2,3,4,*,+ für Hauptautoren, institutionelle Zuordnung und zentrale Mitwirkende gefällt mir. Ich habe viele Astronomie- und Physik-Paper mit mehr als zehn Autoren gelesen und hatte keine Ahnung, wer was gemacht hat. Der arXiv-Link zeigt zum Beispiel kein ähnliches Format. Vermutlich wird es sofort für missbräuchliche Pornografie verwendet werden. Beispiel mit gehender Frau: (5. Variation) "ohne Kleidung"
    • Noch dieses Jahr werden wir den ersten abendfüllenden KI-generierten Film sehen. Wenn du denkst, ich sei verrückt, dann bedenke, dass selbst in der Frühzeit des Kinos die durchschnittliche Einstellungslänge 12 Sekunden betrug und heute nur noch 2,5 Sekunden. Einige wichtige Techniken müssen noch verfeinert werden, etwa ein konsistentes Thema über mehrere Generationen hinweg beizubehalten, aber viele Inkonsistenzen lassen sich ausgleichen, indem man bestehende Methoden anwendet, etwa Ebenen nach Tiefe trennt, statischere Bilder verwendet oder einfache 3D-Modelle mit Texturen für Bereiche erzeugt, die mehr Tiefe benötigen. Jemand mit genügend Aufwand und Können könnte das vermutlich schon mit heutiger Technik umsetzen.