VideoPoet – Googles auf Zero-Shot-Videogenerierung spezialisiertes LLM

xguru · 2023-12-22T10:15:01+09:00

In letzter Zeit sind Videogenerierungsmodelle erschienen, die eine erstaunliche Bildqualität zeigen; die aktuelle Grenze ist jedoch die fehlende Fähigkeit, konsistente großskalige Bewegungen zu erzeugen VideoPoet ist ein LLM, das verschiedene Aufgaben der Videogenerierung ausführen kann, darunter Text-zu-Video, Bild-zu-Video, Video-Styling, Video-Inpainting und -Outpainting sowie Video-zu-Audio-Generierung Anders als andere Modelle ist es nicht auf Komponenten angewiesen, die jeweils einzelne Aufgaben gut beherrschen, sondern integriert diese Funktionen innerhalb eines einzigen LLM Es kann Bilder in Bewegung umwandeln und Videos bearbeiten, um Inpainting oder Outpainting durchzuführen VideoPoet trainiert ein autoregressives Sprachmodell unter Verwendung mehrerer Tokenizer, um die Modalitäten Video, Bild, Audio und Text zu erlernen Für Text-zu-Video ist die Videoausgabe variabel lang und kann je nach Textinhalt unterschiedliche Bewegungen und Stile anwenden Für Bild-zu-Video wird das Eingabebild zusammen mit einem Prompt zu einer animierten Bewegung verarbeitet Beim Video-Styling werden zunächst Optical-Flow- und Tiefeninformationen vorhergesagt und anschließend zusammen mit zusätzlichem Eingabetext in VideoPoet eingespeist VideoPoet kann auch Audio erzeugen, wodurch Video und Audio mit einem einzigen Modell generiert werden können Die Ergebnisse der Generierungsevaluation zeigen, dass Menschen im Durchschnitt bewerten, dass VideoPoet Prompts besser befolgt und interessantere Bewegungen erzeugt VideoPoet belegt die Wettbewerbsfähigkeit von LLMs bei der Erzeugung interessanter und hochwertiger Bewegungen in Videos

(blog.research.google)

5 Punkte von xguru 2023-12-22 | Noch keine Kommentare. | Auf WhatsApp teilen

In letzter Zeit sind Videogenerierungsmodelle erschienen, die eine erstaunliche Bildqualität zeigen; die aktuelle Grenze ist jedoch die fehlende Fähigkeit, konsistente großskalige Bewegungen zu erzeugen
VideoPoet ist ein LLM, das verschiedene Aufgaben der Videogenerierung ausführen kann, darunter Text-zu-Video, Bild-zu-Video, Video-Styling, Video-Inpainting und -Outpainting sowie Video-zu-Audio-Generierung
- Anders als andere Modelle ist es nicht auf Komponenten angewiesen, die jeweils einzelne Aufgaben gut beherrschen, sondern integriert diese Funktionen innerhalb eines einzigen LLM
- Es kann Bilder in Bewegung umwandeln und Videos bearbeiten, um Inpainting oder Outpainting durchzuführen
VideoPoet trainiert ein autoregressives Sprachmodell unter Verwendung mehrerer Tokenizer, um die Modalitäten Video, Bild, Audio und Text zu erlernen
Für Text-zu-Video ist die Videoausgabe variabel lang und kann je nach Textinhalt unterschiedliche Bewegungen und Stile anwenden
Für Bild-zu-Video wird das Eingabebild zusammen mit einem Prompt zu einer animierten Bewegung verarbeitet
Beim Video-Styling werden zunächst Optical-Flow- und Tiefeninformationen vorhergesagt und anschließend zusammen mit zusätzlichem Eingabetext in VideoPoet eingespeist
VideoPoet kann auch Audio erzeugen, wodurch Video und Audio mit einem einzigen Modell generiert werden können
Die Ergebnisse der Generierungsevaluation zeigen, dass Menschen im Durchschnitt bewerten, dass VideoPoet Prompts besser befolgt und interessantere Bewegungen erzeugt
VideoPoet belegt die Wettbewerbsfähigkeit von LLMs bei der Erzeugung interessanter und hochwertiger Bewegungen in Videos

VideoPoet – Googles auf Zero-Shot-Videogenerierung spezialisiertes LLM

Verwandte Beiträge

Noch keine Kommentare.