- In letzter Zeit sind Videogenerierungsmodelle erschienen, die eine erstaunliche Bildqualität zeigen; die aktuelle Grenze ist jedoch die fehlende Fähigkeit, konsistente großskalige Bewegungen zu erzeugen
- VideoPoet ist ein LLM, das verschiedene Aufgaben der Videogenerierung ausführen kann, darunter Text-zu-Video, Bild-zu-Video, Video-Styling, Video-Inpainting und -Outpainting sowie Video-zu-Audio-Generierung
- Anders als andere Modelle ist es nicht auf Komponenten angewiesen, die jeweils einzelne Aufgaben gut beherrschen, sondern integriert diese Funktionen innerhalb eines einzigen LLM
- Es kann Bilder in Bewegung umwandeln und Videos bearbeiten, um Inpainting oder Outpainting durchzuführen
- VideoPoet trainiert ein autoregressives Sprachmodell unter Verwendung mehrerer Tokenizer, um die Modalitäten Video, Bild, Audio und Text zu erlernen
- Für Text-zu-Video ist die Videoausgabe variabel lang und kann je nach Textinhalt unterschiedliche Bewegungen und Stile anwenden
- Für Bild-zu-Video wird das Eingabebild zusammen mit einem Prompt zu einer animierten Bewegung verarbeitet
- Beim Video-Styling werden zunächst Optical-Flow- und Tiefeninformationen vorhergesagt und anschließend zusammen mit zusätzlichem Eingabetext in VideoPoet eingespeist
- VideoPoet kann auch Audio erzeugen, wodurch Video und Audio mit einem einzigen Modell generiert werden können
- Die Ergebnisse der Generierungsevaluation zeigen, dass Menschen im Durchschnitt bewerten, dass VideoPoet Prompts besser befolgt und interessantere Bewegungen erzeugt
- VideoPoet belegt die Wettbewerbsfähigkeit von LLMs bei der Erzeugung interessanter und hochwertiger Bewegungen in Videos
Noch keine Kommentare.