5 Punkte von xguru 2023-12-22 | Noch keine Kommentare. | Auf WhatsApp teilen
  • In letzter Zeit sind Videogenerierungsmodelle erschienen, die eine erstaunliche Bildqualität zeigen; die aktuelle Grenze ist jedoch die fehlende Fähigkeit, konsistente großskalige Bewegungen zu erzeugen
  • VideoPoet ist ein LLM, das verschiedene Aufgaben der Videogenerierung ausführen kann, darunter Text-zu-Video, Bild-zu-Video, Video-Styling, Video-Inpainting und -Outpainting sowie Video-zu-Audio-Generierung
    • Anders als andere Modelle ist es nicht auf Komponenten angewiesen, die jeweils einzelne Aufgaben gut beherrschen, sondern integriert diese Funktionen innerhalb eines einzigen LLM
    • Es kann Bilder in Bewegung umwandeln und Videos bearbeiten, um Inpainting oder Outpainting durchzuführen
  • VideoPoet trainiert ein autoregressives Sprachmodell unter Verwendung mehrerer Tokenizer, um die Modalitäten Video, Bild, Audio und Text zu erlernen
  • Für Text-zu-Video ist die Videoausgabe variabel lang und kann je nach Textinhalt unterschiedliche Bewegungen und Stile anwenden
  • Für Bild-zu-Video wird das Eingabebild zusammen mit einem Prompt zu einer animierten Bewegung verarbeitet
  • Beim Video-Styling werden zunächst Optical-Flow- und Tiefeninformationen vorhergesagt und anschließend zusammen mit zusätzlichem Eingabetext in VideoPoet eingespeist
  • VideoPoet kann auch Audio erzeugen, wodurch Video und Audio mit einem einzigen Modell generiert werden können
  • Die Ergebnisse der Generierungsevaluation zeigen, dass Menschen im Durchschnitt bewerten, dass VideoPoet Prompts besser befolgt und interessantere Bewegungen erzeugt
  • VideoPoet belegt die Wettbewerbsfähigkeit von LLMs bei der Erzeugung interessanter und hochwertiger Bewegungen in Videos

Noch keine Kommentare.

Noch keine Kommentare.