- Forschende bei ByteDance haben ein KI-System entwickelt, das „mit nur einem einzelnen Foto Videos von Menschen erzeugt, die natürlich sprechen, singen und sich bewegen“
- Es überwindet die Grenze bisheriger KI-Modelle, die nur Gesichter oder den Oberkörper animieren konnten, und kann „Videos erzeugen, die Ganzkörperbewegungen widerspiegeln“
- Es ist das erste integrierte Modell, das „Eingaben in Form von Audio, Video oder einer Kombination aus beidem nutzt“, um menschliche Bewegungen realistisch zu animieren
- Wichtige Merkmale
- Videogenerierung auf Basis eines einzelnen Bildes
- Aus nur einem Foto einer Person lassen sich natürliche Videos erzeugen, die Ganzkörperbewegungen widerspiegeln
- Unterstützung für multimodale Eingaben
- Unterstützt Audio, Video oder eine Kombination aus beidem als Eingabe
- Gegenüber bisherigen Modellen ist die Ausdrucksstärke von Gesten deutlich verbessert
- Kann Bilder mit jedem Seitenverhältnis verarbeiten
- Unterstützt verschiedene Bildformate wie vertikale Porträtfotos, Halbporträts und Ganzkörperfotos
- Kompatibel mit verschiedenen Stilen und Eingabedaten
- Kann Comics, künstliche Charaktere, Tiere und komplexe Posen in unterschiedlichen Stilen abbilden
- Natürliche Körpergesten passend zum Musikstil
- Kann Bewegungen passend zu hohen und tiefen Tonlagen sowie verschiedenen Musikgenres erzeugen
- Kann Bewegungen auf Basis von Videos nachahmen
- Unterstützt Video Driving, bei dem die Bewegungen einer bestimmten Person originalgetreu reproduziert werden
2 Kommentare
Wow, wenn China jetzt Krieg führt, wird es wohl mehr als genug manipulierte Propagandavideos geben.
Wow … das ist cool, oder?