- Microsoft Research hat ein neues Projekt namens VASA-1 vorgestellt
- Eine Technologie, die mit nur einem einzigen Porträtfoto und in Echtzeit eingespeistem Audio realistische Videos von sprechenden Gesichtern erzeugt
- Passend zur Stimme bewegen sich Lippen und Mimik natürlich und wirken so realistisch, dass sie kaum von einer echten sprechenden Person zu unterscheiden sind
- Verwendet ein Diffusionsmodell, das optionale Signale (Hauptblickrichtung, Kopfabstand, Emotions-Offset usw.) als Bedingungen annimmt, und zeigt Ergebnisse für Hauptblickrichtungen (frontal, links, rechts, oben), Skalierung des Kopfabstands und Emotions-Offsets (neutral, glücklich, wütend, überrascht)
- Erzeugt im Offline-Batch-Verarbeitungsmodus Videoframes in der Größe 512x512 mit 45 Bildern pro Sekunde
- Unterstützt im Online-Streaming-Modus bis zu 40 Bilder pro Sekunde und benötigt nur 170 ms Vorlauf-Latenz (Desktop-PC mit einer NVIDIA RTX 4090 GPU)
Meinung von GN⁺
- Wenn diese Technologie praktisch einsetzbar wird, könnte sie in vielen Bereichen wie virtuellen Menschen, AI-Avataren und dem Metaverse genutzt werden. Besonders in der Unterhaltungsindustrie wie Games, Film und Animation dürfte die Nachfrage hoch sein
- Gleichzeitig gibt es Sorgen über Missbrauch, etwa zur Erstellung von Fake News oder Deepfake-Videos mit den Gesichtern prominenter Personen. Es werden technische und institutionelle Maßnahmen nötig sein, um böswillige Nutzung zu verhindern
- Ähnliche Technologien sind etwa Audio2Face von NVIDIA. Diese können meist nur die Gesichter bestimmter vortrainierter Personen erzeugen, während sich VASA-1 dadurch unterscheidet, dass auch neue Gesichter in Echtzeit generiert werden können
- Laut dem Entwicklungsteam befindet sich VASA-1 noch in einem frühen Stadium, und Bildqualität sowie Stabilität sollen weiter verbessert werden. Bis zur Kommerzialisierung dürfte es noch dauern, aber es ist zu erwarten, dass wir solchen künstlichen Menschen eines Tages im Alltag begegnen werden
2 Kommentare
In der 1394. Folge von Unanswered Questions wurde ein Fall gezeigt, in dem mit Foto und Audio eine berühmte Person imitiert wurde, um Geld zu ergaunern — es ist beunruhigend, dass so etwas dafür missbraucht werden könnte.
Hacker-News-Kommentare
Zusammenfassung: