4 Punkte von GN⁺ 2024-04-20 | 2 Kommentare | Auf WhatsApp teilen
  • Microsoft Research hat ein neues Projekt namens VASA-1 vorgestellt
  • Eine Technologie, die mit nur einem einzigen Porträtfoto und in Echtzeit eingespeistem Audio realistische Videos von sprechenden Gesichtern erzeugt
  • Passend zur Stimme bewegen sich Lippen und Mimik natürlich und wirken so realistisch, dass sie kaum von einer echten sprechenden Person zu unterscheiden sind
  • Verwendet ein Diffusionsmodell, das optionale Signale (Hauptblickrichtung, Kopfabstand, Emotions-Offset usw.) als Bedingungen annimmt, und zeigt Ergebnisse für Hauptblickrichtungen (frontal, links, rechts, oben), Skalierung des Kopfabstands und Emotions-Offsets (neutral, glücklich, wütend, überrascht)
  • Erzeugt im Offline-Batch-Verarbeitungsmodus Videoframes in der Größe 512x512 mit 45 Bildern pro Sekunde
  • Unterstützt im Online-Streaming-Modus bis zu 40 Bilder pro Sekunde und benötigt nur 170 ms Vorlauf-Latenz (Desktop-PC mit einer NVIDIA RTX 4090 GPU)

Meinung von GN⁺

  • Wenn diese Technologie praktisch einsetzbar wird, könnte sie in vielen Bereichen wie virtuellen Menschen, AI-Avataren und dem Metaverse genutzt werden. Besonders in der Unterhaltungsindustrie wie Games, Film und Animation dürfte die Nachfrage hoch sein
  • Gleichzeitig gibt es Sorgen über Missbrauch, etwa zur Erstellung von Fake News oder Deepfake-Videos mit den Gesichtern prominenter Personen. Es werden technische und institutionelle Maßnahmen nötig sein, um böswillige Nutzung zu verhindern
  • Ähnliche Technologien sind etwa Audio2Face von NVIDIA. Diese können meist nur die Gesichter bestimmter vortrainierter Personen erzeugen, während sich VASA-1 dadurch unterscheidet, dass auch neue Gesichter in Echtzeit generiert werden können
  • Laut dem Entwicklungsteam befindet sich VASA-1 noch in einem frühen Stadium, und Bildqualität sowie Stabilität sollen weiter verbessert werden. Bis zur Kommerzialisierung dürfte es noch dauern, aber es ist zu erwarten, dass wir solchen künstlichen Menschen eines Tages im Alltag begegnen werden

2 Kommentare

 
tomriddle7 2024-04-22

In der 1394. Folge von Unanswered Questions wurde ein Fall gezeigt, in dem mit Foto und Audio eine berühmte Person imitiert wurde, um Geld zu ergaunern — es ist beunruhigend, dass so etwas dafür missbraucht werden könnte.

 
GN⁺ 2024-04-20
Hacker-News-Kommentare

Zusammenfassung:

  • Microsofts VASA-1 kann mit nur einem einzigen Foto und einer Audiospur einen Deepfake erzeugen. Deepfake-Technologie wird offenbar immer schneller, besser, einfacher und günstiger.
  • Gleichzeitig haben Kreditkartenunternehmen eine Sprachauthentifizierung eingeführt, ohne zu erkennen, dass jeder aus einem sozialen Netzwerk einen kurzen Audioclip bekommen und damit eine Stimme klonen kann. Unternehmen hinken der Zeit hinterher.
  • VASA-1 ist nicht so gut wie EMO. Es gibt unnatürlich wirkende Körperbewegungen, und in vielen Bereichen stimmt das Lippen-Syncing nicht richtig. Augenbewegungen sowie allgemeine Kopf- und Körperbewegungen wirken unnatürlich.
  • Der einzige Zweck dieser Technologie scheint zu sein, dass Spione andere Menschen missbrauchen können. Müssen wir künftig jedes Telefonat und jede Videokonferenz authentifizieren?
  • In dem Paper wird erwähnt, dass Diffusion Transformers verwendet werden. Die Open-Source-Implementierung ist die PyTorch-Implementierung von Facebook Research, steht aber unter einer nichtkommerziellen Lizenz. Ich frage mich, ob es ein entsprechendes Projekt mit MIT- oder Apache-Lizenz gibt.
  • Wir brauchen eine Art Governance-System, das die Echtheit dessen garantiert, was wir sehen. Das ist aber kein leichtes Problem, etwa weil bei der Bearbeitung von Fotos/Videos die Signatur zerstört wird.
  • Das ist eine völlig verrückte Technologie und sie wird künftig noch besser werden. Ich dachte, Deepfakes seien noch weit entfernt, aber offenbar müssen wir online vorsichtiger sein.
  • Ein fantastischer technologischer Fortschritt für Wahlbeeinflussung!