Vorstellung von Infinity AI
- Infinity AI ist ein Unternehmen, das ein menschenzentriertes Videomodell trainiert hat
- Es ist der erste bekannte Fall, in dem ein audioeingespeister Video-Diffusion-Transformer trainiert wurde
- Dieses Modell kann ausdrucksstarke und realistische Charaktere erzeugen, die tatsächlich sprechen
Verwendung
- Mit den Tools von Infinity AI kann man ein Skript eingeben und ein Video erzeugen, in dem ein Charakter spricht
- Beispiele:
- „Ein Video, in dem die Mona Lisa sagt: ‚Worüber lächelst du eigentlich?‘“
- „Ein Video, in dem ein 3D-Gnom im Pixar-Stil mit roter Mütze die Unabhängigkeitserklärung vorliest“
- „Ein Video, in dem Elon Musk Frank Sinatras ‚Fly Me To The Moon‘ singt“
Probleme bestehender KI-Tools
- Bestehende generative KI-Videomodelle konnten Charaktere nicht sprechen lassen
- Bestehende Talking-Avatar-Unternehmen fügten zu vorhandenem Video lediglich Lippensynchronisation hinzu
- Dadurch entstanden Gesichtsausdrücke und Gesten, die nicht zum Audio passten, was zum „Uncanny Valley“-Effekt führte
Grenzen des V1-Modells
- Der Lip-Sync-Ansatz hatte neben unpassenden Gesten noch weitere Einschränkungen
- Dazu gehörten eine begrenzte Bibliothek an Darstellern und die Unfähigkeit, imaginäre Charaktere zu animieren
Verbesserungen im V2-Modell
- Trainiert wurde ein End-to-End-Video-Diffusion-Transformer-Modell, das als Eingabe ein einzelnes Bild, Audio und weitere Konditionierungssignale erhält und Video ausgibt
- Es gilt als der beste Ansatz, um die Komplexität und Feinheiten menschlicher Bewegung und Emotion einzufangen
- Ein Nachteil ist, dass das Modell langsam ist
Vorteile des Modells
- Es kann mehrere Sprachen verarbeiten
- Es hat teilweise Physik gelernt (z. B. schwingen Ohrringe korrekt)
- Es kann verschiedene Bildtypen animieren (Gemälde, Skulpturen usw.)
- Es kann mit Gesang umgehen
Nachteile des Modells
- Es kann keine Tierbilder verarbeiten (nur humanoide Bilder sind möglich)
- Es fügt häufig Hände ins Bild ein (sehr störend und ablenkend)
- Es ist bei Comics nicht robust
- Es kann die Identität von Personen verzerren (besonders auffällig bei berühmten Personen)
Modell ausprobieren
Zusammenfassung von GN⁺
- Das Videomodell von Infinity AI ist der erste bekannte Fall, in dem über Audioeingabe realistische Charaktere erzeugt werden können
- Es überwindet die Grenzen bestehender KI-Tools und erfasst mit einem End-to-End-Video-Diffusion-Transformer-Modell menschliche Bewegung und Emotion besser
- Es bietet Vorteile wie Unterstützung mehrerer Sprachen und verschiedener Bildtypen, hat aber auch Nachteile wie fehlende Unterstützung für Tierbilder und das häufige Einfügen von Händen ins Bild
- Andere Projekte mit ähnlichen Funktionen sind Runway und Luma
1 Kommentare
Hacker-News-Kommentare