Show HN: Infinity – realistische KI-Charaktere, die sprechen können

(news.ycombinator.com)

1 Punkte von GN⁺ 2024-09-07 | 1 Kommentare | Auf WhatsApp teilen

Infinity AI trainiert ein menschenzentriertes Foundation-Video-Modell, um Videos von sprechenden Charakteren allein aus Audioeingaben zu erzeugen
Ersteller können ein Skript eingeben, das der Charakter sprechen soll, um ein Video zu erzeugen; später soll auch das Verhalten vorgegeben werden können
V2 ist ein End-to-End-Modell, das aus einem einzelnen Bild, Audio und Bedingungssignalen ein Video erzeugt, und soll die bei herkömmlichen Lip-Sync-Ansätzen auftretenden Unstimmigkeiten bei Mimik und Gestik verringern
Bisher wurden rund 11 GPU-Jahre und etwa 500.000 US-Dollar investiert, doch trotz rectified flow und einer 3D-VAE-Embedding-Layer ist die Generierung weiterhin langsam
Stärken zeigt das Modell bei Mehrsprachigkeit, physischen Bewegungen, Gemälden oder Skulpturen sowie Gesang; dennoch bleiben Failure Modes wie Tiere, Cartoons, eingefügte Hände und verzerrte Identitäten von Prominenten bestehen

Von Infinity V2 erzeugte Videos sprechender Charaktere

Infinity AI trainiert ein eigenes, auf Menschen fokussiertes Foundation-Video-Modell
Nach Kenntnis des Teams ist es nahe daran, der erste Fall eines mit Audioeingaben gesteuerten Video-Diffusion-Transformers zu sein
Dieser Ansatz konzentriert sich darauf, Videos zu erzeugen, in denen ausdrucksstarke und realistisch wirkende Charaktere tatsächlich sprechen
Beispielvideos sind im V2 launch blog zu sehen
Das Modell kann direkt in Infinity Studio ausprobiert werden
Wenn man in den HN-Kommentaren eine Charakterbeschreibung hinterlässt, will das Team ein Video erzeugen und mit einem Link antworten
- „Mona Lisa saying ‘what the heck are you smiling at?’“
- „A 3D pixar-style gnome with a pointy red hat reciting the Declaration of Independence“
- „Elon Musk singing Fly Me To The Moon by Sinatra“

Generative KI-Videomodelle wie Runway und Luma sind nicht darauf ausgelegt, Charaktere sprechen zu lassen
Talking-Avatar-Dienste wie HeyGen und Synthesia wenden Lip-Sync auf vorab aufgezeichnete Videos an
- Audio und Mimik bzw. Gestik können auseinanderlaufen
- Diese Inkonsistenz kann zu einem schwer einzuordnenden Uncanny-Eindruck führen
Auch Infinity V1 verwendete einen Lip-Sync-Ansatz
- Unstimmigkeiten bei Gesten blieben bestehen
- Für jeden Schauspieler musste ein Modell anhand vorhandenen Videomaterials fine-tuned werden, wodurch die Schauspieler-Bibliothek begrenzt war
- Fiktive Charaktere ließen sich nur schwer animieren
V2 wechselt zu einem End-to-End-Video-Diffusion-Transformer, der ein einzelnes Bild, Audio und weitere Bedingungssignale als Eingabe nimmt und ein Video ausgibt
- Das Team hält diesen Ansatz für am besten geeignet, um die Komplexität und Nuancen menschlicher Bewegung und Emotion zu erfassen
- Der Nachteil ist die langsame Generierung
- Mit rectified flow wurde eine Beschleunigung um das 2- bis 4-Fache und mit einer 3D-VAE-Embedding-Layer um das 2- bis 5-Fache erreicht, dennoch bleibt es langsam
Bislang wurden rund 11 GPU-Jahre und etwa 500.000 US-Dollar in das Training investiert; das Modelltraining läuft weiter

Stärken
- Es kann mehrere Sprachen verarbeiten
- Es hat einen Teil der Physik gelernt, etwa dass Ohrringe natürlich schwingen und auch das Gegenstück am anderen Ohr inferiert wird
- Es kann auch nicht trainierte Bildtypen wie Gemälde oder Skulpturen animieren
- Es kann Gesang verarbeiten
Einschränkungen
- Tiere werden nicht verarbeitet; es funktioniert nur mit humanoiden Bildern
- Es fügt häufig Hände in den Frame ein, was störend sein kann
- Bei Cartoons ist es nicht robust
- Es kann die Identität einer Person verzerren, was besonders bei bekannten Persönlichkeiten auffällt

GN⁺ 2024-09-07

Wirkt wie eine minderwertige Kopie von Hedra und liegt derzeit deutlich zurück
Ich habe mit Text-zu-Bild einen Space Marine erzeugt und selbst ohne weitere Bearbeitung kam ein erstaunliches Ergebnis heraus
Sobald ich die Gesichtsoption "Gnome" sah, wusste ich, was ich tun musste
Das Modell scheint Duke Nukem nicht zu mögen
Als ich seine Pistole abschnitt, wurde es noch schlimmer
Andere Bilder zeigen etwas bessere Ergebnisse
Dieses Bild gefällt mir am besten
Jemand musste diese Arbeit tun
Es gibt frühere Forschung wie Emo von Alibaba Research, aber diese Demo ist beeindruckend, weil die Leute sie tatsächlich ausprobieren können
Ich wollte ein Meme Wirklichkeit werden lassen, aber das Originalbild war schwierig
- Beim Audio gibt es leichte Sprachprobleme
Ich wollte es in Richtung Uncanny Valley treiben, aber das war ziemlich schwierig
Es fügt gelegentlich Hände in den Frame ein
- Scheint mit zu vielen italienischen Daten trainiert worden zu sein
Dieses Tool ist wirklich erstaunlich
- Bei kurzem Audio (3–5 Sekunden) gibt es ein kleines Problem, bei dem das Bild völlig regungslos bleibt