1 Punkte von GN⁺ 2024-09-07 | 1 Kommentare | Auf WhatsApp teilen

Vorstellung von Infinity AI

  • Infinity AI ist ein Unternehmen, das ein menschenzentriertes Videomodell trainiert hat
  • Es ist der erste bekannte Fall, in dem ein audioeingespeister Video-Diffusion-Transformer trainiert wurde
  • Dieses Modell kann ausdrucksstarke und realistische Charaktere erzeugen, die tatsächlich sprechen

Verwendung

  • Mit den Tools von Infinity AI kann man ein Skript eingeben und ein Video erzeugen, in dem ein Charakter spricht
  • Beispiele:
    • „Ein Video, in dem die Mona Lisa sagt: ‚Worüber lächelst du eigentlich?‘“
    • „Ein Video, in dem ein 3D-Gnom im Pixar-Stil mit roter Mütze die Unabhängigkeitserklärung vorliest“
    • „Ein Video, in dem Elon Musk Frank Sinatras ‚Fly Me To The Moon‘ singt“

Probleme bestehender KI-Tools

  • Bestehende generative KI-Videomodelle konnten Charaktere nicht sprechen lassen
  • Bestehende Talking-Avatar-Unternehmen fügten zu vorhandenem Video lediglich Lippensynchronisation hinzu
  • Dadurch entstanden Gesichtsausdrücke und Gesten, die nicht zum Audio passten, was zum „Uncanny Valley“-Effekt führte

Grenzen des V1-Modells

  • Der Lip-Sync-Ansatz hatte neben unpassenden Gesten noch weitere Einschränkungen
  • Dazu gehörten eine begrenzte Bibliothek an Darstellern und die Unfähigkeit, imaginäre Charaktere zu animieren

Verbesserungen im V2-Modell

  • Trainiert wurde ein End-to-End-Video-Diffusion-Transformer-Modell, das als Eingabe ein einzelnes Bild, Audio und weitere Konditionierungssignale erhält und Video ausgibt
  • Es gilt als der beste Ansatz, um die Komplexität und Feinheiten menschlicher Bewegung und Emotion einzufangen
  • Ein Nachteil ist, dass das Modell langsam ist

Vorteile des Modells

  • Es kann mehrere Sprachen verarbeiten
  • Es hat teilweise Physik gelernt (z. B. schwingen Ohrringe korrekt)
  • Es kann verschiedene Bildtypen animieren (Gemälde, Skulpturen usw.)
  • Es kann mit Gesang umgehen

Nachteile des Modells

  • Es kann keine Tierbilder verarbeiten (nur humanoide Bilder sind möglich)
  • Es fügt häufig Hände ins Bild ein (sehr störend und ablenkend)
  • Es ist bei Comics nicht robust
  • Es kann die Identität von Personen verzerren (besonders auffällig bei berühmten Personen)

Modell ausprobieren

Zusammenfassung von GN⁺

  • Das Videomodell von Infinity AI ist der erste bekannte Fall, in dem über Audioeingabe realistische Charaktere erzeugt werden können
  • Es überwindet die Grenzen bestehender KI-Tools und erfasst mit einem End-to-End-Video-Diffusion-Transformer-Modell menschliche Bewegung und Emotion besser
  • Es bietet Vorteile wie Unterstützung mehrerer Sprachen und verschiedener Bildtypen, hat aber auch Nachteile wie fehlende Unterstützung für Tierbilder und das häufige Einfügen von Händen ins Bild
  • Andere Projekte mit ähnlichen Funktionen sind Runway und Luma

1 Kommentare

 
GN⁺ 2024-09-07
Hacker-News-Kommentare
  • Wirkt wie eine minderwertige Kopie von Hedra und liegt derzeit deutlich zurück
  • Ich habe mit Text-zu-Bild einen Space Marine erzeugt und selbst ohne weitere Bearbeitung kam ein erstaunliches Ergebnis heraus
  • Sobald ich die Gesichtsoption "Gnome" sah, wusste ich, was ich tun musste
  • Das Modell scheint Duke Nukem nicht zu mögen
  • Als ich seine Pistole abschnitt, wurde es noch schlimmer
  • Andere Bilder zeigen etwas bessere Ergebnisse
  • Dieses Bild gefällt mir am besten
  • Jemand musste diese Arbeit tun
  • Es gibt frühere Forschung wie Emo von Alibaba Research, aber diese Demo ist beeindruckend, weil die Leute sie tatsächlich ausprobieren können
  • Ich wollte ein Meme Wirklichkeit werden lassen, aber das Originalbild war schwierig
    • Beim Audio gibt es leichte Sprachprobleme
  • Ich wollte es in Richtung Uncanny Valley treiben, aber das war ziemlich schwierig
  • Es fügt gelegentlich Hände in den Frame ein
    • Scheint mit zu vielen italienischen Daten trainiert worden zu sein
  • Dieses Tool ist wirklich erstaunlich
    • Bei kurzem Audio (3–5 Sekunden) gibt es ein kleines Problem, bei dem das Bild völlig regungslos bleibt