OmniHuman – ein Modell, das aus einem einzigen Foto realistische Videos erzeugt

xguru · 2025-02-13T10:28:01+09:00

Forschende bei ByteDance haben ein KI-System entwickelt, das „mit nur einem einzelnen Foto Videos von Menschen erzeugt, die natürlich sprechen, singen und sich bewegen“ Es überwindet die Grenze bisheriger KI-Modelle, die nur Gesichter oder den Oberkörper animieren konnten, und kann „Videos erzeugen, die Ganzkörperbewegungen widerspiegeln“ Es ist das erste integrierte Modell, das „Eingaben in Form von Audio, Video oder einer Kombination aus beidem nutzt“, um menschliche Bewegungen realistisch zu animieren Wichtige Merkmale Videogenerierung auf Basis eines einzelnen Bildes Aus nur einem Foto einer Person lassen sich natürliche Videos erzeugen, die Ganzkörperbewegungen widerspiegeln Unterstützung für multimodale Eingaben Unterstützt Audio, Video oder eine Kombination aus beidem als Eingabe Gegenüber bisherigen Modellen ist die Ausdrucksstärke von Gesten deutlich verbessert Kann Bilder mit jedem Seitenverhältnis verarbeiten Unterstützt verschiedene Bildformate wie vertikale Porträtfotos, Halbporträts und Ganzkörperfotos Kompatibel mit verschiedenen Stilen und Eingabedaten Kann Comics, künstliche Charaktere, Tiere und komplexe Posen in unterschiedlichen Stilen abbilden Natürliche Körpergesten passend zum Musikstil Kann Bewegungen passend zu hohen und tiefen Tonlagen sowie verschiedenen Musikgenres erzeugen Kann Bewegungen auf Basis von Videos nachahmen Unterstützt Video Driving, bei dem die Bewegungen einer bestimmten Person originalgetreu reproduziert werden

(omnihuman-lab.github.io)

20 Punkte von xguru 2025-02-13 | 2 Kommentare | Auf WhatsApp teilen

Forschende bei ByteDance haben ein KI-System entwickelt, das „mit nur einem einzelnen Foto Videos von Menschen erzeugt, die natürlich sprechen, singen und sich bewegen“
Es überwindet die Grenze bisheriger KI-Modelle, die nur Gesichter oder den Oberkörper animieren konnten, und kann „Videos erzeugen, die Ganzkörperbewegungen widerspiegeln“
Es ist das erste integrierte Modell, das „Eingaben in Form von Audio, Video oder einer Kombination aus beidem nutzt“, um menschliche Bewegungen realistisch zu animieren
Wichtige Merkmale
- Videogenerierung auf Basis eines einzelnen Bildes
  - Aus nur einem Foto einer Person lassen sich natürliche Videos erzeugen, die Ganzkörperbewegungen widerspiegeln
- Unterstützung für multimodale Eingaben
  - Unterstützt Audio, Video oder eine Kombination aus beidem als Eingabe
  - Gegenüber bisherigen Modellen ist die Ausdrucksstärke von Gesten deutlich verbessert
- Kann Bilder mit jedem Seitenverhältnis verarbeiten
  - Unterstützt verschiedene Bildformate wie vertikale Porträtfotos, Halbporträts und Ganzkörperfotos
- Kompatibel mit verschiedenen Stilen und Eingabedaten
  - Kann Comics, künstliche Charaktere, Tiere und komplexe Posen in unterschiedlichen Stilen abbilden
- Natürliche Körpergesten passend zum Musikstil
  - Kann Bewegungen passend zu hohen und tiefen Tonlagen sowie verschiedenen Musikgenres erzeugen
- Kann Bewegungen auf Basis von Videos nachahmen
  - Unterstützt Video Driving, bei dem die Bewegungen einer bestimmten Person originalgetreu reproduziert werden

2 Kommentare

dhy0613 2025-02-13

Wow, wenn China jetzt Krieg führt, wird es wohl mehr als genug manipulierte Propagandavideos geben.

colus001 2025-02-13

Wow … das ist cool, oder?

OmniHuman – ein Modell, das aus einem einzigen Foto realistische Videos erzeugt

Verwandte Beiträge

2 Kommentare