Meta veröffentlicht KI-Modelle Emu Video/Edit für Videosynthese und -bearbeitung

(ai.meta.com)

15 Punkte von xguru 2023-11-21 | 1 Kommentare | Auf WhatsApp teilen

Emu Video: Hochwertige Text-zu-Video-Generierung auf Basis eines einzelnen Diffusion-Modells

Der Prozess wird in zwei Schritte aufgeteilt
- Zuerst wird ein konditioniertes Bild entsprechend dem Text-Prompt erzeugt
- Anschließend wird ein Video erzeugt, das sowohl durch den Text als auch durch das generierte Bild konditioniert ist
Durch diesen „factorized“- bzw. aufgeteilten Ansatz lässt sich ein Videogenerierungsmodell effizient trainieren
Anders als frühere Arbeiten, die eine Überlagerung mehrerer Modelle erforderten (z. B. 5 Modelle bei Make-A-Video), ist die Umsetzung einfacher und erzeugt mit nur zwei Diffusion-Modellen Videos mit 512x512 Pixeln, 4 Sekunden Länge und 16 Bildern pro Sekunde
Tatsächlich bevorzugten 96 % der Befragten es gegenüber Make-A-Video in Bezug auf die Qualität und 85 % in Bezug auf die Treue zum Text-Prompt
Außerdem übertrifft das Modell frühere Arbeiten erneut deutlich, indem es auf Basis von Text-Prompts vom Nutzer bereitgestellte Bilder „animiert“

Emu Edit: Präzise Bildbearbeitung durch Wahrnehmungs- und Generierungsaufgaben

Um das gewünschte Bild zu erzeugen, muss der Prompt fortlaufend angepasst werden, weshalb Prompt Engineering entstanden ist
Dennoch gibt es bei präziser Steuerung weiterhin Grenzen
Emu Edit vereinfacht verschiedene Aufgaben der Bildmanipulation und bietet verbesserte Fähigkeiten und höhere Präzision bei der Bildbearbeitung
Frei formatierte Bearbeitung ist über Anweisungen möglich, die Aufgaben wie lokale und globale Bearbeitung, Entfernen und Hinzufügen von Hintergründen, Farb- und Geometrietransformationen sowie Erkennung und Segmentierung abdecken
Aktuelle Ansätze neigen bei verschiedenen Bearbeitungsaufgaben oft zu übermäßigen Änderungen oder liefern eine schwächere Leistung
Anders als viele heutige generative KI-Modelle folgt Emu Edit den Anweisungen exakt und lässt daher Pixel des Eingabebilds, die nicht mit der Anweisung zusammenhängen, unverändert
- Wenn zum Beispiel auf einer Baseballkappe der Text "Aloha!" hinzugefügt wird, sollte die Kappe selbst nicht verändert werden
Zum Training des Modells wurde ein Datensatz mit 10 Millionen synthetischen Samples entwickelt, die jeweils ein Eingabebild, eine Beschreibung der auszuführenden Aufgabe und ein Ziel-Ausgabebild enthalten
- Der bislang größte Datensatz dieser Art
Dadurch zeigt das Emu-Edit-Modell beispiellose Bearbeitungsergebnisse in Bezug auf Instruktionstreue und Bildqualität
- Sowohl in qualitativen als auch in quantitativen Bewertungen für verschiedene Bildbearbeitungsaufgaben erzielt es neue State-of-the-Art-Ergebnisse und weist eine bessere Leistung als bestehende Ansätze nach

1 Kommentare

xguru 2023-11-21

Emu Edit finde ich ziemlich interessant. Bei DALL·E wird bei Bearbeitungsanweisungen selbst mit fixiertem Seed irgendwie am Ende alles komplett neu generiert, sodass kleine Änderungen schwierig sind. Wenn Bearbeitungen auf diese Weise möglich sind, dürfte das deutlich praktischer in der Nutzung sein.

Meta veröffentlicht KI-Modelle Emu Video/Edit für Videosynthese und -bearbeitung

Emu Video: Hochwertige Text-zu-Video-Generierung auf Basis eines einzelnen Diffusion-Modells

Emu Edit: Präzise Bildbearbeitung durch Wahrnehmungs- und Generierungsaufgaben

Verwandte Beiträge

1 Kommentare