Emu Video: Hochwertige Text-zu-Video-Generierung auf Basis eines einzelnen Diffusion-Modells
- Der Prozess wird in zwei Schritte aufgeteilt
- Zuerst wird ein konditioniertes Bild entsprechend dem Text-Prompt erzeugt
- Anschließend wird ein Video erzeugt, das sowohl durch den Text als auch durch das generierte Bild konditioniert ist
- Durch diesen „factorized“- bzw. aufgeteilten Ansatz lässt sich ein Videogenerierungsmodell effizient trainieren
- Anders als frühere Arbeiten, die eine Überlagerung mehrerer Modelle erforderten (z. B. 5 Modelle bei Make-A-Video), ist die Umsetzung einfacher und erzeugt mit nur zwei Diffusion-Modellen Videos mit 512x512 Pixeln, 4 Sekunden Länge und 16 Bildern pro Sekunde
- Tatsächlich bevorzugten 96 % der Befragten es gegenüber Make-A-Video in Bezug auf die Qualität und 85 % in Bezug auf die Treue zum Text-Prompt
- Außerdem übertrifft das Modell frühere Arbeiten erneut deutlich, indem es auf Basis von Text-Prompts vom Nutzer bereitgestellte Bilder „animiert“
Emu Edit: Präzise Bildbearbeitung durch Wahrnehmungs- und Generierungsaufgaben
- Um das gewünschte Bild zu erzeugen, muss der Prompt fortlaufend angepasst werden, weshalb Prompt Engineering entstanden ist
- Dennoch gibt es bei präziser Steuerung weiterhin Grenzen
- Emu Edit vereinfacht verschiedene Aufgaben der Bildmanipulation und bietet verbesserte Fähigkeiten und höhere Präzision bei der Bildbearbeitung
- Frei formatierte Bearbeitung ist über Anweisungen möglich, die Aufgaben wie lokale und globale Bearbeitung, Entfernen und Hinzufügen von Hintergründen, Farb- und Geometrietransformationen sowie Erkennung und Segmentierung abdecken
- Aktuelle Ansätze neigen bei verschiedenen Bearbeitungsaufgaben oft zu übermäßigen Änderungen oder liefern eine schwächere Leistung
- Anders als viele heutige generative KI-Modelle folgt Emu Edit den Anweisungen exakt und lässt daher Pixel des Eingabebilds, die nicht mit der Anweisung zusammenhängen, unverändert
- Wenn zum Beispiel auf einer Baseballkappe der Text "Aloha!" hinzugefügt wird, sollte die Kappe selbst nicht verändert werden
- Zum Training des Modells wurde ein Datensatz mit 10 Millionen synthetischen Samples entwickelt, die jeweils ein Eingabebild, eine Beschreibung der auszuführenden Aufgabe und ein Ziel-Ausgabebild enthalten
- Der bislang größte Datensatz dieser Art
- Dadurch zeigt das Emu-Edit-Modell beispiellose Bearbeitungsergebnisse in Bezug auf Instruktionstreue und Bildqualität
- Sowohl in qualitativen als auch in quantitativen Bewertungen für verschiedene Bildbearbeitungsaufgaben erzielt es neue State-of-the-Art-Ergebnisse und weist eine bessere Leistung als bestehende Ansätze nach
1 Kommentare
Emu Edit finde ich ziemlich interessant. Bei DALL·E wird bei Bearbeitungsanweisungen selbst mit fixiertem Seed irgendwie am Ende alles komplett neu generiert, sodass kleine Änderungen schwierig sind. Wenn Bearbeitungen auf diese Weise möglich sind, dürfte das deutlich praktischer in der Nutzung sein.