Google DeepMind Veo – das leistungsstärkste generative Videomodell

(deepmind.google)

11 Punkte von GN⁺ 2024-05-15 | 2 Kommentare | Auf WhatsApp teilen

Veo ist derzeit das leistungsstärkste Modell zur Videogenerierung.
Es kann hochwertige Videos in 1080p-Auflösung mit einer Länge von mehr als einer Minute erzeugen.
Es unterstützt vielfältige filmische und visuelle Stile.
Es erfasst Nuancen und Ton eines Prompts präzise und bietet kreative Kontrolle.
Es versteht filmische Effekte wie Zeitrafferaufnahmen oder Luftaufnahmen von Landschaften.
Es hilft dabei, Videoproduktion für alle zugänglich zu machen.
Es eröffnet erfahrenen Filmemachern, Kreativen, Lehrkräften und anderen neue Möglichkeiten.
Einige Funktionen sollen über ein neues experimentelles Tool namens VideoFX bereitgestellt werden.
Künftig ist geplant, die Funktionen von Veo auch in YouTube Shorts und anderen Produkten einzusetzen.

Tieferes Verständnis von Sprache und visuellen Inhalten

Textprompts müssen präzise interpretiert und mit passenden visuellen Referenzen kombiniert werden.
Durch ein fortgeschrittenes Verständnis natürlicher Sprache und visueller Bedeutung erzeugt es Videos, die Prompts originalgetreu folgen.
Es rendert Details in komplexen Szenen präzise.

Steuerungsfunktionen für die Filmproduktion

Wenn ein Eingabevideo und Bearbeitungsanweisungen bereitgestellt werden, wendet Veo diese an und erzeugt ein neu bearbeitetes Video.
Es unterstützt Maskenbearbeitung, sodass sich bestimmte Bereiche eines Videos verändern lassen.
Wenn Bild- und Textprompts gemeinsam bereitgestellt werden, erzeugt es Videos, die diesem Stil und diesen Anweisungen folgen.
Mit einem einzelnen Prompt oder einer Folge von Prompts lassen sich Videoclips von mehr als 60 Sekunden erzeugen und erweitern.

Konsistenz zwischen Videoframes aufrechterhalten

Die visuelle Konsistenz in Videogenerierungsmodellen aufrechtzuerhalten, ist eine Herausforderung.
Veos neuester latenter Diffusions-Transformer reduziert das Auftreten solcher Inkonsistenzen.
Er bewahrt Charaktere, Objekte und Stil auf realistische Weise.

Basierend auf jahrelanger Forschung zur Videogenerierung

Veo basiert auf Forschung wie Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet und Lumiere.
Es nutzt die Transformer-Architektur und Gemini.
Um Prompts noch präziser zu verstehen und zu befolgen, werden den Beschreibungen jedes Videos mehr Details hinzugefügt.
Es verwendet hochwertige komprimierte Videorepräsentationen, um die Leistung zu verbessern.

Verantwortungsbewusstes Design

Es ist wichtig, Veo verantwortungsvoll in die Welt einzuführen.
Von Veo erzeugte Videos werden mit SynthID wassergekennzeichnet.
Sicherheitsfilter und Memory-Checks mindern Risiken in Bezug auf Privatsphäre, Urheberrecht und Verzerrungen.
Die Zukunft von Veo wird in Zusammenarbeit mit wichtigen Kreativen und Filmemachern gestaltet.
Deren Feedback hilft dabei, generative Videotechnologie zu verbessern und der breiteren Kreativ-Community Vorteile zu bringen.

Meinung von GN⁺

Veo als Innovation: Veo ist ein hochwertiges Modell zur Videogenerierung, das Kreativen neue Möglichkeiten eröffnet.
Einsatz in der Bildung: Es kann Lehrkräften sehr dabei helfen, Wissen über Videos zu vermitteln.
Verantwortungsvoller Technologieeinsatz: Veo kann dank Wasserzeichen und Sicherheitsfiltern verantwortungsvoll eingesetzt werden.
Wettbewerbsprodukte: Ein Vergleich mit anderen Modellen zur Videogenerierung mit ähnlichen Funktionen ist nötig.
Aspekte bei der Einführung: Bei der Einführung von Veo sollten Fragen zu Privatsphäre und Urheberrecht ausreichend berücksichtigt werden.

2 Kommentare

xguru 2024-05-15

Wirklich hervorragend – wenn es Sora nicht gäbe ... der Vergleich drängt sich auf. Wie ist Google nur so weit gekommen? T_T

GN⁺ 2024-05-15

Hacker-News-Kommentare

Zusammenfassung der Hacker-News-Kommentare

Einschränkungen aus Sicht der Filmproduktion
- Meinung: Mit der aktuellen Technik hat das kaum große Auswirkungen auf die Filmproduktion. Es werden Funktionen benötigt, mit denen Regisseure konkrete Anweisungen geben können. Derzeit bewegt es sich meist auf dem Niveau von B-Roll-Inhalten.
Googles SynthID-Technologie
- Meinung: Google fügt mit der SynthID-Technologie Wasserzeichen zu KI-generierten Videos hinzu. Diese Technik wird nicht nur bei Videos, sondern auch bei Bildern, Texten und Audio eingesetzt.
Vergleich mit Sora
- Meinung: Sora wirkt beeindruckender. Sora kann lange Clips und schnelle Bewegungen gut verarbeiten. Die aktuelle Demo enthält dagegen nur kurze Clips und langsame Bewegungen. Das Einzige, was überhaupt vergleichbar ist, ist das Cyberpunk-Video, dem es jedoch an Konsistenz fehlt.
60-Sekunden-Beispielvideo
- Meinung: Es wurde ein Link zu einem 60-sekündigen Beispielvideo geteilt. YouTube-Link
Fehlende Videos mit Menschen
- Meinung: Dass keine Videos mit Menschen zu sehen sind, könnte darauf hindeuten, dass die Technologie Schwierigkeiten hat, Menschen zu generieren.
Veränderung der Schnittdauer in Filmen
- Meinung: Laut einem Wired-Artikel aus dem Jahr 2014 ist die durchschnittliche Einstellungslänge in englischsprachigen Filmen von 12 Sekunden in den 1930er Jahren auf heute 2,5 Sekunden gesunken. Diese Technologie könnte stärkere Auswirkungen auf die reale Welt haben. Link zum Wired-Artikel
Eindruck des Demo-Videos
- Meinung: Das Demo-Video ist interessant. Im Vergleich zur Sora-Demo ist es jedoch nicht besonders beeindruckend. Für eine Vorstellung von Google bleibt es hinter den Erwartungen zurück. Sora ist noch nicht veröffentlicht, und Veo könnte am Ende mehr bieten.
Wie Konsistenz gewahrt wird
- Meinung: Es besteht Neugier darauf, wie Veos aktuelle Technik Konsistenz aufrechterhält. Es wird gefragt, ob es eine zeitliche Erinnerung zwischen den Frames gibt.
Ähnlichkeit mit Westworld
- Meinung: Das Thumbnail des ersten Beispiel-Prompts ähnelt dem Gunslinger-Androiden aus dem Film Westworld von 1973. Das war damals ein frühes Beispiel für den Einsatz von Computergrafik. YouTube-Link
Verwirrung um das Donald-Glover-Segment
- Meinung: Das Donald-Glover-Segment war verwirrend. Es wurden nur ein paar kurze Clips gezeigt, sodass man einen Kurzfilm erwartet hatte und enttäuscht wurde.