Google DeepMind stellt das Video-Generierungsmodell Veo 2 vor

(deepmind.google)

7 Punkte von GN⁺ 2024-12-17 | 1 Kommentare | Auf WhatsApp teilen

Veo 2 ist ein hochmodernes Video-Generierungsmodell, das realistische Bewegungen und hochwertige Ausgaben bis zu 4K bietet
Es ermöglicht die Erkundung verschiedener Stile und hilft mit umfassender Kamerasteuerung dabei, einen eigenen Stil zu finden
Neudefinition von Qualität und Kontrolle
- Veo 2 folgt einfachen wie auch komplexen Anweisungen präzise und simuliert Physik der realen Welt sowie verschiedene visuelle Stile überzeugend
- Verbesserter Realismus und höhere Genauigkeit: Im Vergleich zu anderen AI-Videomodellen deutlich verbessert bei Details, Realismus und der Reduzierung von Artefakten
- Fortschrittliche Bewegungsfunktionen: Dank des Verständnisses von Physik und der Fähigkeit, detaillierten Anweisungen zu folgen, werden Bewegungen mit hoher Präzision dargestellt
- Mehr Optionen zur Kamerasteuerung: Erzeugt unterschiedliche Shot-Stile, Winkel und Bewegungen durch präzise Interpretation
Benchmarks
- Veo erzielte in Vergleichen mit anderen führenden Video-Generierungsmodellen durch menschliche Bewerter Ergebnisse auf dem neuesten Stand der Technik
- 1003 Prompts und die dazugehörigen Videos wurden auf MovieGenBench bewertet; Veo 2 zeigte die beste Leistung sowohl bei der allgemeinen Präferenz als auch bei der Fähigkeit, Prompts präzise zu befolgen
Einschränkungen
- Veo 2 hat bemerkenswerte Fortschritte bei der Erzeugung realistischer, dynamischer und komplexer Videos gezeigt, doch die vollständige Konsistenz in komplexen Szenen oder Szenen mit komplizierten Bewegungen bleibt weiterhin eine Herausforderung
- Es ist geplant, die Leistung in diesen Bereichen weiterzuentwickeln und zu verbessern

1 Kommentare

GN⁺ 2024-12-17

Hacker-News-Kommentare

Ein Nutzer teilte Feedback zu einem Video, das mit dem Prompt „A pelican riding a bicycle along a coastal path overlooking a harbor“ erzeugt wurde. Von vier Versionen zeigten zwei einen radfahrenden Pelikan, eine einen Pelikan, der die Straße entlanglief, eine einen Pelikan, der auf einem Fahrrad saß, und in der letzten trug der Pelikan einen seltsamen Helm. Das Ergebnis sei besser gewesen als bei Sora
Dass Veo 2 in den Nutzerpräferenzen Sora Turbo mit 2:1 geschlagen habe, sei beeindruckend. Es habe ähnliche Einschränkungen wie Sora, scheine aber natürliche Bewegungen und Physik etwas besser nachzuahmen. Im Blogbeitrag werde erklärt, dass es sich bis auf 4K-Auflösung skalieren lasse und die Länge auf mehrere Minuten erweitert werden könne
Es wurde Neugier über die Ähnlichkeit zwischen den in der Ankündigung gezeigten Beispielen und den Trainingsdaten geäußert. Es wurde infrage gestellt, wie stark Details aus dem Prompt tatsächlich im Ergebnis berücksichtigt werden. Zum Beispiel wurde gefragt, welchen Einfluss die Beschreibung der fesselnden Präsenz eines DJs und der Kraft der Musik auf das Video habe
Das Skateboard-Video wirke unrealistisch, aber einige andere Videos sähen sehr plausibel aus
Es wurde erwähnt, dass die Seite in Chrome auf dem iPad abgestürzt sei
Nachdem OpenAI nach einer großen Ankündigung von Google eine Sora-Vorschau veröffentlicht und Google damit übertroffen habe, wirke Veo 2 nun fortschrittlicher als Sora
Ein Freund, der bei einem TV-Sender arbeitet, nutze solche Tools bereits für ein Programm mit öffentlichen Werbespots
Es wurde die Ansicht geäußert, dass Google dank seines Zugangs zu YouTube den Übergang von Text/Bild zu Video dominieren könnte
Es wurde Verwirrung darüber geäußert, dass die Sample-Länge von Veo 2 bei 8 Sekunden, die von VideoGen bei 10 Sekunden und die anderer Modelle bei 5 Sekunden liege. Es wurde infrage gestellt, ob die positiven Ergebnisse von Veo 2 darauf zurückzuführen seien, dass die Bewertenden längere Videos bevorzugten
Googles AI-Abteilung wurde im Vergleich zu OpenAIs glamouröser Yacht mit einem riesigen Atom-U-Boot verglichen. Dabei wurde die Möglichkeit angesprochen, dass Google AGI näher gekommen sein könnte; auch die Lage von Microsoft und Amazon wurde erwähnt

Google DeepMind stellt das Video-Generierungsmodell Veo 2 vor

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare