Mit dem Videogenerierungsmodell Veo 2 in Gemini und Whisk Videos erstellen

(blog.google)

1 Punkte von GN⁺ 2025-04-17 | 2 Kommentare | Auf WhatsApp teilen

Über Gemini und Whisk steht eine Funktion zur Verfügung, mit der sich textbasierte Prompts in hochauflösende 8-Sekunden-Videos umwandeln lassen
Mit dem Modell Veo 2 lassen sich realistische Videos erzeugen; verfügbar ist es für Abonnenten von Google One AI Premium
Mit Whisk Animate können Bilder in 8-sekündige animierte Clips umgewandelt werden
Aus Sicherheitsgründen enthalten alle erzeugten Videos ein digitales Wasserzeichen von SynthID

So erstellt man Videos in Gemini

Veo 2 ist ein Modell, das hochauflösende, detailreiche Videos erzeugen kann und durch das Verständnis realistischer Physik und menschlicher Bewegungen lebendige Charakterbewegungen und realistische Szenen liefert
Nutzer können in Gemini Veo 2 auswählen, um 8-sekündige Videoclips in 720p-Auflösung zu erzeugen
Beschreibt man eine Szene, setzt Gemini die Idee als Video um; je detaillierter die Beschreibung, desto mehr Kontrolle hat man über das finale Video
Die erzeugten Videos lassen sich leicht auf Plattformen wie TikTok oder YouTube Shorts teilen

Bildern mit Whisk Animate Leben einhauchen

Whisk ist ein Experiment von Google Labs, mit dem sich mithilfe von Text- und Bild-Prompts neue Ideen visualisieren lassen
Mit Whisk Animate lassen sich Bilder in lebendige 8-Sekunden-Videos umwandeln; verfügbar ist die Funktion für Abonnenten von Google One AI Premium

Sicherheitsansatz

Um die Sicherheit bei der Videogenerierung zu erhöhen, enthalten alle mit Veo 2 erzeugten Videos ein digitales Wasserzeichen von SynthID
Durch Nutzerfeedback sollen kontinuierliche Verbesserungen erfolgen; zudem werden Bewertungen durchgeführt, um die Erzeugung von Inhalten zu verhindern, die gegen Richtlinien verstoßen

2 Kommentare

xguru 2025-04-17

Google DeepMind stellt das Video-Generierungsmodell Veo 2 vor

GN⁺ 2025-04-17

Hacker-News-Kommentare

Whisk wurde vor ein paar Monaten stillschweigend als Demo für Imagen 3 veröffentlicht. Überraschenderweise macht es Spaß und ist solide umgesetzt.
- Es nutzt einen Trick, bei dem hochgeladene Bilder in Textbeschreibungen umgewandelt werden.
- So kann es die Stärken des modernen Text-Encoders von Imagen 3 ausnutzen, der langen umgewandelten Beschreibungen folgen kann.
Ich würde gern „Ja“-Anteile auf das Polymarket-Ereignis kaufen, dass bis 2027 ein von einer einzelnen Person gemachter Film mehr als 100 Millionen Dollar einspielt.
Ich habe in Veo2 48 Dollar an GCP-Credits verbraucht, um 12 Videos mit je 8 Sekunden zu erstellen. Vorsicht ist geboten.
Ich hätte nicht gedacht, dass es außerhalb einer kostenpflichtigen API möglich sein würde, 8-Sekunden-Videos zu erzeugen.
Ich bin in diesem Bereich technisch nicht besonders versiert, aber ich frage mich, warum alles Text-zu-X ist.
- Wäre es nicht möglich, einen traditionellen Keyframe-Editor zu verwenden, dabei eine grobe Skizze der Landschaft zu zeichnen, Fotos von Figuren einzufügen und 3D-Splines zu ziehen, sodass detaillierte kreative Kontrolle möglich ist?
Eine Werbung im Ghibli-Stil zu machen, ist mutig. Ich dachte, dieser Stil wäre inzwischen ausgeschöpft.
Google Vids verwendet ebenfalls Veo 2. Das sorgt für Produktverwirrung.
Die Inhaltsmoderation ist extrem frustrierend. Das könnte der Hauptgrund sein, warum Veo2 und Gemini am Ende scheitern.
- Ich möchte ein lustiges Video machen, in dem ein Kind Superheld spielt, aber es schlägt immer wieder fehl.
All das ist technisch beeindruckend, aber für jemanden, der in diesem Bereich hart gearbeitet hat, ist es auch eine große Warnung.
- Text-zu-Irgendwas ist extrem ermüdend. Selbst wenn das Ergebnis cool ist, empfinde ich nichts dabei, weil ich es nicht selbst gemacht habe.
- In 97 % der Fälle ist das Ergebnis nicht das, was ich will. Wenn ich den Text leicht ändere, kommt ein anderes falsches Ergebnis heraus.
- Dieser ganze Prozess zehrt an meinem Geldbeutel, meiner Geduld und meiner Seele.
- Ich weiß nicht, wie diese „Tools“ Kreativen helfen sollen. Bisher kommen aus diesen Tools nur TikTok-/allgemeine Internet-Spam-Firmen.
Krita-ai-diffusion, das an Krita angebunden ist und img2img mit Masking und txt2img kombiniert, ist das Werkzeug, das Künstler am ehesten stärkt.
Im Vergleich zu vor einem Jahr ist das ein sehr beeindruckender Launch. Für ML ist die Lage derzeit gut, weil alle großen Unternehmen miteinander konkurrieren und die Technik vorantreiben. Das ist in den USA (oder allgemein) selten.

Mit dem Videogenerierungsmodell Veo 2 in Gemini und Whisk Videos erstellen

So erstellt man Videos in Gemini

Bildern mit Whisk Animate Leben einhauchen

Sicherheitsansatz

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentare