Google stellt Veo 3, Imagen 4 und das neue Filmproduktions-Tool Flow vor

(blog.google)

2 Punkte von GN⁺ 2025-05-21 | 1 Kommentare | Auf WhatsApp teilen

Google DeepMind hat Veo 3, Imagen 4 und Flow vorgestellt und erweitert damit Werkzeuge für Video-, Bild- und Filmproduktion umfassend.
Veo 3 bietet Funktionen wie Videogenerierung mit Audio, realistische Physiksimulation und Lippensynchronisation.
Imagen 4 eignet sich mit präziser Detaildarstellung und verbesserter Typografie-Verarbeitung besonders gut für die Erstellung von Assets.
Flow ist ein neues Kreativ-Tool, das verschiedene Modelle integriert und Filmproduktion auf Basis natürlicher Sprache ermöglicht.
In alle generierten Inhalte wird ein SynthID-Wasserzeichen eingebettet; zusammen mit einem neuen Erkennungstool soll das die Transparenz erhöhen.

Entfesseln Sie Ihre Kreativität mit neuen generativen Medienmodellen und Tools

Google hat die neuesten generativen Medienmodelle Veo 3, Imagen 4 sowie das neue Filmproduktions-Tool Flow angekündigt.
Diese Modelle können Bilder, Videos und Musik generieren und helfen Kreativen dabei, ihre vorgestellten Welten Wirklichkeit werden zu lassen.
Google DeepMind hat die Tools gemeinsam mit Filmemachern, Musikern und Künstlern entwickelt und betont den verantwortungsvollen Einsatz von KI.

Veo 3: Fortschrittliche Videogenerierung mit Audio

Veo 3 erzeugt Videos in höherer Qualität als Veo 2 und ermöglicht erstmals die Generierung von Videos inklusive Audio wie Hintergrundgeräuschen und Dialogen.
Über text- oder bildbasierte Prompts lassen sich Videos mit realistischer Physik erstellen, außerdem ist die Lippensynchronisation präzise.
Verfügbar in den USA für Nutzer des Ultra-Tarifs über die Gemini-App, Flow und Vertex AI.

Veo 2: Neue Funktionen auf Basis von Creator-Feedback

Veo 2 erhält auf Grundlage des Feedbacks von Kreativen die folgenden neuen Funktionen:
- Referenzbasierte Videogenerierung: Konsistente Videos durch Eingabe von Charakteren, Stil oder Objekten als Bildreferenzen
- Kamerasteuerung: Kamera-Bewegungen wie Rotation, Zoom und Dolly lassen sich festlegen
- Outpainting: Erweiterung des Frames für den Wechsel von Hoch- zu Querformat und zur natürlichen Ausdehnung einer Szene
- Objekte hinzufügen und entfernen: Natürliches Bearbeiten unter Berücksichtigung von Größe, Schatten und Interaktionen eines Objekts
Diese Funktionen sind in Flow nutzbar und sollen schrittweise in die Vertex AI API integriert werden.

Flow: KI-Tool für Filmproduktion, optimiert für Veo

Flow integriert Veo, Imagen und Gemini und ermöglicht es, Szenen, Charaktere und Stil per natürlicher Sprache festzulegen und als Video umzusetzen.
Verfügbar für Nutzer der Tarife AI Pro und Ultra in den USA; eine Ausweitung auf weitere Länder ist geplant.

Imagen 4: Verbesserungen bei Auflösung, Details und Typografie

Imagen 4 bietet feine Texturdarstellung, Unterstützung für fotorealistische und abstrakte Stile sowie Ausgabe in 2K-Auflösung.
Auch die Typografie-Funktionen wurden verbessert, was besonders für die Erstellung von Karten, Postern und Comics nützlich ist.
Verfügbar in der Gemini-App, Vertex AI, Slides, Docs, Whisk und weiteren Diensten; eine bis zu 10-mal schnellere Version soll bald erscheinen.

Lyria 2: Interaktive Musikgenerierung

Das Modell ist Teil der Music AI Sandbox für Musiker, unterstützt kreative Experimente und ermöglicht die Erkundung neuer Musik.
Verfügbar in YouTube Shorts, Vertex AI, MusicFX DJ und weiteren Produkten; außerdem mit Echtzeit-Interaktion über API und AI Studio.

SynthID macht KI-generierte Inhalte erkennbar

SynthID, gestartet im Jahr 2023, hat Wasserzeichen in mehr als 10 Milliarden KI-generierte Inhalte wie Bilder, Videos, Audio und Text eingebettet.
Mit dem neu veröffentlichten SynthID Detector können Nutzer ebenfalls erkennen, ob Inhalte generiert wurden.
Google setzt seine Arbeit an verantwortungsvoll gestalteten Tools und offener Zusammenarbeit fort, damit generative KI Kreativität sinnvoll unterstützt.

1 Kommentare

GN⁺ 2025-05-21

Hacker-News-Kommentare

Nach eigenen Tests scheint sich Imagen 4 gegenüber Imagen 3 nicht besonders stark verbessert zu haben, und die Prompt-Genauigkeit liegt ungefähr bei 60 %
- Ich frage mich, warum man bei erfolgreichen Fällen nur einen Versuch betrachtet, bei einem scheiternden Modell aber mehrfach wiederholt
  Ich frage mich, ob dieser Test bewertet, „ob das Modell es schaffen kann“ oder „ob es es häufig schafft“
  Ich denke, es wäre angemessener, eine Erfolgsquote oder einen Schwellenwert für die Erfolgsquote festzulegen und die Anzahl der Versuche zu fixieren
- Bei „The Yarrctic Circle“ hat OpenAI 4o gewonnen, aber grundlegende Dinge sind komplett falsch: Es hält keinen Cutlass, es ist zwar schön, aber die Perspektive ergibt keinen Sinn, und anatomisch sind die Beine tatsächlich um 150 % länger
  Ich denke, das ist eine interessante Ressource, um die Grenzen der aktuellen Modelle zu erkennen
- Die Hand im Siegerbild von „Not the Bees“ sieht völlig anders aus als die des Fahrers, daher ist es schwer, das als wirklich bestanden anzusehen
- Ich frage mich, wie man überprüft, ob tatsächlich Imagen 4 oder doch Imagen 3 verwendet wird
  In Gemini wird das verwendete Modell nicht offengelegt, daher frage ich mich, ob Vertex AI genutzt wird
- Es werden schwierigere Beispiele als mögliche Testkriterien vorgeschlagen
  - ein randvoll gefülltes Weinglas
  - Uhrzeiger auf 10 und 2 Uhr (also keine Uhr, die ein V zeigt)
  - eine 9-stufige IKEA-Regal-Montageanleitung
  - jede Art von Gymnastik oder Akrobatik
Inzwischen wirken Profi-Tools den Open-Source-Versionen deutlich voraus
Kostenlose Modelle wie wan oder hunyuan sind zwar großartig, aber die neuesten Ergebnisse von Google oder Runway scheinen noch eine Stufe höher zu sein
Besonders die Editier-Tools – Funktionen wie Motion, Richtung, Schnitte oder Audio-Einfügung – sind ein größerer Unterschied als die reine Generierungsqualität
Es wirkt, als würden große Unternehmen ganz klar auf Werbeagenturen/Hollywood zielen
Ich denke, der Tag, an dem diese Tools zum Branchenstandard werden, kommt früher als erwartet
Es braucht wohl noch ein oder zwei weitere Generationen, aber die Ergebnisse sind bereits sehr gut
- Auch wenn Open Source bei der Bequemlichkeit zurückliegt, ist in professionellen Umgebungen ein wichtiger Vorteil, dass man über Funktionen wie Custom LoRA, ControlNet usw. während des Generierungsprozesses gezielt gewünschte Elemente hinzufügen kann
  Bei lokaler Generierung kann man außerdem der Inhaltsmoderation von Plattformen entgehen, die übermäßig streng sein kann
  ComfyUI ist für Einsteiger schwierig, aber statt geschlossener Tools ohne große Kontrolle werden kleinere YouTube-Kanäle und kleine Produktionen wohl weiterhin oft Open-Source-Tools wählen
- Die eigentliche Bewährungsprobe für GAI kommt, wenn der Qualitätsunterschied verschwindet
  Dann würde das bedeuten, dass man alles in jeder gewünschten Qualität erzeugen kann
- Es gibt die Ansicht, dass das eigentliche Ziel der Ausrichtung auf Agenturen/Hollywood der Werbemarkt ist
- Analyse des Fortschritts des Tencent-Hunyuan-Teams
  Hunyuan Image 2.0 wurde angekündigt, und Qualität sowie Geschwindigkeit bei Text-zu-Bild und Bild-zu-Bild sind sehr beeindruckend
  Sie haben eine Echtzeit-2D-Zeichen-Canvas-App gebaut, die praktisch alles umsetzt, was Krea angeboten hat
  Anders als zuvor ist es diesmal Closed Source, was schade ist
  Hunyuan 3D 2.0 war ebenfalls gut, aber 3D 2.5 wurde noch nicht veröffentlicht
  Hunyuan Video zeigt im Vergleich zu Wan keinen Fortschritt, aber Wan bekommt zuletzt mit einer multimodalen/Editier-Schicht namens VACE Aufmerksamkeit
  Auch die Comfy-Community erzielt mit VACE und Wan bemerkenswerte Ergebnisse
Der Grund, warum Low-Budget-Indie-Filme selbst mit schwacher Regie und Schauspielerei noch Immersion, Lachen und Emotionen erzeugen können, liegt darin, dass sie insgesamt eine konstante Qualitätskonsistenz haben
KI-Videoinhalte dagegen können zwar in jedem einzelnen Clip für sich sehr ausgereift sein, haben aber noch Grenzen dabei, mehrere Clips zu einem Werk zu verbinden und dabei die Immersion aufrechtzuerhalten
Für Inhalte, die über Intro oder Ton einen „roten Faden“ der Geschichte erhalten, könnte KI-Video funktionieren, aber noch ist Hollywood wohl nicht an dem Punkt, sich Sorgen machen zu müssen
Dabei wurden auch Dinge wie Filmkorn und die Gründe erwähnt, warum das 24p-Format weiterhin eine künstlerische Wahl ist
- Empfehlung für den YouTube-Kanal NeuralViz
  Er baut mit 180.000 Abonnenten ein auf KI-Video basierendes Cinematic Universe auf und ist eine sehr unterhaltsame Show
  Die Behauptung, „mehrere KI-Videoclips so zu verknüpfen, dass Immersion entsteht, sei ferne Zukunft“, werde in der Realität bereits widerlegt
- Der Einfluss von KI-Videoinhalten auf Hollywood sei vergleichbar mit dem Einfluss der Fotografie auf die Malerei
  KI-native Videos könnten sich stark von der klassischen Hollywood-Dreiaktstruktur unterscheiden, aber wenn die Zuschauer dorthin abwandern, wird Hollywood am Ende denselben Weg gehen
- An gutem Content zum Anschauen mangelt es schon jetzt nicht
  Das eigentliche Problem sei nicht die Qualität der Inhalte, sondern Reichweite und Distribution; Kritik daran, dass Google als einer der größten kulturellen Distributoren der Welt am Kernproblem der Kunstwelt vorbeisieht und seine Energie in die falsche Richtung lenkt
Wir sind wohl an dem Punkt angekommen, an dem fast jeder schon einmal ein KI-generiertes Video gesehen und für echt gehalten hat
Sehr auffällige Beispiele sind leicht zu erkennen, aber je öfter man damit in Berührung kommt, desto natürlicher schleichen sich KI-Videos in unseren Alltag ein
Google arbeitet mit Darren Aronofskys KI-Studio Primordial Soup zusammen
Während im Zuge des SAG-AFTRA-Streiks in Hollywood über ein Verbot von KI-Einsatz diskutiert wurde, fragt man sich, warum dieses neue Studio davon nicht betroffen war
- Weil Primordial Soup kein gewerkschaftlich gebundenes Unternehmen ist und daher nicht an die Streikvereinbarung gebunden ist
  Es kann also keine Gewerkschaftsschauspieler beschäftigen, aber das scheint angesichts der Art des Unternehmens kein großes Problem zu sein
Das technische Niveau dieser Arbeit ist erstaunlich, und besonders die Synchronität von Audio und Video ist wirklich hervorragend; auch die Dialoge sind beeindruckend und stehen separaten Voice-Modellen kaum nach
Beim Eulen-Video und beim Video mit dem alten Mann war ein leichtes Uncanny-Valley-Gefühl zu spüren, und das Origami-Video wirkte etwas bedrohlich und aggressiv
- Wenn man die letzten 20 Jahre betrachtet, ist der Fortschritt enorm
  Früher brauchte man für verstörende Videos ein riesiges Entwicklungsteam, Künstler, Supercomputer-Cluster und lange Renderzeiten, heute reichen große Cluster und Inferenzzeit
- Die gestrickte Charakterversion weiter unten auf der Seite wirkte deutlich besser; je weiter man sich etwas von der Realität entfernt, desto leichter lässt sich das Uncanny Valley vermeiden
- Das Eulen-Video hatte den typischen „Glanz“ von KI-Bildern, während das Video mit dem alten Mann als sehr beeindruckend bewertet wurde
- Beim Papierfalten (Origami) wirkte der Ton realistischer als das Video; es fühlte sich an, als sehe jeder eine Spiegelung seiner selbst darin
Beeindruckende Technologie, und aufrichtige Anerkennung an das Entwicklungsteam
Gleichzeitig gibt es auch viel Bedauern
Die Hoffnung ist, dass KI eher unkreative Arbeit weiter automatisiert und Kreative nicht in einer Flut von KI-Inhalten untergehen
- Die Automatisierung unkreativer Arbeit werde ebenfalls kommen, sei aber schwieriger und brauche länger, weil dafür höhere Genauigkeit erforderlich ist
  Die Genauigkeit von KI liegt derzeit noch bei etwa 80 %, und die verbleibenden 20 % zu schließen ist ein wirklich mühsamer Weg
  Selbst wenn man mit einem schnellen Flugzeug (Technologie) fast am Ziel ist, gleicht der letzte Schritt zur Vollendung einem Verkehrschaos
- Bei solchen Diskussionen gebe es viel Gatekeeping, aber es wird positiv gesehen, dass KI mehr Menschen Zugang zum kreativen Schaffen ermöglicht
  Es besteht Vorfreude auf die neuen kreativen Möglichkeiten, die KI eröffnen wird
- Es gibt auch die Ansicht, dass Daten für unkreative Tätigkeiten schwerer ohne Zustimmung anderer zu sammeln sind
- Früher wurden Kunstwerke, besonders digitale, nicht so leicht verbreitet
  Bei Musik war es ähnlich: Vor der Aufnahmetechnik war nur die Live-Aufführung das Echte
  Aus dieser Sicht könnte das digitale Zeitalter in der Kunstgeschichte sogar eher eine ungewöhnliche Phase sein
- Es heißt oft, „KI begräbt Kreative unter einem Haufen von KI-Arbeiten“, aber auch das präzise Formulieren von Prompts für KI ist kreativ; dagegen könne das stundenlange manuelle Bauen und Riggen von Modellen eher unkreative Arbeit sein
Ich finde die Logik interessant, dass KI-Modelle Kreativität hervorbringen und Künstlern helfen, ihre kreative Vision zu verwirklichen
In einer neuen Ära verschiebt sich die Rolle von „etwas machen“ zu „etwas hervorlocken“
Dadurch stellt sich die Frage nach dem Wesen des Schaffens: Ist textpromptbasiertes Erstellen wirklich eine „Vision“, und bleibt ein Weg zur Kunst bestehen, wenn der „Prozess“ wegfällt?
Das Konzept des kreativen Schaffens selbst wird auf subtile Weise neu definiert
- Es gibt Kritik daran, dass in diesem Prozess der Neudefinition zwei oder drei große Plattformen die Produktionsmittel monopolisieren werden
  Für sie ist diese Neudefinition äußerst bequem
- Wer glauben will, dass sich eine kreative Vision in einem einzigen Prompt verdichten lässt, setzt der Vorstellungskraft selbst Grenzen
  Über das Wesen der Kunst, das Ergebnis, den Prozess und ihre Beziehungen dazwischen kann man endlos diskutieren
  Ein interessanter Vergleich ist, dass dies im Kern dem Verwechseln von Zeigern in Datenstrukturen mit den eigentlichen Daten ähnelt
- Textprompts sind zwar sehr kurz, aber wenn die Prompt-Befolgung besser wird, werden die Veränderungen zwangsläufig groß sein
  So wie Softwareingenieure ihre Vision über Source Code umsetzen, wird sich vermutlich auch die kreative Arbeit verändern
- Es gibt die Ansicht, dass LLM-Unternehmen Menschen von ihren Diensten abhängig machen wollen, um bei sämtlicher wirtschaftlicher Aktivität als Zwischeninstanz mitzuverdienen
- Oper, Theater und handgemachte Kunst haben ähnliche Prozesse durchlaufen, und am Ende sind die Menschen nach und nach zu dem übergegangen, was einfacher und bequemer zu konsumieren ist
  (digitale Musik/TV/digitale Kunst)
  Übrig blieb nur eine Minderheit, die die früheren Formen als Hochkultur betrachtet
Ich frage mich, ob jemand Veo3 tatsächlich benutzt hat
Die Demo-Videos sind beeindruckend, aber bei der Nutzung von Sora war die tatsächliche Erfahrung persönlich oft frustrierend und ein ständiges Hit-or-Miss

Google stellt Veo 3, Imagen 4 und das neue Filmproduktions-Tool Flow vor

Entfesseln Sie Ihre Kreativität mit neuen generativen Medienmodellen und Tools

Veo 3: Fortschrittliche Videogenerierung mit Audio

Veo 2: Neue Funktionen auf Basis von Creator-Feedback

Flow: KI-Tool für Filmproduktion, optimiert für Veo

Imagen 4: Verbesserungen bei Auflösung, Details und Typografie

Lyria 2: Interaktive Musikgenerierung

SynthID macht KI-generierte Inhalte erkennbar

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare