- Google DeepMind hat Veo 3, Imagen 4 und Flow vorgestellt und erweitert damit Werkzeuge für Video-, Bild- und Filmproduktion umfassend.
- Veo 3 bietet Funktionen wie Videogenerierung mit Audio, realistische Physiksimulation und Lippensynchronisation.
- Imagen 4 eignet sich mit präziser Detaildarstellung und verbesserter Typografie-Verarbeitung besonders gut für die Erstellung von Assets.
- Flow ist ein neues Kreativ-Tool, das verschiedene Modelle integriert und Filmproduktion auf Basis natürlicher Sprache ermöglicht.
- In alle generierten Inhalte wird ein SynthID-Wasserzeichen eingebettet; zusammen mit einem neuen Erkennungstool soll das die Transparenz erhöhen.
Entfesseln Sie Ihre Kreativität mit neuen generativen Medienmodellen und Tools
- Google hat die neuesten generativen Medienmodelle Veo 3, Imagen 4 sowie das neue Filmproduktions-Tool Flow angekündigt.
- Diese Modelle können Bilder, Videos und Musik generieren und helfen Kreativen dabei, ihre vorgestellten Welten Wirklichkeit werden zu lassen.
- Google DeepMind hat die Tools gemeinsam mit Filmemachern, Musikern und Künstlern entwickelt und betont den verantwortungsvollen Einsatz von KI.
Veo 3: Fortschrittliche Videogenerierung mit Audio
- Veo 3 erzeugt Videos in höherer Qualität als Veo 2 und ermöglicht erstmals die Generierung von Videos inklusive Audio wie Hintergrundgeräuschen und Dialogen.
- Über text- oder bildbasierte Prompts lassen sich Videos mit realistischer Physik erstellen, außerdem ist die Lippensynchronisation präzise.
- Verfügbar in den USA für Nutzer des Ultra-Tarifs über die Gemini-App, Flow und Vertex AI.
Veo 2: Neue Funktionen auf Basis von Creator-Feedback
-
Veo 2 erhält auf Grundlage des Feedbacks von Kreativen die folgenden neuen Funktionen:
- Referenzbasierte Videogenerierung: Konsistente Videos durch Eingabe von Charakteren, Stil oder Objekten als Bildreferenzen
- Kamerasteuerung: Kamera-Bewegungen wie Rotation, Zoom und Dolly lassen sich festlegen
- Outpainting: Erweiterung des Frames für den Wechsel von Hoch- zu Querformat und zur natürlichen Ausdehnung einer Szene
- Objekte hinzufügen und entfernen: Natürliches Bearbeiten unter Berücksichtigung von Größe, Schatten und Interaktionen eines Objekts
-
Diese Funktionen sind in Flow nutzbar und sollen schrittweise in die Vertex AI API integriert werden.
Flow: KI-Tool für Filmproduktion, optimiert für Veo
- Flow integriert Veo, Imagen und Gemini und ermöglicht es, Szenen, Charaktere und Stil per natürlicher Sprache festzulegen und als Video umzusetzen.
- Verfügbar für Nutzer der Tarife AI Pro und Ultra in den USA; eine Ausweitung auf weitere Länder ist geplant.
Imagen 4: Verbesserungen bei Auflösung, Details und Typografie
- Imagen 4 bietet feine Texturdarstellung, Unterstützung für fotorealistische und abstrakte Stile sowie Ausgabe in 2K-Auflösung.
- Auch die Typografie-Funktionen wurden verbessert, was besonders für die Erstellung von Karten, Postern und Comics nützlich ist.
- Verfügbar in der Gemini-App, Vertex AI, Slides, Docs, Whisk und weiteren Diensten; eine bis zu 10-mal schnellere Version soll bald erscheinen.
Lyria 2: Interaktive Musikgenerierung
- Das Modell ist Teil der Music AI Sandbox für Musiker, unterstützt kreative Experimente und ermöglicht die Erkundung neuer Musik.
- Verfügbar in YouTube Shorts, Vertex AI, MusicFX DJ und weiteren Produkten; außerdem mit Echtzeit-Interaktion über API und AI Studio.
SynthID macht KI-generierte Inhalte erkennbar
- SynthID, gestartet im Jahr 2023, hat Wasserzeichen in mehr als 10 Milliarden KI-generierte Inhalte wie Bilder, Videos, Audio und Text eingebettet.
- Mit dem neu veröffentlichten SynthID Detector können Nutzer ebenfalls erkennen, ob Inhalte generiert wurden.
- Google setzt seine Arbeit an verantwortungsvoll gestalteten Tools und offener Zusammenarbeit fort, damit generative KI Kreativität sinnvoll unterstützt.
1 Kommentare
Hacker-News-Kommentare
Nach eigenen Tests scheint sich Imagen 4 gegenüber Imagen 3 nicht besonders stark verbessert zu haben, und die Prompt-Genauigkeit liegt ungefähr bei 60 %
Ich frage mich, ob dieser Test bewertet, „ob das Modell es schaffen kann“ oder „ob es es häufig schafft“
Ich denke, es wäre angemessener, eine Erfolgsquote oder einen Schwellenwert für die Erfolgsquote festzulegen und die Anzahl der Versuche zu fixieren
Ich denke, das ist eine interessante Ressource, um die Grenzen der aktuellen Modelle zu erkennen
In Gemini wird das verwendete Modell nicht offengelegt, daher frage ich mich, ob Vertex AI genutzt wird
Inzwischen wirken Profi-Tools den Open-Source-Versionen deutlich voraus
Kostenlose Modelle wie wan oder hunyuan sind zwar großartig, aber die neuesten Ergebnisse von Google oder Runway scheinen noch eine Stufe höher zu sein
Besonders die Editier-Tools – Funktionen wie Motion, Richtung, Schnitte oder Audio-Einfügung – sind ein größerer Unterschied als die reine Generierungsqualität
Es wirkt, als würden große Unternehmen ganz klar auf Werbeagenturen/Hollywood zielen
Ich denke, der Tag, an dem diese Tools zum Branchenstandard werden, kommt früher als erwartet
Es braucht wohl noch ein oder zwei weitere Generationen, aber die Ergebnisse sind bereits sehr gut
Bei lokaler Generierung kann man außerdem der Inhaltsmoderation von Plattformen entgehen, die übermäßig streng sein kann
ComfyUI ist für Einsteiger schwierig, aber statt geschlossener Tools ohne große Kontrolle werden kleinere YouTube-Kanäle und kleine Produktionen wohl weiterhin oft Open-Source-Tools wählen
Dann würde das bedeuten, dass man alles in jeder gewünschten Qualität erzeugen kann
Hunyuan Image 2.0 wurde angekündigt, und Qualität sowie Geschwindigkeit bei Text-zu-Bild und Bild-zu-Bild sind sehr beeindruckend
Sie haben eine Echtzeit-2D-Zeichen-Canvas-App gebaut, die praktisch alles umsetzt, was Krea angeboten hat
Anders als zuvor ist es diesmal Closed Source, was schade ist
Hunyuan 3D 2.0 war ebenfalls gut, aber 3D 2.5 wurde noch nicht veröffentlicht
Hunyuan Video zeigt im Vergleich zu Wan keinen Fortschritt, aber Wan bekommt zuletzt mit einer multimodalen/Editier-Schicht namens VACE Aufmerksamkeit
Auch die Comfy-Community erzielt mit VACE und Wan bemerkenswerte Ergebnisse
Der Grund, warum Low-Budget-Indie-Filme selbst mit schwacher Regie und Schauspielerei noch Immersion, Lachen und Emotionen erzeugen können, liegt darin, dass sie insgesamt eine konstante Qualitätskonsistenz haben
KI-Videoinhalte dagegen können zwar in jedem einzelnen Clip für sich sehr ausgereift sein, haben aber noch Grenzen dabei, mehrere Clips zu einem Werk zu verbinden und dabei die Immersion aufrechtzuerhalten
Für Inhalte, die über Intro oder Ton einen „roten Faden“ der Geschichte erhalten, könnte KI-Video funktionieren, aber noch ist Hollywood wohl nicht an dem Punkt, sich Sorgen machen zu müssen
Dabei wurden auch Dinge wie Filmkorn und die Gründe erwähnt, warum das 24p-Format weiterhin eine künstlerische Wahl ist
Er baut mit 180.000 Abonnenten ein auf KI-Video basierendes Cinematic Universe auf und ist eine sehr unterhaltsame Show
Die Behauptung, „mehrere KI-Videoclips so zu verknüpfen, dass Immersion entsteht, sei ferne Zukunft“, werde in der Realität bereits widerlegt
KI-native Videos könnten sich stark von der klassischen Hollywood-Dreiaktstruktur unterscheiden, aber wenn die Zuschauer dorthin abwandern, wird Hollywood am Ende denselben Weg gehen
Das eigentliche Problem sei nicht die Qualität der Inhalte, sondern Reichweite und Distribution; Kritik daran, dass Google als einer der größten kulturellen Distributoren der Welt am Kernproblem der Kunstwelt vorbeisieht und seine Energie in die falsche Richtung lenkt
Wir sind wohl an dem Punkt angekommen, an dem fast jeder schon einmal ein KI-generiertes Video gesehen und für echt gehalten hat
Sehr auffällige Beispiele sind leicht zu erkennen, aber je öfter man damit in Berührung kommt, desto natürlicher schleichen sich KI-Videos in unseren Alltag ein
Google arbeitet mit Darren Aronofskys KI-Studio Primordial Soup zusammen
Während im Zuge des SAG-AFTRA-Streiks in Hollywood über ein Verbot von KI-Einsatz diskutiert wurde, fragt man sich, warum dieses neue Studio davon nicht betroffen war
Es kann also keine Gewerkschaftsschauspieler beschäftigen, aber das scheint angesichts der Art des Unternehmens kein großes Problem zu sein
Das technische Niveau dieser Arbeit ist erstaunlich, und besonders die Synchronität von Audio und Video ist wirklich hervorragend; auch die Dialoge sind beeindruckend und stehen separaten Voice-Modellen kaum nach
Beim Eulen-Video und beim Video mit dem alten Mann war ein leichtes Uncanny-Valley-Gefühl zu spüren, und das Origami-Video wirkte etwas bedrohlich und aggressiv
Früher brauchte man für verstörende Videos ein riesiges Entwicklungsteam, Künstler, Supercomputer-Cluster und lange Renderzeiten, heute reichen große Cluster und Inferenzzeit
Beeindruckende Technologie, und aufrichtige Anerkennung an das Entwicklungsteam
Gleichzeitig gibt es auch viel Bedauern
Die Hoffnung ist, dass KI eher unkreative Arbeit weiter automatisiert und Kreative nicht in einer Flut von KI-Inhalten untergehen
Die Genauigkeit von KI liegt derzeit noch bei etwa 80 %, und die verbleibenden 20 % zu schließen ist ein wirklich mühsamer Weg
Selbst wenn man mit einem schnellen Flugzeug (Technologie) fast am Ziel ist, gleicht der letzte Schritt zur Vollendung einem Verkehrschaos
Es besteht Vorfreude auf die neuen kreativen Möglichkeiten, die KI eröffnen wird
Bei Musik war es ähnlich: Vor der Aufnahmetechnik war nur die Live-Aufführung das Echte
Aus dieser Sicht könnte das digitale Zeitalter in der Kunstgeschichte sogar eher eine ungewöhnliche Phase sein
Ich finde die Logik interessant, dass KI-Modelle Kreativität hervorbringen und Künstlern helfen, ihre kreative Vision zu verwirklichen
In einer neuen Ära verschiebt sich die Rolle von „etwas machen“ zu „etwas hervorlocken“
Dadurch stellt sich die Frage nach dem Wesen des Schaffens: Ist textpromptbasiertes Erstellen wirklich eine „Vision“, und bleibt ein Weg zur Kunst bestehen, wenn der „Prozess“ wegfällt?
Das Konzept des kreativen Schaffens selbst wird auf subtile Weise neu definiert
Für sie ist diese Neudefinition äußerst bequem
Über das Wesen der Kunst, das Ergebnis, den Prozess und ihre Beziehungen dazwischen kann man endlos diskutieren
Ein interessanter Vergleich ist, dass dies im Kern dem Verwechseln von Zeigern in Datenstrukturen mit den eigentlichen Daten ähnelt
So wie Softwareingenieure ihre Vision über Source Code umsetzen, wird sich vermutlich auch die kreative Arbeit verändern
(digitale Musik/TV/digitale Kunst)
Übrig blieb nur eine Minderheit, die die früheren Formen als Hochkultur betrachtet
Ich frage mich, ob jemand Veo3 tatsächlich benutzt hat
Die Demo-Videos sind beeindruckend, aber bei der Nutzung von Sora war die tatsächliche Erfahrung persönlich oft frustrierend und ein ständiges Hit-or-Miss