2 Punkte von GN⁺ 2025-05-21 | 1 Kommentare | Auf WhatsApp teilen
  • Google DeepMind hat Veo 3, Imagen 4 und Flow vorgestellt und erweitert damit Werkzeuge für Video-, Bild- und Filmproduktion umfassend.
  • Veo 3 bietet Funktionen wie Videogenerierung mit Audio, realistische Physiksimulation und Lippensynchronisation.
  • Imagen 4 eignet sich mit präziser Detaildarstellung und verbesserter Typografie-Verarbeitung besonders gut für die Erstellung von Assets.
  • Flow ist ein neues Kreativ-Tool, das verschiedene Modelle integriert und Filmproduktion auf Basis natürlicher Sprache ermöglicht.
  • In alle generierten Inhalte wird ein SynthID-Wasserzeichen eingebettet; zusammen mit einem neuen Erkennungstool soll das die Transparenz erhöhen.

Entfesseln Sie Ihre Kreativität mit neuen generativen Medienmodellen und Tools

  • Google hat die neuesten generativen Medienmodelle Veo 3, Imagen 4 sowie das neue Filmproduktions-Tool Flow angekündigt.
  • Diese Modelle können Bilder, Videos und Musik generieren und helfen Kreativen dabei, ihre vorgestellten Welten Wirklichkeit werden zu lassen.
  • Google DeepMind hat die Tools gemeinsam mit Filmemachern, Musikern und Künstlern entwickelt und betont den verantwortungsvollen Einsatz von KI.

Veo 3: Fortschrittliche Videogenerierung mit Audio

  • Veo 3 erzeugt Videos in höherer Qualität als Veo 2 und ermöglicht erstmals die Generierung von Videos inklusive Audio wie Hintergrundgeräuschen und Dialogen.
  • Über text- oder bildbasierte Prompts lassen sich Videos mit realistischer Physik erstellen, außerdem ist die Lippensynchronisation präzise.
  • Verfügbar in den USA für Nutzer des Ultra-Tarifs über die Gemini-App, Flow und Vertex AI.

Veo 2: Neue Funktionen auf Basis von Creator-Feedback

  • Veo 2 erhält auf Grundlage des Feedbacks von Kreativen die folgenden neuen Funktionen:

    • Referenzbasierte Videogenerierung: Konsistente Videos durch Eingabe von Charakteren, Stil oder Objekten als Bildreferenzen
    • Kamerasteuerung: Kamera-Bewegungen wie Rotation, Zoom und Dolly lassen sich festlegen
    • Outpainting: Erweiterung des Frames für den Wechsel von Hoch- zu Querformat und zur natürlichen Ausdehnung einer Szene
    • Objekte hinzufügen und entfernen: Natürliches Bearbeiten unter Berücksichtigung von Größe, Schatten und Interaktionen eines Objekts
  • Diese Funktionen sind in Flow nutzbar und sollen schrittweise in die Vertex AI API integriert werden.

Flow: KI-Tool für Filmproduktion, optimiert für Veo

  • Flow integriert Veo, Imagen und Gemini und ermöglicht es, Szenen, Charaktere und Stil per natürlicher Sprache festzulegen und als Video umzusetzen.
  • Verfügbar für Nutzer der Tarife AI Pro und Ultra in den USA; eine Ausweitung auf weitere Länder ist geplant.

Imagen 4: Verbesserungen bei Auflösung, Details und Typografie

  • Imagen 4 bietet feine Texturdarstellung, Unterstützung für fotorealistische und abstrakte Stile sowie Ausgabe in 2K-Auflösung.
  • Auch die Typografie-Funktionen wurden verbessert, was besonders für die Erstellung von Karten, Postern und Comics nützlich ist.
  • Verfügbar in der Gemini-App, Vertex AI, Slides, Docs, Whisk und weiteren Diensten; eine bis zu 10-mal schnellere Version soll bald erscheinen.

Lyria 2: Interaktive Musikgenerierung

  • Das Modell ist Teil der Music AI Sandbox für Musiker, unterstützt kreative Experimente und ermöglicht die Erkundung neuer Musik.
  • Verfügbar in YouTube Shorts, Vertex AI, MusicFX DJ und weiteren Produkten; außerdem mit Echtzeit-Interaktion über API und AI Studio.

SynthID macht KI-generierte Inhalte erkennbar

  • SynthID, gestartet im Jahr 2023, hat Wasserzeichen in mehr als 10 Milliarden KI-generierte Inhalte wie Bilder, Videos, Audio und Text eingebettet.
  • Mit dem neu veröffentlichten SynthID Detector können Nutzer ebenfalls erkennen, ob Inhalte generiert wurden.
  • Google setzt seine Arbeit an verantwortungsvoll gestalteten Tools und offener Zusammenarbeit fort, damit generative KI Kreativität sinnvoll unterstützt.

1 Kommentare

 
GN⁺ 2025-05-21
Hacker-News-Kommentare
  • Nach eigenen Tests scheint sich Imagen 4 gegenüber Imagen 3 nicht besonders stark verbessert zu haben, und die Prompt-Genauigkeit liegt ungefähr bei 60 %

    • Ich frage mich, warum man bei erfolgreichen Fällen nur einen Versuch betrachtet, bei einem scheiternden Modell aber mehrfach wiederholt
      Ich frage mich, ob dieser Test bewertet, „ob das Modell es schaffen kann“ oder „ob es es häufig schafft“
      Ich denke, es wäre angemessener, eine Erfolgsquote oder einen Schwellenwert für die Erfolgsquote festzulegen und die Anzahl der Versuche zu fixieren
    • Bei „The Yarrctic Circle“ hat OpenAI 4o gewonnen, aber grundlegende Dinge sind komplett falsch: Es hält keinen Cutlass, es ist zwar schön, aber die Perspektive ergibt keinen Sinn, und anatomisch sind die Beine tatsächlich um 150 % länger
      Ich denke, das ist eine interessante Ressource, um die Grenzen der aktuellen Modelle zu erkennen
    • Die Hand im Siegerbild von „Not the Bees“ sieht völlig anders aus als die des Fahrers, daher ist es schwer, das als wirklich bestanden anzusehen
    • Ich frage mich, wie man überprüft, ob tatsächlich Imagen 4 oder doch Imagen 3 verwendet wird
      In Gemini wird das verwendete Modell nicht offengelegt, daher frage ich mich, ob Vertex AI genutzt wird
    • Es werden schwierigere Beispiele als mögliche Testkriterien vorgeschlagen
      • ein randvoll gefülltes Weinglas
      • Uhrzeiger auf 10 und 2 Uhr (also keine Uhr, die ein V zeigt)
      • eine 9-stufige IKEA-Regal-Montageanleitung
      • jede Art von Gymnastik oder Akrobatik
  • Inzwischen wirken Profi-Tools den Open-Source-Versionen deutlich voraus
    Kostenlose Modelle wie wan oder hunyuan sind zwar großartig, aber die neuesten Ergebnisse von Google oder Runway scheinen noch eine Stufe höher zu sein
    Besonders die Editier-Tools – Funktionen wie Motion, Richtung, Schnitte oder Audio-Einfügung – sind ein größerer Unterschied als die reine Generierungsqualität
    Es wirkt, als würden große Unternehmen ganz klar auf Werbeagenturen/Hollywood zielen
    Ich denke, der Tag, an dem diese Tools zum Branchenstandard werden, kommt früher als erwartet
    Es braucht wohl noch ein oder zwei weitere Generationen, aber die Ergebnisse sind bereits sehr gut

    • Auch wenn Open Source bei der Bequemlichkeit zurückliegt, ist in professionellen Umgebungen ein wichtiger Vorteil, dass man über Funktionen wie Custom LoRA, ControlNet usw. während des Generierungsprozesses gezielt gewünschte Elemente hinzufügen kann
      Bei lokaler Generierung kann man außerdem der Inhaltsmoderation von Plattformen entgehen, die übermäßig streng sein kann
      ComfyUI ist für Einsteiger schwierig, aber statt geschlossener Tools ohne große Kontrolle werden kleinere YouTube-Kanäle und kleine Produktionen wohl weiterhin oft Open-Source-Tools wählen
    • Die eigentliche Bewährungsprobe für GAI kommt, wenn der Qualitätsunterschied verschwindet
      Dann würde das bedeuten, dass man alles in jeder gewünschten Qualität erzeugen kann
    • Es gibt die Ansicht, dass das eigentliche Ziel der Ausrichtung auf Agenturen/Hollywood der Werbemarkt ist
    • Analyse des Fortschritts des Tencent-Hunyuan-Teams
      Hunyuan Image 2.0 wurde angekündigt, und Qualität sowie Geschwindigkeit bei Text-zu-Bild und Bild-zu-Bild sind sehr beeindruckend
      Sie haben eine Echtzeit-2D-Zeichen-Canvas-App gebaut, die praktisch alles umsetzt, was Krea angeboten hat
      Anders als zuvor ist es diesmal Closed Source, was schade ist
      Hunyuan 3D 2.0 war ebenfalls gut, aber 3D 2.5 wurde noch nicht veröffentlicht
      Hunyuan Video zeigt im Vergleich zu Wan keinen Fortschritt, aber Wan bekommt zuletzt mit einer multimodalen/Editier-Schicht namens VACE Aufmerksamkeit
      Auch die Comfy-Community erzielt mit VACE und Wan bemerkenswerte Ergebnisse
  • Der Grund, warum Low-Budget-Indie-Filme selbst mit schwacher Regie und Schauspielerei noch Immersion, Lachen und Emotionen erzeugen können, liegt darin, dass sie insgesamt eine konstante Qualitätskonsistenz haben
    KI-Videoinhalte dagegen können zwar in jedem einzelnen Clip für sich sehr ausgereift sein, haben aber noch Grenzen dabei, mehrere Clips zu einem Werk zu verbinden und dabei die Immersion aufrechtzuerhalten
    Für Inhalte, die über Intro oder Ton einen „roten Faden“ der Geschichte erhalten, könnte KI-Video funktionieren, aber noch ist Hollywood wohl nicht an dem Punkt, sich Sorgen machen zu müssen
    Dabei wurden auch Dinge wie Filmkorn und die Gründe erwähnt, warum das 24p-Format weiterhin eine künstlerische Wahl ist

    • Empfehlung für den YouTube-Kanal NeuralViz
      Er baut mit 180.000 Abonnenten ein auf KI-Video basierendes Cinematic Universe auf und ist eine sehr unterhaltsame Show
      Die Behauptung, „mehrere KI-Videoclips so zu verknüpfen, dass Immersion entsteht, sei ferne Zukunft“, werde in der Realität bereits widerlegt
    • Der Einfluss von KI-Videoinhalten auf Hollywood sei vergleichbar mit dem Einfluss der Fotografie auf die Malerei
      KI-native Videos könnten sich stark von der klassischen Hollywood-Dreiaktstruktur unterscheiden, aber wenn die Zuschauer dorthin abwandern, wird Hollywood am Ende denselben Weg gehen
    • An gutem Content zum Anschauen mangelt es schon jetzt nicht
      Das eigentliche Problem sei nicht die Qualität der Inhalte, sondern Reichweite und Distribution; Kritik daran, dass Google als einer der größten kulturellen Distributoren der Welt am Kernproblem der Kunstwelt vorbeisieht und seine Energie in die falsche Richtung lenkt
  • Wir sind wohl an dem Punkt angekommen, an dem fast jeder schon einmal ein KI-generiertes Video gesehen und für echt gehalten hat
    Sehr auffällige Beispiele sind leicht zu erkennen, aber je öfter man damit in Berührung kommt, desto natürlicher schleichen sich KI-Videos in unseren Alltag ein

  • Google arbeitet mit Darren Aronofskys KI-Studio Primordial Soup zusammen
    Während im Zuge des SAG-AFTRA-Streiks in Hollywood über ein Verbot von KI-Einsatz diskutiert wurde, fragt man sich, warum dieses neue Studio davon nicht betroffen war

    • Weil Primordial Soup kein gewerkschaftlich gebundenes Unternehmen ist und daher nicht an die Streikvereinbarung gebunden ist
      Es kann also keine Gewerkschaftsschauspieler beschäftigen, aber das scheint angesichts der Art des Unternehmens kein großes Problem zu sein
  • Das technische Niveau dieser Arbeit ist erstaunlich, und besonders die Synchronität von Audio und Video ist wirklich hervorragend; auch die Dialoge sind beeindruckend und stehen separaten Voice-Modellen kaum nach

  • Beim Eulen-Video und beim Video mit dem alten Mann war ein leichtes Uncanny-Valley-Gefühl zu spüren, und das Origami-Video wirkte etwas bedrohlich und aggressiv

    • Wenn man die letzten 20 Jahre betrachtet, ist der Fortschritt enorm
      Früher brauchte man für verstörende Videos ein riesiges Entwicklungsteam, Künstler, Supercomputer-Cluster und lange Renderzeiten, heute reichen große Cluster und Inferenzzeit
    • Die gestrickte Charakterversion weiter unten auf der Seite wirkte deutlich besser; je weiter man sich etwas von der Realität entfernt, desto leichter lässt sich das Uncanny Valley vermeiden
    • Das Eulen-Video hatte den typischen „Glanz“ von KI-Bildern, während das Video mit dem alten Mann als sehr beeindruckend bewertet wurde
    • Beim Papierfalten (Origami) wirkte der Ton realistischer als das Video; es fühlte sich an, als sehe jeder eine Spiegelung seiner selbst darin
  • Beeindruckende Technologie, und aufrichtige Anerkennung an das Entwicklungsteam
    Gleichzeitig gibt es auch viel Bedauern
    Die Hoffnung ist, dass KI eher unkreative Arbeit weiter automatisiert und Kreative nicht in einer Flut von KI-Inhalten untergehen

    • Die Automatisierung unkreativer Arbeit werde ebenfalls kommen, sei aber schwieriger und brauche länger, weil dafür höhere Genauigkeit erforderlich ist
      Die Genauigkeit von KI liegt derzeit noch bei etwa 80 %, und die verbleibenden 20 % zu schließen ist ein wirklich mühsamer Weg
      Selbst wenn man mit einem schnellen Flugzeug (Technologie) fast am Ziel ist, gleicht der letzte Schritt zur Vollendung einem Verkehrschaos
    • Bei solchen Diskussionen gebe es viel Gatekeeping, aber es wird positiv gesehen, dass KI mehr Menschen Zugang zum kreativen Schaffen ermöglicht
      Es besteht Vorfreude auf die neuen kreativen Möglichkeiten, die KI eröffnen wird
    • Es gibt auch die Ansicht, dass Daten für unkreative Tätigkeiten schwerer ohne Zustimmung anderer zu sammeln sind
    • Früher wurden Kunstwerke, besonders digitale, nicht so leicht verbreitet
      Bei Musik war es ähnlich: Vor der Aufnahmetechnik war nur die Live-Aufführung das Echte
      Aus dieser Sicht könnte das digitale Zeitalter in der Kunstgeschichte sogar eher eine ungewöhnliche Phase sein
    • Es heißt oft, „KI begräbt Kreative unter einem Haufen von KI-Arbeiten“, aber auch das präzise Formulieren von Prompts für KI ist kreativ; dagegen könne das stundenlange manuelle Bauen und Riggen von Modellen eher unkreative Arbeit sein
  • Ich finde die Logik interessant, dass KI-Modelle Kreativität hervorbringen und Künstlern helfen, ihre kreative Vision zu verwirklichen
    In einer neuen Ära verschiebt sich die Rolle von „etwas machen“ zu „etwas hervorlocken“
    Dadurch stellt sich die Frage nach dem Wesen des Schaffens: Ist textpromptbasiertes Erstellen wirklich eine „Vision“, und bleibt ein Weg zur Kunst bestehen, wenn der „Prozess“ wegfällt?
    Das Konzept des kreativen Schaffens selbst wird auf subtile Weise neu definiert

    • Es gibt Kritik daran, dass in diesem Prozess der Neudefinition zwei oder drei große Plattformen die Produktionsmittel monopolisieren werden
      Für sie ist diese Neudefinition äußerst bequem
    • Wer glauben will, dass sich eine kreative Vision in einem einzigen Prompt verdichten lässt, setzt der Vorstellungskraft selbst Grenzen
      Über das Wesen der Kunst, das Ergebnis, den Prozess und ihre Beziehungen dazwischen kann man endlos diskutieren
      Ein interessanter Vergleich ist, dass dies im Kern dem Verwechseln von Zeigern in Datenstrukturen mit den eigentlichen Daten ähnelt
    • Textprompts sind zwar sehr kurz, aber wenn die Prompt-Befolgung besser wird, werden die Veränderungen zwangsläufig groß sein
      So wie Softwareingenieure ihre Vision über Source Code umsetzen, wird sich vermutlich auch die kreative Arbeit verändern
    • Es gibt die Ansicht, dass LLM-Unternehmen Menschen von ihren Diensten abhängig machen wollen, um bei sämtlicher wirtschaftlicher Aktivität als Zwischeninstanz mitzuverdienen
    • Oper, Theater und handgemachte Kunst haben ähnliche Prozesse durchlaufen, und am Ende sind die Menschen nach und nach zu dem übergegangen, was einfacher und bequemer zu konsumieren ist
      (digitale Musik/TV/digitale Kunst)
      Übrig blieb nur eine Minderheit, die die früheren Formen als Hochkultur betrachtet
  • Ich frage mich, ob jemand Veo3 tatsächlich benutzt hat
    Die Demo-Videos sind beeindruckend, aber bei der Nutzung von Sora war die tatsächliche Erfahrung persönlich oft frustrierend und ein ständiges Hit-or-Miss