Meta Movie Gen – Neuer Standard für immersive KI-Inhalte
(ai.meta.com)- Meta Movie Gen ist ein Forschungsprojekt zu einem KI-Medienmodell, das Video- und Sound-Erzeugung, Bearbeitung bestehender Videos und die Umwandlung persönlicher Bilder in Videos allein über einfache Texteingaben an einem Ort abdeckt
- Die Videoerzeugung unterstützt lange hochauflösende Ergebnisse und verschiedene Seitenverhältnisse; Meta stellt dies als branchenweit erste Funktion heraus
- Auf bestehende Videos lassen sich Stiländerungen, Übergänge und präzise Bearbeitungen per Text anwenden, etwa die Umwandlung einer Laterne in in die Luft aufsteigende Seifenblasen
- Gibt man ein Foto zusammen mit Text ein, entsteht ein personalisiertes Video, das Identität und Bewegungen der Person beibehält; Beispiele umfassen Labor-, Selfie-, Western- und DJ-Szenen
- Soundeffekte, Hintergrundmusik und sogar komplette Soundtracks können erzeugt und erweitert werden, sodass der Videoproduktions-Workflow von der visuellen Generierung bis zur Audiogestaltung reicht
Welche Aufgaben Movie Gen abdeckt
- Meta Movie Gen ist ein als neuestes Forschungsergebnis von Meta vorgestelltes AI Media Foundation Model
- Es verarbeitet mehrere Produktionsaufgaben in einem einzigen Texteingabe-Workflow
- Erzeugung maßgeschneiderter Videos
- Sound-Erzeugung
- Bearbeitung bestehender Videos
- Umwandlung persönlicher Bilder in individuelle Videos
- Meta präsentiert Movie Gen als neuen Standard für immersive KI-Inhalte
Textbasierte Videoerzeugung
- Movie Gen erzeugt aus Texteingaben lange hochauflösende Videos in verschiedenen Seitenverhältnissen
- Meta bezeichnet diese Funktion als branchenweit erstmalig
- Prompts können Szene, Motiv, Bewegung, Hintergrund und Lichtverhältnisse gemeinsam festlegen
- Ein Faultier mit rosa Sonnenbrille, das auf einem Donut-Schwimmreifen liegt und ein tropisches Getränk hält
- Ein Mann, der am Meer mit Feuerwerkzeugen in beiden Händen kreisförmige Bewegungen erzeugt
- Ein Koala, der sich an einem gelben Surfbrett festhält und surft
- Ein Geist aus weißem Tuch, der vor einem Spiegel auf einem staubigen Dachboden tanzt
- Ein rotgesichtiger Affe, der in einer heißen Quelle mit einem kleinen Segelboot spielt
Bestehende Videos per Text bearbeiten
- Movie Gen unterstützt präzise Bearbeitungen, bei denen bestehende Videos per Texteingabe verändert werden
- Der Anwendungsbereich umfasst Stiländerungen, Übergänge und detailgenaue Bearbeitungen
- In einem Beispiel wird eine Laterne in Seifenblasen umgewandelt, die in die Luft aufsteigen
Maßgeschneiderte Videos aus persönlichen Bildern
- Wenn Nutzer ein eigenes Foto hochladen und einen einfachen Text eingeben, erzeugt Movie Gen ein personalisiertes Video
- Das Ergebnis ist so aufgebaut, dass Identität und Bewegungen der Person erhalten bleiben
- Beispielszenen umfassen verschiedene Umgebungen und Handlungen
- Ein Mann, der in einem Labor mit Regenbogentapete experimentiert
- Eine Frau, die in einem Raum mit Holzpaneelen auf einer Leinwand auf einer Staffelei malt
- Ein Mann und ein Beagle-Welpe, die auf einer Hinterhof-Terrasse ein Selfie aufnehmen
- Ein Mann mit breitkrempigem Hut und braunem Mantel, der in der Wüste eine Tasse Tee hält
- Eine Cowgirl auf einem weißen Pferd in einer alten Westernstadt
- Eine DJane, die auf einem Rooftop in LA Platten auflegt, zusammen mit einem Geparden
Passenden Sound für Videos erzeugen
- Movie Gen kann per Texteingabe Soundeffekte, Hintergrundmusik und komplette Soundtracks erstellen oder erweitern
- Der erzeugte Sound ist darauf ausgelegt, Tonalität, Rhythmus und Stil des Videos widerzuspiegeln
- Beispieleingaben legen konkrete Geräusche und musikalische Stimmungen gemeinsam fest
- Eine Szene, in der Regen auf eine Klippe und eine Person prasselt, während Hintergrundmusik läuft
- Raschelnde Blätter, brechende Äste und Orchestermusik
- Eine Szene, in der ein ATV-Motor laut dröhnt und beschleunigt, begleitet von Gitarrenmusik
- Skateboardrollen, die sich drehen, und das Aufprallgeräusch bei der Landung auf Beton
- Ein Ehrfurcht auslösendes Orchesterstück
- Nach einem Pfeifen eine scharfe Explosion und ein lautes Knistern
Zusammenarbeit mit Kreativen und der Entertainment-Branche
- Meta arbeitet über das Creative Industry Feedback Program mit der preisgekrönten Produktionsfirma Blumhouse zusammen
- Blumhouse wählte Filmemacher aus, die vor dem öffentlichen Debüt von Movie Gen Videos erstellen sollten
- Die Kreativen wurden gebeten, mit der Sammlung von KI-Medientools Ergebnisse zu erstellen, die sie interessant oder nützlich fanden
- Der Titel des Videos von Regisseur Aneesh Chaganty lautet
"i h8 ai"
Öffentliche Beispiele und Referenzen
- Meta sagt, dass Kreative mit Movie Gen das Storytelling verändern
- Die Instagram-Beispiele umfassen die folgenden Accounts und Prompts
- @paigepiskin: eine Hand, die eine kleine, flauschige Tarantel mit Katzengesicht hält; Bearbeitung, bei der ein Hund in einen grauen Baby-Drachen verwandelt wird
- @ka5sh: ein grüner Cartoon-Alien mit rosa Clownschuhen; Bearbeitung, bei der eine Person in einen grünen Alien mit rotem Bucket Hat verwandelt wird
- @girls: ein Mädchen, das auf einem herbstlichen, von Bäumen gesäumten Weg geht; zwei Frauen, die vor einer Wand mit Halloween-Dekoration Kaffee trinken
- @memezar: ein Boxkampf zwischen einem Baby-Nilpferd und einem muskulösen Gorilla
- @ravivora: dichter Nebel im Vordergrund hinzufügen; eine Frau, die von Quallen umgeben zur Wasseroberfläche aufsteigt
- Als weiteres Material wird das Movie-Gen-Forschungspapier bereitgestellt; Meta sagt, man habe neue Branchen-Benchmarks für KI-Mediengenerierung gesetzt
- Als verwandte Beiträge sind die Blogs zur Zusammenarbeit mit der Entertainment-Branche und Kreativen sowie zum Zeitalter KI-gestützter Inhaltserstellung verlinkt
1 Kommentare
Hacker-News-Meinungen
Die Funktion, Videos per Text zu bearbeiten, ist am spannendsten. Sie wirkt sofort einsetzbar für Indie-Filme ohne CGI-Budget.
Man könnte etwa eine Szene zuerst in einem Lounge-Sessel drehen und sie später so verändern, dass sie wie ein Kinosaal aussieht.
Richtig eingesetzt würde das die Qualität von Indie-Filmen oder Kurzfilmen steigern, und die einzige Grenze wäre die Kreativität.
Schließlich dürfte das Modell ohnehin mit besseren Schauspielern trainiert worden sein als einer Indie-Besetzung.
Das ist kein Film, sondern ein Clip. Die Stockfoto- und Stockvideo-Branche macht sich sicher Sorgen, und da diese Modelle mit 100-prozentiger Wahrscheinlichkeit mit ihren Werken trainiert wurden, werden sie auch klagen.
Wenn diese Technik irgendwann Filme macht, wird das Ergebnis wohl, wie bei Text-, Bild- und Musikmodellen, der Durchschnitt von allem bisher Produzierten sein und damit extrem gewöhnlich ausfallen.
Danach könnte man die Szene weiter anpassen, speichern und zur nächsten Szene übergehen. Wenn AI Animationen fortsetzen kann, sehe ich keinen Grund, warum sie bei weiterer Entwicklung ein vorgegebenes Modell nicht treu reproduzieren können sollte.
Ich weiß nicht, ob es schon Langfilme gibt oder ob welche in Produktion sind.
Ich sage es nur ungern, aber wenn AI weiter so wächst wie bisher, ist es sehr wahrscheinlich, dass Tech-Unternehmen überall eindringen und extrem mächtig werden.
Ich verstehe nicht, warum so viele Websites, die praktisch statisches HTML sind, trotzdem ein Smartphone ins Stottern bringen.
Die Videos sehen toll aus, aber wenn das Handy alle zwei Sekunden hängen bleibt, kann man den dazugehörigen Artikel nicht mit Freude lesen.
Beim Scrollen verschwinden Teile des Textes und springen wieder herein; es ist keine scrollbasierte Animation, sondern fast zufällig. Es fühlt sich so an, als würde irgendetwas den Render-Loop des Browsers blockieren, sodass er mit dem tatsächlichen Zeichnen des Texts nicht hinterherkommt. Auf einer so einfachen Seite wäre das ein absurder Bug, aber wenn hier React verwendet wurde, halte ich inzwischen alles für möglich.
Menschen sind übermäßig abhängig von visuellen Eindrücken und visueller Unterhaltung. Aber diese visuellen Inhalte fühlen sich zunehmend bedeutungslos an und wirken alle wie Fast-Food-artiger Müll-Content.
Dass Vorschulkinder in wenigen Sekunden alles erschaffen können, was sie sich vorstellen, scheint es nicht besser zu machen oder echten Wert zu schaffen. Vielleicht ist genau das der Wert dieser Technologie: Es könnte eine Zeit kommen, in der man Dinge wie Filme, die Geschichten visuell imaginieren, komplett vergessen kann. Denn niemand wird sich mehr dafür interessieren.
Dass Leute dafür Geld bezahlen, verstehe ich nicht.
Seit Jahren sage ich, dass ein Tsunami generierter Inhalte die echten menschlichen Stimmen im Netz verschlingen wird. Das Ergebnis könnte sein, dass das Internet für alles außer Unterhaltung praktisch unbrauchbar wird.
Selbst in Gruppenchats sehe ich, dass ein Freund AI-Antworten verwendet, während andere Mitglieder es nicht merken und ernsthaft darauf antworten. So etwas fühlt sich widerlich an, und instinktiv möchte ich AI-Müll-Content meiden. Ich weiß nicht, was als Nächstes kommt oder wohin man gehen soll. Ich habe keine Ahnung, ob „menschliche“ Foren in tiefere Ecken des Internets verdrängt werden oder ob alle Offline-Treffen stärker bevorzugen werden.
Wenn das Internet stirbt und alle zu kleineren Communities zurückkehren, wäre das meiner Meinung nach nicht unbedingt das Schlimmste. Wir sind schließlich gar nicht für Kommunikation im globalen Maßstab evolutionär angepasst.
Hast du gesehen, was die meisten Menschen so von sich geben? Wenn AI intelligentere Dinge sagt, bin ich dafür.
Heutzutage würde ich meine Zeit lieber offline verbringen. Gibt es noch irgendwelche anderen internetbasierten Rückzugsorte ohne Werbung, Aufmerksamkeitsheischerei und AI-Müll-Content?
Alle Videos haben – mir fällt kein besserer Ausdruck ein – diesen sofort erkennbaren, für generative KI typischen Glanz. Am auffälligsten sind außerdem die feinen Veränderungen an den Kanten, die verwaschene Artefakte erzeugen.
Es wurde bereits gezeigt, dass Menschen KI-Inhalte deutlich seltener erkennen, wenn sie sie nicht erwarten. Wäre ich unvorbereitet gewesen, hätte ich die meisten dieser Videos wohl zu 100 % für echt gehalten.
Es gibt viele Reels nach diesem Muster: gestohlenen Inhalten genug Rauschen hinzufügen, um Content-Erkennungsfilter zu umgehen. In den Kommentaren stehen Links zu Betrugsseiten, die als „IMDB-Seite dieses Inhalts“ ausgegeben werden.
Trotzdem bleibt das Kantenproblem groß.
Durchschnittliche Konsumenten scheinen solche Merkmale beim Vergleich von Bildern oder Videos eher zu bevorzugen und sie als Heuristik für Qualität zu verwenden. Es gab auch Vergleiche zwischen früheren Text-zu-Bild-Modellen und der neuesten Generation, in denen argumentiert wurde, dass die weniger stark bearbeiteten älteren Modelle nicht so sehr zu kitschigen, überzeichneten Ausgaben tendierten wie aktuelle Modelle.
Vielleicht sehe ich das zu eng, aber wer genau wollte so etwas, und hat überhaupt jemand über die Folgen leicht zugänglicher KI-Müllgenerierung nachgedacht?
Schon jetzt ist es im Internet nahezu unmöglich, hochwertige Inhalte zu finden, wenn man nicht weiß, wo man suchen muss.
Meine beiden Kinder sind sehr kreativ, und sie haben Angst, dass KI ihnen die Möglichkeit nimmt, mit Kreativität ihren Lebensunterhalt zu verdienen. In letzter Zeit denke ich aber auch anders darüber.
Wir haben jahrzehntelang Milliarden, vielleicht Billionen Dollar dafür ausgegeben, Unterhaltungstechnologien zu verbessern. Wenn KI jede nur vorstellbare Form von Unterhaltung erzeugen kann, könnten wir anfangen, diese Unterhaltung langweilig zu finden. Vielleicht erscheinen uns dann Weltraumforschung, die Erweiterung unseres Wissens in Physik und Chemie und der Kampf gegen Krankheiten viel interessanter. Weil sie real sind. Aus derselben Perspektive könnte auch von Menschen geschaffene Kunst interessanter werden, weil sie real ist.
Die Leute, die sich für KI begeistern, sieht man vor allem online; mangels besserer Formulierung wirken sie wirklich tief im Online-Leben versunken und wie Menschen ohne die Fähigkeiten, das Wissen oder die Möglichkeit, selbst Kunst zu machen. Sobald jemand „KI-generiert“ sagt, verliert es für mich künstlerisch sofort jedes Interesse. Das ist nicht dasselbe wie Photoshop oder digitale Kunstwerkzeuge zu verwenden. Minimale menschliche Beteiligung als Vorteil herauszustellen, funktioniert für mich von vornherein nicht, sobald es als Kunst präsentiert wird. Ich werde beobachten, ob sich die utopische Vision dieser Technologie erfüllt, aber ich habe schon oft gesehen, wie atemloser Optimismus gegenüber neuer Technologie am Ende zu werbegetriebenem, fadem MBA-Müll erstarrt. Deshalb bin ich nicht besonders optimistisch.
Auf Twitter folge ich vielen neuen Communities rund um KI-Generierung, und dort sind viele Menschen aus der Kreativbranche. Eine Person aus der Werbebranche erzählte kürzlich von einem Dreh für eine bekannte Marke. Soundstage, Schauspieler, Ton, Make-up, Licht usw. wurden über drei Tage aufgebaut, und etwa 25 Personen arbeiteten drei Tage lang daran. Rechnet man aber Preproduction und Postproduction dazu, steckten dahinter etwa drei Monate Arbeit. Man denke an Schnitt, Farbkorrektur, Tonschnitt, Musik und so weiter. Kreative Kinder könnten in einer Welt leben, in der sie vergleichbare Ergebnisse selbst erreichen können. In kleinen Teams übernimmt eine Person die Figuren, eine den Ton, eine das Drehbuch. Ohne Mietausrüstung für Zehntausende Dollar und ohne 25 Fachleute lassen sich Ideen aus dem eigenen Kopf mit Ausdauer und KI-Generierungswerkzeugen umsetzen. Ich glaube wirklich, dass diese neuen Werkzeuge Potenzial freisetzen werden, das über das hinausgeht, was wir uns heute vorstellen.
KI-generierte Werke werden ihren Platz neben von Menschen geschaffenen Werken finden. Sie könnten sogar den Unterschied hervorheben, den ein wenig menschliches Talent macht, und so den Markt für Arthouse-Filme und großartige Schauspielkunst verbessern. Gefährdet ist nicht die Kunst, sondern Routinearbeit. Was sich ändert, ist, dass die Größenordnung menschlich produzierter Machwerke, die Millionen Menschen beschäftigten, zu KI-produzierten Machwerken verschoben wird, die nur noch Dutzende beschäftigen.
Das ist wirklich beeindruckend. Die räumliche und zeitliche Konsistenz ist kaum zu glauben.
Das zu erwartende Ergebnis ist folgendes: Alle Drehbücher in Hollywood werden künftig zusammen mit einem Previsualization-Film eingereicht, es wird Konverter geben, die Comics in Animationen verwandeln, und es werden Online-Anzeigen für deutlich mehr Produkte entstehen.
Danach muss man sehen, ob diese Technologie stagniert oder weiter zulegt.
Comics in Animationen umzuwandeln gibt es bereits. Werbung, besonders Social- und Online-Werbung, passiert ebenfalls schon.