Meta Movie Gen – Neuer Standard für immersive KI-Inhalte

(ai.meta.com)

1 Punkte von GN⁺ 2024-10-05 | 1 Kommentare | Auf WhatsApp teilen

Meta Movie Gen ist ein Forschungsprojekt zu einem KI-Medienmodell, das Video- und Sound-Erzeugung, Bearbeitung bestehender Videos und die Umwandlung persönlicher Bilder in Videos allein über einfache Texteingaben an einem Ort abdeckt
Die Videoerzeugung unterstützt lange hochauflösende Ergebnisse und verschiedene Seitenverhältnisse; Meta stellt dies als branchenweit erste Funktion heraus
Auf bestehende Videos lassen sich Stiländerungen, Übergänge und präzise Bearbeitungen per Text anwenden, etwa die Umwandlung einer Laterne in in die Luft aufsteigende Seifenblasen
Gibt man ein Foto zusammen mit Text ein, entsteht ein personalisiertes Video, das Identität und Bewegungen der Person beibehält; Beispiele umfassen Labor-, Selfie-, Western- und DJ-Szenen
Soundeffekte, Hintergrundmusik und sogar komplette Soundtracks können erzeugt und erweitert werden, sodass der Videoproduktions-Workflow von der visuellen Generierung bis zur Audiogestaltung reicht

Welche Aufgaben Movie Gen abdeckt

Meta Movie Gen ist ein als neuestes Forschungsergebnis von Meta vorgestelltes AI Media Foundation Model
Es verarbeitet mehrere Produktionsaufgaben in einem einzigen Texteingabe-Workflow
- Erzeugung maßgeschneiderter Videos
- Sound-Erzeugung
- Bearbeitung bestehender Videos
- Umwandlung persönlicher Bilder in individuelle Videos
Meta präsentiert Movie Gen als neuen Standard für immersive KI-Inhalte

Textbasierte Videoerzeugung

Movie Gen erzeugt aus Texteingaben lange hochauflösende Videos in verschiedenen Seitenverhältnissen
Meta bezeichnet diese Funktion als branchenweit erstmalig
Prompts können Szene, Motiv, Bewegung, Hintergrund und Lichtverhältnisse gemeinsam festlegen
- Ein Faultier mit rosa Sonnenbrille, das auf einem Donut-Schwimmreifen liegt und ein tropisches Getränk hält
- Ein Mann, der am Meer mit Feuerwerkzeugen in beiden Händen kreisförmige Bewegungen erzeugt
- Ein Koala, der sich an einem gelben Surfbrett festhält und surft
- Ein Geist aus weißem Tuch, der vor einem Spiegel auf einem staubigen Dachboden tanzt
- Ein rotgesichtiger Affe, der in einer heißen Quelle mit einem kleinen Segelboot spielt

Bestehende Videos per Text bearbeiten

Movie Gen unterstützt präzise Bearbeitungen, bei denen bestehende Videos per Texteingabe verändert werden
Der Anwendungsbereich umfasst Stiländerungen, Übergänge und detailgenaue Bearbeitungen
In einem Beispiel wird eine Laterne in Seifenblasen umgewandelt, die in die Luft aufsteigen

Maßgeschneiderte Videos aus persönlichen Bildern

Wenn Nutzer ein eigenes Foto hochladen und einen einfachen Text eingeben, erzeugt Movie Gen ein personalisiertes Video
Das Ergebnis ist so aufgebaut, dass Identität und Bewegungen der Person erhalten bleiben
Beispielszenen umfassen verschiedene Umgebungen und Handlungen
- Ein Mann, der in einem Labor mit Regenbogentapete experimentiert
- Eine Frau, die in einem Raum mit Holzpaneelen auf einer Leinwand auf einer Staffelei malt
- Ein Mann und ein Beagle-Welpe, die auf einer Hinterhof-Terrasse ein Selfie aufnehmen
- Ein Mann mit breitkrempigem Hut und braunem Mantel, der in der Wüste eine Tasse Tee hält
- Eine Cowgirl auf einem weißen Pferd in einer alten Westernstadt
- Eine DJane, die auf einem Rooftop in LA Platten auflegt, zusammen mit einem Geparden

Passenden Sound für Videos erzeugen

Movie Gen kann per Texteingabe Soundeffekte, Hintergrundmusik und komplette Soundtracks erstellen oder erweitern
Der erzeugte Sound ist darauf ausgelegt, Tonalität, Rhythmus und Stil des Videos widerzuspiegeln
Beispieleingaben legen konkrete Geräusche und musikalische Stimmungen gemeinsam fest
- Eine Szene, in der Regen auf eine Klippe und eine Person prasselt, während Hintergrundmusik läuft
- Raschelnde Blätter, brechende Äste und Orchestermusik
- Eine Szene, in der ein ATV-Motor laut dröhnt und beschleunigt, begleitet von Gitarrenmusik
- Skateboardrollen, die sich drehen, und das Aufprallgeräusch bei der Landung auf Beton
- Ein Ehrfurcht auslösendes Orchesterstück
- Nach einem Pfeifen eine scharfe Explosion und ein lautes Knistern

Zusammenarbeit mit Kreativen und der Entertainment-Branche

Meta arbeitet über das Creative Industry Feedback Program mit der preisgekrönten Produktionsfirma Blumhouse zusammen
Blumhouse wählte Filmemacher aus, die vor dem öffentlichen Debüt von Movie Gen Videos erstellen sollten
Die Kreativen wurden gebeten, mit der Sammlung von KI-Medientools Ergebnisse zu erstellen, die sie interessant oder nützlich fanden
Der Titel des Videos von Regisseur Aneesh Chaganty lautet "i h8 ai"

Öffentliche Beispiele und Referenzen

Meta sagt, dass Kreative mit Movie Gen das Storytelling verändern
Die Instagram-Beispiele umfassen die folgenden Accounts und Prompts
- @paigepiskin: eine Hand, die eine kleine, flauschige Tarantel mit Katzengesicht hält; Bearbeitung, bei der ein Hund in einen grauen Baby-Drachen verwandelt wird
- @ka5sh: ein grüner Cartoon-Alien mit rosa Clownschuhen; Bearbeitung, bei der eine Person in einen grünen Alien mit rotem Bucket Hat verwandelt wird
- @girls: ein Mädchen, das auf einem herbstlichen, von Bäumen gesäumten Weg geht; zwei Frauen, die vor einer Wand mit Halloween-Dekoration Kaffee trinken
- @memezar: ein Boxkampf zwischen einem Baby-Nilpferd und einem muskulösen Gorilla
- @ravivora: dichter Nebel im Vordergrund hinzufügen; eine Frau, die von Quallen umgeben zur Wasseroberfläche aufsteigt
Als weiteres Material wird das Movie-Gen-Forschungspapier bereitgestellt; Meta sagt, man habe neue Branchen-Benchmarks für KI-Mediengenerierung gesetzt
Als verwandte Beiträge sind die Blogs zur Zusammenarbeit mit der Entertainment-Branche und Kreativen sowie zum Zeitalter KI-gestützter Inhaltserstellung verlinkt

1 Kommentare

GN⁺ 2024-10-05

Hacker-News-Meinungen

Die Funktion, Videos per Text zu bearbeiten, ist am spannendsten. Sie wirkt sofort einsetzbar für Indie-Filme ohne CGI-Budget.
Man könnte etwa eine Szene zuerst in einem Lounge-Sessel drehen und sie später so verändern, dass sie wie ein Kinosaal aussieht.
- Stimme vollkommen zu. Der Austausch des Hintergrunds, bei dem der Mann vor eine Stadionkulisse gesetzt wird, ist auf einem Niveau, das man direkt als Schnitt in einem Film oder einer TV-Serie verwenden könnte; auch der Hintergrund wirkt plausibel genug, dass es niemandem seltsam vorkäme.
  Richtig eingesetzt würde das die Qualität von Indie-Filmen oder Kurzfilmen steigern, und die einzige Grenze wäre die Kreativität.
- Da fragt man sich, warum man überhaupt Schauspieler einsetzen sollte. Schauspieler kosten Geld, und die Terminabstimmung ist schwierig. Man kann einfach alles mit AI erstellen.
  Schließlich dürfte das Modell ohnehin mit besseren Schauspielern trainiert worden sein als einer Indie-Besetzung.
Das ist kein Film, sondern ein Clip. Die Stockfoto- und Stockvideo-Branche macht sich sicher Sorgen, und da diese Modelle mit 100-prozentiger Wahrscheinlichkeit mit ihren Werken trainiert wurden, werden sie auch klagen.
Wenn diese Technik irgendwann Filme macht, wird das Ergebnis wohl, wie bei Text-, Bild- und Musikmodellen, der Durchschnitt von allem bisher Produzierten sein und damit extrem gewöhnlich ausfallen.
- Ich stelle mir vor, dass man einem Filmproduktionstool Anweisungen gibt wie: „Setze Modell A in die 32f-Szene, füge eine Menschenmenge hinzu und zoome auf A. Der Gesichtsausdruck soll sehr besorgt sein.“
  Danach könnte man die Szene weiter anpassen, speichern und zur nächsten Szene übergehen. Wenn AI Animationen fortsetzen kann, sehe ich keinen Grund, warum sie bei weiterer Entwicklung ein vorgegebenes Modell nicht treu reproduzieren können sollte.
- Beide Branchen werden am Ende, wie überall sonst, vor der Wahl stehen: adaptieren oder untergehen. Diejenigen, die dieses neue Tool kreativ einsetzen, ohne alles der AI zu überlassen, dürften die großen Gewinner sein.
- Es gibt bereits mehrere AI-Kurzfilmfestivals und AI-Musikvideos. Die Qualität schwankt allerdings stark, und die besten Arbeiten waren letztlich die, die über grundlegende Produktionskompetenz wie gutes Editing und eine klare Regieabsicht verfügten.
  Ich weiß nicht, ob es schon Langfilme gibt oder ob welche in Produktion sind.
- Das Problem ist, dass diese Stockvideo-Firmen gegen einige der reichsten Unternehmen der Geschichte antreten müssen. Rechtliche Schritte kosten enorm viel Geld und Zeit.
  Ich sage es nur ungern, aber wenn AI weiter so wächst wie bisher, ist es sehr wahrscheinlich, dass Tech-Unternehmen überall eindringen und extrem mächtig werden.
Ich verstehe nicht, warum so viele Websites, die praktisch statisches HTML sind, trotzdem ein Smartphone ins Stottern bringen.
Die Videos sehen toll aus, aber wenn das Handy alle zwei Sekunden hängen bleibt, kann man den dazugehörigen Artikel nicht mit Freude lesen.
- Auch auf einem Pixel 6a mit Chromium-Browser sehe ich seltsames Ruckeln. Da ich mobil unterwegs bin, kann ich den Source nicht prüfen, aber das kann unmöglich einfach nur statisches HTML sein.
  Beim Scrollen verschwinden Teile des Textes und springen wieder herein; es ist keine scrollbasierte Animation, sondern fast zufällig. Es fühlt sich so an, als würde irgendetwas den Render-Loop des Browsers blockieren, sodass er mit dem tatsächlichen Zeichnen des Texts nicht hinterherkommt. Auf einer so einfachen Seite wäre das ein absurder Bug, aber wenn hier React verwendet wurde, halte ich inzwischen alles für möglich.
- Bei mir ruckelt es nicht stark, aber es gibt definitiv Layout Shifts, wenn Bild- oder Videoelemente geladen werden.
- Wenn man JavaScript deaktiviert, ist die Seite tatsächlich ziemlich brauchbar und schnell.
- Vielleicht fehlt den Unternehmen, die so etwas bauen, einfach die Webentwicklungs-Kompetenz.
- Ich frage mich, welcher Browser das ist.
Menschen sind übermäßig abhängig von visuellen Eindrücken und visueller Unterhaltung. Aber diese visuellen Inhalte fühlen sich zunehmend bedeutungslos an und wirken alle wie Fast-Food-artiger Müll-Content.
Dass Vorschulkinder in wenigen Sekunden alles erschaffen können, was sie sich vorstellen, scheint es nicht besser zu machen oder echten Wert zu schaffen. Vielleicht ist genau das der Wert dieser Technologie: Es könnte eine Zeit kommen, in der man Dinge wie Filme, die Geschichten visuell imaginieren, komplett vergessen kann. Denn niemand wird sich mehr dafür interessieren.
- Das sind ebenfalls Junkfood-Visuals. Es ist schwer, sie anders zu beschreiben als wie eine Mischung aus Fisher-Price und schwachen psychedelischen Pilzen.
- Genau. Ich habe auch nie verstanden, was an Fotografie reizvoll sein soll. Sie ist zu einfach; man muss nicht stundenlang zeichnen, um etwas Originelles zu schaffen, sondern kauft einfach eine Kamera und drückt auf den Knopf.
  Dass Leute dafür Geld bezahlen, verstehe ich nicht.
Seit Jahren sage ich, dass ein Tsunami generierter Inhalte die echten menschlichen Stimmen im Netz verschlingen wird. Das Ergebnis könnte sein, dass das Internet für alles außer Unterhaltung praktisch unbrauchbar wird.
- Interessant, und teilweise sieht es bereits so aus. Ich dachte, hier und in anderen Foren seien die meisten Menschen, aber es fühlt sich nicht mehr so an.
  Selbst in Gruppenchats sehe ich, dass ein Freund AI-Antworten verwendet, während andere Mitglieder es nicht merken und ernsthaft darauf antworten. So etwas fühlt sich widerlich an, und instinktiv möchte ich AI-Müll-Content meiden. Ich weiß nicht, was als Nächstes kommt oder wohin man gehen soll. Ich habe keine Ahnung, ob „menschliche“ Foren in tiefere Ecken des Internets verdrängt werden oder ob alle Offline-Treffen stärker bevorzugen werden.
- Vielleicht ist das sogar etwas Gutes. Das Internet hat nie sein Potenzial als verbindendes Gewebe der Menschheit erreicht. Zum größten Teil ist es einfach Marketing und Spam.
  Wenn das Internet stirbt und alle zu kleineren Communities zurückkehren, wäre das meiner Meinung nach nicht unbedingt das Schlimmste. Wir sind schließlich gar nicht für Kommunikation im globalen Maßstab evolutionär angepasst.
- Ich weiß nicht, warum mich das kümmern sollte.
  Hast du gesehen, was die meisten Menschen so von sich geben? Wenn AI intelligentere Dinge sagt, bin ich dafür.
- Es wäre schön, wenn man in Communities mit verifizierten menschlichen Nutzern gehen könnte. Mit kleinerem Umfang als Social Media.
- Das frühere Internet war eine Art Versteck, in dem Nerds sich zurückziehen, herumspielen und Spaß haben konnten. Nach der Erfindung des Smartphones, vielleicht auch schon davor, wurde es wie ein „Eternal September“ kaputtgemacht.
  Heutzutage würde ich meine Zeit lieber offline verbringen. Gibt es noch irgendwelche anderen internetbasierten Rückzugsorte ohne Werbung, Aufmerksamkeitsheischerei und AI-Müll-Content?
Alle Videos haben – mir fällt kein besserer Ausdruck ein – diesen sofort erkennbaren, für generative KI typischen Glanz. Am auffälligsten sind außerdem die feinen Veränderungen an den Kanten, die verwaschene Artefakte erzeugen.
- Ich finde, das reicht als Kritik nicht aus. Diese Videos sind hochwertig. Wenn sie in Social Media landen, verschwinden durch die Komprimierung die meisten Mängel.
  Es wurde bereits gezeigt, dass Menschen KI-Inhalte deutlich seltener erkennen, wenn sie sie nicht erwarten. Wäre ich unvorbereitet gewesen, hätte ich die meisten dieser Videos wohl zu 100 % für echt gehalten.
- Dieser Glanz sieht aus wie ein Filter, den Leute verwenden, wenn sie Videos aus TV oder Film kopieren und auf Plattformen wie Facebook Reels hochladen.
  Es gibt viele Reels nach diesem Muster: gestohlenen Inhalten genug Rauschen hinzufügen, um Content-Erkennungsfilter zu umgehen. In den Kommentaren stehen Links zu Betrugsseiten, die als „IMDB-Seite dieses Inhalts“ ausgegeben werden.
- Die Bewegungen sahen seltsam aus. Das kleine Mädchen am Strand bewegt sich wie eine Erwachsene, der Maler wirkt wie eine Marionette, und alles fühlt sich wie Zeitlupe an.
- Zumindest scheinen bei den Menschen in diesen Videos alle die richtige Anzahl Finger zu haben, das ist also ein Fortschritt. Moo Deng wirkt irgendwie ohnehin von Natur aus glänzend, das kann man ihr nicht vorwerfen.
  Trotzdem bleibt das Kantenproblem groß.
- Ich frage mich, wie stark RLHF oder andere menschlich gestützte Modellanpassungen zu dieser Übersättigung und dem übertriebenen Kontrast beigetragen haben.
  Durchschnittliche Konsumenten scheinen solche Merkmale beim Vergleich von Bildern oder Videos eher zu bevorzugen und sie als Heuristik für Qualität zu verwenden. Es gab auch Vergleiche zwischen früheren Text-zu-Bild-Modellen und der neuesten Generation, in denen argumentiert wurde, dass die weniger stark bearbeiteten älteren Modelle nicht so sehr zu kitschigen, überzeichneten Ausgaben tendierten wie aktuelle Modelle.
Vielleicht sehe ich das zu eng, aber wer genau wollte so etwas, und hat überhaupt jemand über die Folgen leicht zugänglicher KI-Müllgenerierung nachgedacht?
Schon jetzt ist es im Internet nahezu unmöglich, hochwertige Inhalte zu finden, wenn man nicht weiß, wo man suchen muss.
- Es wird noch schlimmer werden, und der Wert von Aggregatoren und Gatekeepern wird enorm steigen.
- Die Antwort auf „Wer wollte so etwas?“ ist: Hast du schon mal den Witz „weil man es kann“ gehört?
- Ich wollte es, und ich bin ziemlich froh, dass das passiert. Zurücklehnen, die Augen schließen, und vor uns öffnet sich ein neues Computerzeitalter, in dem Visionen aus dem eigenen Kopf ohne Hollywood-Produktionsteams Realität werden können.
Meine beiden Kinder sind sehr kreativ, und sie haben Angst, dass KI ihnen die Möglichkeit nimmt, mit Kreativität ihren Lebensunterhalt zu verdienen. In letzter Zeit denke ich aber auch anders darüber.
Wir haben jahrzehntelang Milliarden, vielleicht Billionen Dollar dafür ausgegeben, Unterhaltungstechnologien zu verbessern. Wenn KI jede nur vorstellbare Form von Unterhaltung erzeugen kann, könnten wir anfangen, diese Unterhaltung langweilig zu finden. Vielleicht erscheinen uns dann Weltraumforschung, die Erweiterung unseres Wissens in Physik und Chemie und der Kampf gegen Krankheiten viel interessanter. Weil sie real sind. Aus derselben Perspektive könnte auch von Menschen geschaffene Kunst interessanter werden, weil sie real ist.
- Wenn ich im echten Leben mit Menschen darüber spreche, komme ich fast immer an genau diesen Punkt zurück. Die meisten Menschen finden KI-Ergebnisse faszinierend, aber auf künstlerischer Ebene nicht besonders interessant.
  Die Leute, die sich für KI begeistern, sieht man vor allem online; mangels besserer Formulierung wirken sie wirklich tief im Online-Leben versunken und wie Menschen ohne die Fähigkeiten, das Wissen oder die Möglichkeit, selbst Kunst zu machen. Sobald jemand „KI-generiert“ sagt, verliert es für mich künstlerisch sofort jedes Interesse. Das ist nicht dasselbe wie Photoshop oder digitale Kunstwerkzeuge zu verwenden. Minimale menschliche Beteiligung als Vorteil herauszustellen, funktioniert für mich von vornherein nicht, sobald es als Kunst präsentiert wird. Ich werde beobachten, ob sich die utopische Vision dieser Technologie erfüllt, aber ich habe schon oft gesehen, wie atemloser Optimismus gegenüber neuer Technologie am Ende zu werbegetriebenem, fadem MBA-Müll erstarrt. Deshalb bin ich nicht besonders optimistisch.
- Es gibt noch eine andere Perspektive.
  Auf Twitter folge ich vielen neuen Communities rund um KI-Generierung, und dort sind viele Menschen aus der Kreativbranche. Eine Person aus der Werbebranche erzählte kürzlich von einem Dreh für eine bekannte Marke. Soundstage, Schauspieler, Ton, Make-up, Licht usw. wurden über drei Tage aufgebaut, und etwa 25 Personen arbeiteten drei Tage lang daran. Rechnet man aber Preproduction und Postproduction dazu, steckten dahinter etwa drei Monate Arbeit. Man denke an Schnitt, Farbkorrektur, Tonschnitt, Musik und so weiter. Kreative Kinder könnten in einer Welt leben, in der sie vergleichbare Ergebnisse selbst erreichen können. In kleinen Teams übernimmt eine Person die Figuren, eine den Ton, eine das Drehbuch. Ohne Mietausrüstung für Zehntausende Dollar und ohne 25 Fachleute lassen sich Ideen aus dem eigenen Kopf mit Ausdauer und KI-Generierungswerkzeugen umsetzen. Ich glaube wirklich, dass diese neuen Werkzeuge Potenzial freisetzen werden, das über das hinausgeht, was wir uns heute vorstellen.
- Vielleicht wird der limitierende Faktor für die Fähigkeit, Kunst zu schaffen, nicht die Technik sein, die man für Filmproduktion, Malerei oder das Spielen eines Instruments braucht, sondern Kreativität.
- Farbe hat Kohle nicht ersetzt, Fotografie hat Malerei nicht ersetzt, digitale Kunst hat physische Medien nicht ersetzt, und zufällig generierte Spiellevel haben Architektur nicht ersetzt.
  KI-generierte Werke werden ihren Platz neben von Menschen geschaffenen Werken finden. Sie könnten sogar den Unterschied hervorheben, den ein wenig menschliches Talent macht, und so den Markt für Arthouse-Filme und großartige Schauspielkunst verbessern. Gefährdet ist nicht die Kunst, sondern Routinearbeit. Was sich ändert, ist, dass die Größenordnung menschlich produzierter Machwerke, die Millionen Menschen beschäftigten, zu KI-produzierten Machwerken verschoben wird, die nur noch Dutzende beschäftigen.
- Auch ohne KI funktioniert es für die meisten Menschen ohnehin nicht besonders gut, von Kreativität zu leben. Kreativer Ausdruck existiert für sich; die Menschen, die davon leben können, sind glückliche Ausnahmen.
Das ist wirklich beeindruckend. Die räumliche und zeitliche Konsistenz ist kaum zu glauben.
Das zu erwartende Ergebnis ist folgendes: Alle Drehbücher in Hollywood werden künftig zusammen mit einem Previsualization-Film eingereicht, es wird Konverter geben, die Comics in Animationen verwandeln, und es werden Online-Anzeigen für deutlich mehr Produkte entstehen.
- Previsualization und Storyboards werden enorm von dieser Technologie profitieren. Irgendwann dürfte sie auch für B-Roll oder Material von Second Units nutzbar werden.
  Danach muss man sehen, ob diese Technologie stagniert oder weiter zulegt.
- Mit KI erstellte minderwertige „Filme“ und Drehbücher mit Blockierung sind ein interessantes Konzept.
  Comics in Animationen umzuwandeln gibt es bereits. Werbung, besonders Social- und Online-Werbung, passiert ebenfalls schon.

Meta Movie Gen – Neuer Standard für immersive KI-Inhalte

Welche Aufgaben Movie Gen abdeckt

Textbasierte Videoerzeugung

Bestehende Videos per Text bearbeiten

Maßgeschneiderte Videos aus persönlichen Bildern

Passenden Sound für Videos erzeugen

Zusammenarbeit mit Kreativen und der Entertainment-Branche

Öffentliche Beispiele und Referenzen

Verwandte Beiträge

1 Kommentare

Hacker-News-Meinungen