2 Punkte von GN⁺ 2025-12-03 | 1 Kommentare | Auf WhatsApp teilen
  • Normalizing Flows werden verwendet, um Videos direkt aus Text-, Bild- und Videoeingaben zu erzeugen, was den ersten kausalen Videogenerator darstellt
  • End-to-End-Training, exakte Likelihood-Schätzung und mehrere Generierungsaufgaben (T2V/I2V/V2V) werden in einem einzigen Modell umgesetzt
  • Global-Local-Architektur, Flow-Score-Matching und videoorientierte Jacobi-Iteration verbessern die räumlich-zeitliche Konsistenz sowie die Effizienz
  • Mit einem 7B-Parameter-Modell werden Videos mit 480p·16fps generiert, trainiert auf 70M Text-Video- und 400M Text-Bild-Daten
  • Normalizing Flows erreichen Diffusionsmodell-Niveau in der Qualität und demonstrieren die Möglichkeit einer hochwertigen autoregressiven Videogenerierung

Überblick zu STARFlow-V

  • STARFlow-V ist ein Normalizing-Flow-basiertes kausales Video-Generierungsmodell, das visuelle Qualität auf dem Niveau von Diffusionsmodellen erreicht
    • Es bietet gleichzeitig End-to-End-Training, exakte Likelihood-Schätzung und Unterstützung für mehrere Generierungsaufgaben
  • In einem Bereich der Videogenerierung, der bisher von Diffusionsmodellen dominiert wurde, zeigt STARFlow-V die Praxisfähigkeit von Normalizing Flows
  • Die Generierung von Text-zu-Video (T2V), Bild-zu-Video (I2V) und Video-zu-Video (V2V) ist mit einer einzigen Struktur möglich

Kernarchitektur und Lernstruktur

  • Das Modell besteht aus einem Deep Autoregressive Block (globale zeitliche Inferenz) und einem Shallow Flow Block (Detailmodellierung innerhalb eines Frames)
    • Der erstere erfasst langfristige Abhängigkeiten im spatio-temporalen latenten Raum
    • Letzterer modelliert die lokalen Details jedes Frames
  • Durch Flow-Score-Matching wird ein trainierter kausaler, leichtgewichtiger Denoiser genutzt, der die Ausgabe-Konsistenz verbessert
  • Das Trainingsziel ist eine doppelte Zielfunktion aus maximaler Likelihood-Schätzung und Flow-Score-Matching

Wesentliche technische Beiträge

  • Global-Local-Architektur
    • Der globale kausale Transformer-Block übernimmt langfristige räumlich-zeitliche Abhängigkeiten
    • Der flache Flussblock pro Frame ist für die lokale Detailmodellierung zuständig
    • Das Akkumulationsfehlerproblem pixelbasierter autoregressiver Modelle wird reduziert
  • Flow-Score-Matching-basierter Denoiser
    • Ein kausaler neuronaler Denoiser, der den Score (Gradienten) der Wahrscheinlichkeitsverteilung des Modells vorhersagt, wird parallel trainiert
    • Eine Einzelschritt-Feinverfeinerung ist ohne nicht-kausalen oder unvollständigen externen Denoiser möglich
  • Video-ware Jacobi-Iteration
    • Der Generierungsprozess wird als Lösung eines nichtlinearen Systems neu aufgebaut, um ein paralleles latentes Update durchzuführen
    • Eine Initialisierung mit den zeitlichen Informationen benachbarter Frames und die Pipeline-Ausführung verbessern die Geschwindigkeit

Modellspezifikationen

  • Trainingsdaten: 70M Text-Video-Paare, 400M Text-Bild-Paare
  • Modellgröße: 7B-Parameter, Ausgaberesolution 480p, Framerate 16fps
  • Dank der Reversibilität von Normalizing Flows können unterschiedliche Generierungsaufgaben ohne Architekturänderung oder erneutes Training durchgeführt werden

Generierungsergebnisse und Vergleich

  • Text-zu-Video: Erzeugt hochwertige Szenen mit natürlichem Licht, realistischem Look und Makroaufnahmen
  • Bild-zu-Video: Erweitert Eingangsbilder und bewahrt dabei die zeitliche Konsistenz
  • Video-zu-Video: Führt verschiedene Transformationen durch, einschließlich Objektaddition, Farbkonvertierung, Stilwechsel und Inpainting
  • Lange Videogenerierung: Erzeugt auch 10–30 Sekunden lange Videos im abschnittsweisen autoregressiven Verfahren
  • Vergleichsexperimente: Gegenüber NOVA und WAN-Causal werden visuelle Treue und zeitliche Konsistenz mit besseren Ergebnissen erreicht

Grenzen und Fehlfälle

  • Bei komplexen physikalischen Interaktionen oder schnellen Bewegungen kommt es zu Qualitätsabfällen
  • Als Ursachen werden Ressourcenbeschränkungen beim Training, Daten niedriger Qualität und das Fehlen nachgelagerter Feinanpassung (SFT·RL) genannt
  • Beispiele wie ein sich schüttelnder Hund oder eine springende Ziege zeigen unnatürliche Bewegungen

Forschungsrelevanz

  • STARFlow-V liefert den ersten Nachweis, dass Normalizing Flows für hochwertige autoregressive Videogenerierung geeignet sind
  • Es eröffnet eine neue alternative Richtungsweise für die Diffusionsmodell-zentrierte Video-Generierungsforschung
  • Es wird als vielversprechender Forschungsweg für den Aufbau von World Models eingestuft

1 Kommentare

 
GN⁺ 2025-12-03
Hacker-News-Kommentare
  • Apple hat ebenfalls ein Modell zum Videoverständnis
    Als sehbehinderte Person hat KI mein Leben völlig verändert. Ich bin wirklich gespannt, wie sich mit diesem Modell die Barrierefreiheitsfunktionen weiterentwickeln werden

    • Solche Geschichten sieht man selten in News-Schlagzeilen, deshalb ist das wirklich ein erfreulicher Kommentar
    • Vor ein paar Jahren wurde auch eine Funktion hinzugefügt, die für gehörlose Eltern Babyweinen erkennt und Benachrichtigungen sendet
    • Vielleicht ist das kein besonders hochwertiger Kommentar, aber ich wollte aufrichtig gratulieren und habe mich sehr darüber gefreut
    • Ich würde gern genauer hören, wie KI dein Leben verändert hat
    • Es ist schön, zur Abwechslung mal gute Nachrichten zu sehen, bei denen KI Menschen tatsächlich hilft
  • Apples Lizenz ist auf nichtkommerzielle Forschung beschränkt und erfüllt daher nicht die Open-Source-Definition
    Deshalb halte ich „weights available“ für die treffendere Bezeichnung als „Open Source“

    • Tatsächlich sind noch nicht einmal die Weights selbst veröffentlicht
      Nach US-Recht gelten Modellgewichte nicht als schöpferisches Werk, sondern als maschinell erzeugtes Ergebnis und sind daher nicht urheberrechtlich geschützt
      Deshalb würde ich solche sinnlosen Lizenzen wohl ignorieren und sie frei verwenden
  • Das Konzept eines „Open-Weight-Modells“ wirkt auf mich ein bisschen wie eine „Open-Source-Windows-Maschinencode-Version“
    Immerhin ist Apples Lizenz vom Clickwrap-MIT-Typ und erlaubt Modifikationen und Weiterverbreitung

    • Gute Analogie. Wenn man sie weiterführt, entspricht „geschlossener Maschinencode“ dem typischen SaaS-Modell
      Trotzdem ist es besser, das Binärformat direkt nutzen zu können, als nur SaaS angeboten zu bekommen
    • Wichtig ist, dass man es lokal ausführen kann
      Open Weights unterscheiden sich von einer bloßen ausführbaren Datei dadurch, dass man sie weitertrainieren oder Distillation durchführen kann
    • Vermutlich wurden hier Code-Lizenz und Modell-Lizenz verwechselt
  • Ich habe mir die Text-zu-Video-Beispiele angesehen und war ehrlich gesagt nicht beeindruckt
    Es erinnerte mich an das alte Will-Smith-Nudel-Video. Übersehe ich etwas?

    • Im Vergleich zum aktuellen Stand der Technik wirkt es etwa zwei Jahre zurück
      Trotzdem ist es sinnvoll, dass es veröffentlicht wurde, damit Forschende damit experimentieren können
    • Wenn man sich das Will-Smith-Spaghetti-Video noch einmal ansieht, merkt man, dass diese Beispiele deutlich besser sind
      Perfekt ist es nicht, aber unter den veröffentlichten Modellen könnte es zum fortschrittlichsten Stand gehören
      Ob die Lizenz allerdings offen genug ist, ist fraglich
    • Ich hatte denselben Eindruck. Es gab merkwürdige Stellen, etwa dass die Flüssigkeit im Becher weiter anstieg, obwohl sie bereits stillstand
  • Als Forschungsprojekt hat dieses Vorhaben neue Ansätze und Möglichkeiten gezeigt
    Aus Produktsicht sind die Beschränkungen bei den Rechenressourcen jedoch deutlich erkennbar
    Das passt auch zu Berichten, wonach der CFO die ML-Infrastrukturinvestitionen des CEO blockiert habe
    Angesichts von JGs Abgang, dem groß angelegten Umbau der KI-Abteilung und Gerüchten über Tims Rücktritt im Jahr 2026
    scheint das nicht-ML-Lager die interne Politik gewonnen zu haben
    Trotzdem ist der Ansatz interessant, daher hoffe ich, dass andere darauf aufbauend etwas Nützliches entwickeln

  • Laut Paper ist dieses Modell ein Forschungsmodell, das das Problem kumulativer Fehler in Diffusion-Video-Modellen lösen soll
    Der latente Raum wurde mit einer kausalen (causal) Struktur entworfen, um die Konsistenz zu erhöhen
    Für ein Modell mit 7B Parametern sind die Ergebnisse ziemlich ordentlich
    Wenn Apple ein Modell auf dem Niveau von wan oder veo herausbringen würde, wäre es vermutlich mit wirklich hochwertigen Daten trainiert worden

  • STARFlow-V soll mit 96 H100-GPUs auf etwa 20 Millionen Videos trainiert worden sein
    Der Trainingszeitraum wird allerdings nicht genannt

    • Interessant ist, dass Apple Intelligence mit Nvidia-GPUs und Linux trainiert wurde
      Ich frage mich, ob sich mit den Beispielen im Repo auch auf dem Mac Inferenz ausführen lässt
  • Der Titel ist falsch. Das Modell wurde noch nicht veröffentlicht, und auch im Link steht nichts davon
    Ich frage mich, warum ein bearbeiteter Titel verwendet wurde

  • Das Modell wirkt gut, aber ich frage mich, welche Anwendungsfälle Apple dafür im Blick hat
    Vielleicht ist es einfach ein Forschungsthema, das die Forschenden interessiert, und ich weiß nicht, wie sehr die Richtung in Großkonzernforschung von oben vorgegeben wird

    • Apple ist durch die Verbindung zu Pixar und Disney stark im Bereich Video und Animation
      Viele Beziehungen reichen bis in die Jobs-Ära zurück
    • Vermutlich soll es dazu dienen, zu mit dem iPhone aufgenommenen Videos generative Effekte hinzuzufügen
      TikTok oder Instagram werden solche Funktionen bald ebenfalls einbauen, aber Apple scheint sie selbst anbieten zu wollen
      Persönlich fände ich eine Übernahme von Snapchat eine gute Strategie
  • Im Repo steht „Pretrained checkpoints will be released soon
    Das heißt, derzeit ist es noch kein Open-Weight-Modell
    Erst wenn die Gewichte tatsächlich veröffentlicht werden, wird es ein wirklich offenes Modell sein
    Wann „Soon“ sein wird, ist unklar