STARFlow-V: Ein End-to-End-Video-Generierungsmodell auf Basis von Normalizing Flows

(starflow-v.github.io)

2 Punkte von GN⁺ 2025-12-03 | 1 Kommentare | Auf WhatsApp teilen

Normalizing Flows werden verwendet, um Videos direkt aus Text-, Bild- und Videoeingaben zu erzeugen, was den ersten kausalen Videogenerator darstellt
End-to-End-Training, exakte Likelihood-Schätzung und mehrere Generierungsaufgaben (T2V/I2V/V2V) werden in einem einzigen Modell umgesetzt
Global-Local-Architektur, Flow-Score-Matching und videoorientierte Jacobi-Iteration verbessern die räumlich-zeitliche Konsistenz sowie die Effizienz
Mit einem 7B-Parameter-Modell werden Videos mit 480p·16fps generiert, trainiert auf 70M Text-Video- und 400M Text-Bild-Daten
Normalizing Flows erreichen Diffusionsmodell-Niveau in der Qualität und demonstrieren die Möglichkeit einer hochwertigen autoregressiven Videogenerierung

Überblick zu STARFlow-V

STARFlow-V ist ein Normalizing-Flow-basiertes kausales Video-Generierungsmodell, das visuelle Qualität auf dem Niveau von Diffusionsmodellen erreicht
- Es bietet gleichzeitig End-to-End-Training, exakte Likelihood-Schätzung und Unterstützung für mehrere Generierungsaufgaben
In einem Bereich der Videogenerierung, der bisher von Diffusionsmodellen dominiert wurde, zeigt STARFlow-V die Praxisfähigkeit von Normalizing Flows
Die Generierung von Text-zu-Video (T2V), Bild-zu-Video (I2V) und Video-zu-Video (V2V) ist mit einer einzigen Struktur möglich

Kernarchitektur und Lernstruktur

Das Modell besteht aus einem Deep Autoregressive Block (globale zeitliche Inferenz) und einem Shallow Flow Block (Detailmodellierung innerhalb eines Frames)
- Der erstere erfasst langfristige Abhängigkeiten im spatio-temporalen latenten Raum
- Letzterer modelliert die lokalen Details jedes Frames
Durch Flow-Score-Matching wird ein trainierter kausaler, leichtgewichtiger Denoiser genutzt, der die Ausgabe-Konsistenz verbessert
Das Trainingsziel ist eine doppelte Zielfunktion aus maximaler Likelihood-Schätzung und Flow-Score-Matching

Wesentliche technische Beiträge

Global-Local-Architektur
- Der globale kausale Transformer-Block übernimmt langfristige räumlich-zeitliche Abhängigkeiten
- Der flache Flussblock pro Frame ist für die lokale Detailmodellierung zuständig
- Das Akkumulationsfehlerproblem pixelbasierter autoregressiver Modelle wird reduziert
Flow-Score-Matching-basierter Denoiser
- Ein kausaler neuronaler Denoiser, der den Score (Gradienten) der Wahrscheinlichkeitsverteilung des Modells vorhersagt, wird parallel trainiert
- Eine Einzelschritt-Feinverfeinerung ist ohne nicht-kausalen oder unvollständigen externen Denoiser möglich
Video-ware Jacobi-Iteration
- Der Generierungsprozess wird als Lösung eines nichtlinearen Systems neu aufgebaut, um ein paralleles latentes Update durchzuführen
- Eine Initialisierung mit den zeitlichen Informationen benachbarter Frames und die Pipeline-Ausführung verbessern die Geschwindigkeit

Modellspezifikationen

Trainingsdaten: 70M Text-Video-Paare, 400M Text-Bild-Paare
Modellgröße: 7B-Parameter, Ausgaberesolution 480p, Framerate 16fps
Dank der Reversibilität von Normalizing Flows können unterschiedliche Generierungsaufgaben ohne Architekturänderung oder erneutes Training durchgeführt werden

Generierungsergebnisse und Vergleich

Text-zu-Video: Erzeugt hochwertige Szenen mit natürlichem Licht, realistischem Look und Makroaufnahmen
Bild-zu-Video: Erweitert Eingangsbilder und bewahrt dabei die zeitliche Konsistenz
Video-zu-Video: Führt verschiedene Transformationen durch, einschließlich Objektaddition, Farbkonvertierung, Stilwechsel und Inpainting
Lange Videogenerierung: Erzeugt auch 10–30 Sekunden lange Videos im abschnittsweisen autoregressiven Verfahren
Vergleichsexperimente: Gegenüber NOVA und WAN-Causal werden visuelle Treue und zeitliche Konsistenz mit besseren Ergebnissen erreicht

Grenzen und Fehlfälle

Bei komplexen physikalischen Interaktionen oder schnellen Bewegungen kommt es zu Qualitätsabfällen
Als Ursachen werden Ressourcenbeschränkungen beim Training, Daten niedriger Qualität und das Fehlen nachgelagerter Feinanpassung (SFT·RL) genannt
Beispiele wie ein sich schüttelnder Hund oder eine springende Ziege zeigen unnatürliche Bewegungen

Forschungsrelevanz

STARFlow-V liefert den ersten Nachweis, dass Normalizing Flows für hochwertige autoregressive Videogenerierung geeignet sind
Es eröffnet eine neue alternative Richtungsweise für die Diffusionsmodell-zentrierte Video-Generierungsforschung
Es wird als vielversprechender Forschungsweg für den Aufbau von World Models eingestuft

1 Kommentare

GN⁺ 2025-12-03

Hacker-News-Kommentare

Apple hat ebenfalls ein Modell zum Videoverständnis
Als sehbehinderte Person hat KI mein Leben völlig verändert. Ich bin wirklich gespannt, wie sich mit diesem Modell die Barrierefreiheitsfunktionen weiterentwickeln werden
- Solche Geschichten sieht man selten in News-Schlagzeilen, deshalb ist das wirklich ein erfreulicher Kommentar
- Vor ein paar Jahren wurde auch eine Funktion hinzugefügt, die für gehörlose Eltern Babyweinen erkennt und Benachrichtigungen sendet
- Vielleicht ist das kein besonders hochwertiger Kommentar, aber ich wollte aufrichtig gratulieren und habe mich sehr darüber gefreut
- Ich würde gern genauer hören, wie KI dein Leben verändert hat
- Es ist schön, zur Abwechslung mal gute Nachrichten zu sehen, bei denen KI Menschen tatsächlich hilft
Apples Lizenz ist auf nichtkommerzielle Forschung beschränkt und erfüllt daher nicht die Open-Source-Definition
Deshalb halte ich „weights available“ für die treffendere Bezeichnung als „Open Source“
- Tatsächlich sind noch nicht einmal die Weights selbst veröffentlicht
  Nach US-Recht gelten Modellgewichte nicht als schöpferisches Werk, sondern als maschinell erzeugtes Ergebnis und sind daher nicht urheberrechtlich geschützt
  Deshalb würde ich solche sinnlosen Lizenzen wohl ignorieren und sie frei verwenden
Das Konzept eines „Open-Weight-Modells“ wirkt auf mich ein bisschen wie eine „Open-Source-Windows-Maschinencode-Version“
Immerhin ist Apples Lizenz vom Clickwrap-MIT-Typ und erlaubt Modifikationen und Weiterverbreitung
- Gute Analogie. Wenn man sie weiterführt, entspricht „geschlossener Maschinencode“ dem typischen SaaS-Modell
  Trotzdem ist es besser, das Binärformat direkt nutzen zu können, als nur SaaS angeboten zu bekommen
- Wichtig ist, dass man es lokal ausführen kann
  Open Weights unterscheiden sich von einer bloßen ausführbaren Datei dadurch, dass man sie weitertrainieren oder Distillation durchführen kann
- Vermutlich wurden hier Code-Lizenz und Modell-Lizenz verwechselt
Ich habe mir die Text-zu-Video-Beispiele angesehen und war ehrlich gesagt nicht beeindruckt
Es erinnerte mich an das alte Will-Smith-Nudel-Video. Übersehe ich etwas?
- Im Vergleich zum aktuellen Stand der Technik wirkt es etwa zwei Jahre zurück
  Trotzdem ist es sinnvoll, dass es veröffentlicht wurde, damit Forschende damit experimentieren können
- Wenn man sich das Will-Smith-Spaghetti-Video noch einmal ansieht, merkt man, dass diese Beispiele deutlich besser sind
  Perfekt ist es nicht, aber unter den veröffentlichten Modellen könnte es zum fortschrittlichsten Stand gehören
  Ob die Lizenz allerdings offen genug ist, ist fraglich
- Ich hatte denselben Eindruck. Es gab merkwürdige Stellen, etwa dass die Flüssigkeit im Becher weiter anstieg, obwohl sie bereits stillstand
Als Forschungsprojekt hat dieses Vorhaben neue Ansätze und Möglichkeiten gezeigt
Aus Produktsicht sind die Beschränkungen bei den Rechenressourcen jedoch deutlich erkennbar
Das passt auch zu Berichten, wonach der CFO die ML-Infrastrukturinvestitionen des CEO blockiert habe
Angesichts von JGs Abgang, dem groß angelegten Umbau der KI-Abteilung und Gerüchten über Tims Rücktritt im Jahr 2026
scheint das nicht-ML-Lager die interne Politik gewonnen zu haben
Trotzdem ist der Ansatz interessant, daher hoffe ich, dass andere darauf aufbauend etwas Nützliches entwickeln
Laut Paper ist dieses Modell ein Forschungsmodell, das das Problem kumulativer Fehler in Diffusion-Video-Modellen lösen soll
Der latente Raum wurde mit einer kausalen (causal) Struktur entworfen, um die Konsistenz zu erhöhen
Für ein Modell mit 7B Parametern sind die Ergebnisse ziemlich ordentlich
Wenn Apple ein Modell auf dem Niveau von wan oder veo herausbringen würde, wäre es vermutlich mit wirklich hochwertigen Daten trainiert worden
STARFlow-V soll mit 96 H100-GPUs auf etwa 20 Millionen Videos trainiert worden sein
Der Trainingszeitraum wird allerdings nicht genannt
- Interessant ist, dass Apple Intelligence mit Nvidia-GPUs und Linux trainiert wurde
  Ich frage mich, ob sich mit den Beispielen im Repo auch auf dem Mac Inferenz ausführen lässt
Der Titel ist falsch. Das Modell wurde noch nicht veröffentlicht, und auch im Link steht nichts davon
Ich frage mich, warum ein bearbeiteter Titel verwendet wurde
Das Modell wirkt gut, aber ich frage mich, welche Anwendungsfälle Apple dafür im Blick hat
Vielleicht ist es einfach ein Forschungsthema, das die Forschenden interessiert, und ich weiß nicht, wie sehr die Richtung in Großkonzernforschung von oben vorgegeben wird
- Apple ist durch die Verbindung zu Pixar und Disney stark im Bereich Video und Animation
  Viele Beziehungen reichen bis in die Jobs-Ära zurück
- Vermutlich soll es dazu dienen, zu mit dem iPhone aufgenommenen Videos generative Effekte hinzuzufügen
  TikTok oder Instagram werden solche Funktionen bald ebenfalls einbauen, aber Apple scheint sie selbst anbieten zu wollen
  Persönlich fände ich eine Übernahme von Snapchat eine gute Strategie
Im Repo steht „Pretrained checkpoints will be released soon“
Das heißt, derzeit ist es noch kein Open-Weight-Modell
Erst wenn die Gewichte tatsächlich veröffentlicht werden, wird es ein wirklich offenes Modell sein
Wann „Soon“ sein wird, ist unklar

STARFlow-V: Ein End-to-End-Video-Generierungsmodell auf Basis von Normalizing Flows

Überblick zu STARFlow-V

Kernarchitektur und Lernstruktur

Wesentliche technische Beiträge

Modellspezifikationen

Generierungsergebnisse und Vergleich

Grenzen und Fehlfälle

Forschungsrelevanz

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare