- Normalizing Flows werden verwendet, um Videos direkt aus Text-, Bild- und Videoeingaben zu erzeugen, was den ersten kausalen Videogenerator darstellt
- End-to-End-Training, exakte Likelihood-Schätzung und mehrere Generierungsaufgaben (T2V/I2V/V2V) werden in einem einzigen Modell umgesetzt
- Global-Local-Architektur, Flow-Score-Matching und videoorientierte Jacobi-Iteration verbessern die räumlich-zeitliche Konsistenz sowie die Effizienz
- Mit einem 7B-Parameter-Modell werden Videos mit 480p·16fps generiert, trainiert auf 70M Text-Video- und 400M Text-Bild-Daten
- Normalizing Flows erreichen Diffusionsmodell-Niveau in der Qualität und demonstrieren die Möglichkeit einer hochwertigen autoregressiven Videogenerierung
Überblick zu STARFlow-V
- STARFlow-V ist ein Normalizing-Flow-basiertes kausales Video-Generierungsmodell, das visuelle Qualität auf dem Niveau von Diffusionsmodellen erreicht
- Es bietet gleichzeitig End-to-End-Training, exakte Likelihood-Schätzung und Unterstützung für mehrere Generierungsaufgaben
- In einem Bereich der Videogenerierung, der bisher von Diffusionsmodellen dominiert wurde, zeigt STARFlow-V die Praxisfähigkeit von Normalizing Flows
- Die Generierung von Text-zu-Video (T2V), Bild-zu-Video (I2V) und Video-zu-Video (V2V) ist mit einer einzigen Struktur möglich
Kernarchitektur und Lernstruktur
- Das Modell besteht aus einem Deep Autoregressive Block (globale zeitliche Inferenz) und einem Shallow Flow Block (Detailmodellierung innerhalb eines Frames)
- Der erstere erfasst langfristige Abhängigkeiten im spatio-temporalen latenten Raum
- Letzterer modelliert die lokalen Details jedes Frames
- Durch Flow-Score-Matching wird ein trainierter kausaler, leichtgewichtiger Denoiser genutzt, der die Ausgabe-Konsistenz verbessert
- Das Trainingsziel ist eine doppelte Zielfunktion aus maximaler Likelihood-Schätzung und Flow-Score-Matching
Wesentliche technische Beiträge
- Global-Local-Architektur
- Der globale kausale Transformer-Block übernimmt langfristige räumlich-zeitliche Abhängigkeiten
- Der flache Flussblock pro Frame ist für die lokale Detailmodellierung zuständig
- Das Akkumulationsfehlerproblem pixelbasierter autoregressiver Modelle wird reduziert
- Flow-Score-Matching-basierter Denoiser
- Ein kausaler neuronaler Denoiser, der den Score (Gradienten) der Wahrscheinlichkeitsverteilung des Modells vorhersagt, wird parallel trainiert
- Eine Einzelschritt-Feinverfeinerung ist ohne nicht-kausalen oder unvollständigen externen Denoiser möglich
- Video-ware Jacobi-Iteration
- Der Generierungsprozess wird als Lösung eines nichtlinearen Systems neu aufgebaut, um ein paralleles latentes Update durchzuführen
- Eine Initialisierung mit den zeitlichen Informationen benachbarter Frames und die Pipeline-Ausführung verbessern die Geschwindigkeit
Modellspezifikationen
- Trainingsdaten: 70M Text-Video-Paare, 400M Text-Bild-Paare
- Modellgröße: 7B-Parameter, Ausgaberesolution 480p, Framerate 16fps
- Dank der Reversibilität von Normalizing Flows können unterschiedliche Generierungsaufgaben ohne Architekturänderung oder erneutes Training durchgeführt werden
Generierungsergebnisse und Vergleich
- Text-zu-Video: Erzeugt hochwertige Szenen mit natürlichem Licht, realistischem Look und Makroaufnahmen
- Bild-zu-Video: Erweitert Eingangsbilder und bewahrt dabei die zeitliche Konsistenz
- Video-zu-Video: Führt verschiedene Transformationen durch, einschließlich Objektaddition, Farbkonvertierung, Stilwechsel und Inpainting
- Lange Videogenerierung: Erzeugt auch 10–30 Sekunden lange Videos im abschnittsweisen autoregressiven Verfahren
- Vergleichsexperimente: Gegenüber NOVA und WAN-Causal werden visuelle Treue und zeitliche Konsistenz mit besseren Ergebnissen erreicht
Grenzen und Fehlfälle
- Bei komplexen physikalischen Interaktionen oder schnellen Bewegungen kommt es zu Qualitätsabfällen
- Als Ursachen werden Ressourcenbeschränkungen beim Training, Daten niedriger Qualität und das Fehlen nachgelagerter Feinanpassung (SFT·RL) genannt
- Beispiele wie ein sich schüttelnder Hund oder eine springende Ziege zeigen unnatürliche Bewegungen
Forschungsrelevanz
- STARFlow-V liefert den ersten Nachweis, dass Normalizing Flows für hochwertige autoregressive Videogenerierung geeignet sind
- Es eröffnet eine neue alternative Richtungsweise für die Diffusionsmodell-zentrierte Video-Generierungsforschung
- Es wird als vielversprechender Forschungsweg für den Aufbau von World Models eingestuft
1 Kommentare
Hacker-News-Kommentare
Apple hat ebenfalls ein Modell zum Videoverständnis
Als sehbehinderte Person hat KI mein Leben völlig verändert. Ich bin wirklich gespannt, wie sich mit diesem Modell die Barrierefreiheitsfunktionen weiterentwickeln werden
Apples Lizenz ist auf nichtkommerzielle Forschung beschränkt und erfüllt daher nicht die Open-Source-Definition
Deshalb halte ich „weights available“ für die treffendere Bezeichnung als „Open Source“
Nach US-Recht gelten Modellgewichte nicht als schöpferisches Werk, sondern als maschinell erzeugtes Ergebnis und sind daher nicht urheberrechtlich geschützt
Deshalb würde ich solche sinnlosen Lizenzen wohl ignorieren und sie frei verwenden
Das Konzept eines „Open-Weight-Modells“ wirkt auf mich ein bisschen wie eine „Open-Source-Windows-Maschinencode-Version“
Immerhin ist Apples Lizenz vom Clickwrap-MIT-Typ und erlaubt Modifikationen und Weiterverbreitung
Trotzdem ist es besser, das Binärformat direkt nutzen zu können, als nur SaaS angeboten zu bekommen
Open Weights unterscheiden sich von einer bloßen ausführbaren Datei dadurch, dass man sie weitertrainieren oder Distillation durchführen kann
Ich habe mir die Text-zu-Video-Beispiele angesehen und war ehrlich gesagt nicht beeindruckt
Es erinnerte mich an das alte Will-Smith-Nudel-Video. Übersehe ich etwas?
Trotzdem ist es sinnvoll, dass es veröffentlicht wurde, damit Forschende damit experimentieren können
Perfekt ist es nicht, aber unter den veröffentlichten Modellen könnte es zum fortschrittlichsten Stand gehören
Ob die Lizenz allerdings offen genug ist, ist fraglich
Als Forschungsprojekt hat dieses Vorhaben neue Ansätze und Möglichkeiten gezeigt
Aus Produktsicht sind die Beschränkungen bei den Rechenressourcen jedoch deutlich erkennbar
Das passt auch zu Berichten, wonach der CFO die ML-Infrastrukturinvestitionen des CEO blockiert habe
Angesichts von JGs Abgang, dem groß angelegten Umbau der KI-Abteilung und Gerüchten über Tims Rücktritt im Jahr 2026
scheint das nicht-ML-Lager die interne Politik gewonnen zu haben
Trotzdem ist der Ansatz interessant, daher hoffe ich, dass andere darauf aufbauend etwas Nützliches entwickeln
Laut Paper ist dieses Modell ein Forschungsmodell, das das Problem kumulativer Fehler in Diffusion-Video-Modellen lösen soll
Der latente Raum wurde mit einer kausalen (causal) Struktur entworfen, um die Konsistenz zu erhöhen
Für ein Modell mit 7B Parametern sind die Ergebnisse ziemlich ordentlich
Wenn Apple ein Modell auf dem Niveau von wan oder veo herausbringen würde, wäre es vermutlich mit wirklich hochwertigen Daten trainiert worden
STARFlow-V soll mit 96 H100-GPUs auf etwa 20 Millionen Videos trainiert worden sein
Der Trainingszeitraum wird allerdings nicht genannt
Ich frage mich, ob sich mit den Beispielen im Repo auch auf dem Mac Inferenz ausführen lässt
Der Titel ist falsch. Das Modell wurde noch nicht veröffentlicht, und auch im Link steht nichts davon
Ich frage mich, warum ein bearbeiteter Titel verwendet wurde
Das Modell wirkt gut, aber ich frage mich, welche Anwendungsfälle Apple dafür im Blick hat
Vielleicht ist es einfach ein Forschungsthema, das die Forschenden interessiert, und ich weiß nicht, wie sehr die Richtung in Großkonzernforschung von oben vorgegeben wird
Viele Beziehungen reichen bis in die Jobs-Ära zurück
TikTok oder Instagram werden solche Funktionen bald ebenfalls einbauen, aber Apple scheint sie selbst anbieten zu wollen
Persönlich fände ich eine Übernahme von Snapchat eine gute Strategie
Im Repo steht „Pretrained checkpoints will be released soon“
Das heißt, derzeit ist es noch kein Open-Weight-Modell
Erst wenn die Gewichte tatsächlich veröffentlicht werden, wird es ein wirklich offenes Modell sein
Wann „Soon“ sein wird, ist unklar