Diffusion Forcing: Wenn Next-Token Prediction auf Full-Sequence Diffusion trifft

Diffusion Forcing ist ein Verfahren zur Sequenzgenerierung, das für jedes Token unterschiedliche Diffusionsrauschpegel lernt und sich beim Sampling sowohl wie ein Next-Token-Modell als auch wie ein Full-Sequence-Diffusion-Modell nutzen lässt
Das Rauschen der Diffusion wird als Maskierung interpretiert: Vergangene Tokens bleiben sauber, nur zukünftige Tokens werden verrauscht, oder es werden unterschiedliche Rauschpegel über die gesamte Sequenz verteilt
Bei der Videovorhersage in DMLab und Minecraft divergierte Teacher Forcing leicht, während causal full-sequence diffusion inkonsistente Ergebnisse zeigte; Diffusion Forcing erzeugte dagegen stabilere Vorhersagen
Für Entscheidungsfindung und Planung werden Tokens als [a_t, o_{t+1}] definiert, um Aktionen und die darauf folgenden Beobachtungen gemeinsam zu modellieren; nahe und ferne Zukunft können unterschiedliche Rauschpegel erhalten
Lange Rollouts über die Trainingslänge hinaus sind möglich: DMLab erzeugt nach Training auf 36 Frames mehr als 2000 Frames, Minecraft nach Training auf 72 Frames ebenfalls mehr als 2000 Frames — ohne sliding window

Kernstruktur von Diffusion Forcing

Der Name Diffusion Forcing ist von Teacher Forcing und Diffusion Models abgeleitet
Ziel ist es, die Vorteile autoregressiver Next-Token-Modelle und von Full-Sequence-Diffusion-Modellen in einem Trainingsparadigma zu kombinieren
- Vorteil von Next-Token-Modellen: Generierung variabler Länge
- Vorteil von Full-Sequence-Diffusion-Modellen: Sequenz-Level-Guidance, die das Sampling in Richtung gewünschter Trajektorien lenkt
Ein einmal trainiertes Modell kann beim Sampling unterschiedlich betrieben werden
- Flexible und kompositorische Generierung wie bei einem Next-Token-Modell
- Guidance über die gesamte Sequenz hinweg wie bei einem Full-Sequence-Diffusion-Modell

Tokenweises Rauschen und „Noise as Masking“

Diffusion Forcing trainiert Sequenz-Diffusion so, dass jedes Token einen eigenen Rauschpegel erhält
Diffusionsrauschen kann als Maskierung mit verschiedenen Stärken verstanden werden
- Full-Sequence Diffusion: Alle Frames werden gleichzeitig auf demselben Rauschpegel denoised
- Next-Token Prediction: Vergangene Tokens bleiben bei Rauschen 0, und der nächste Frame wird jeweils einzeln denoised
Wenn man beim Sampling die Rauschverteilung innerhalb der Sequenz verändert, lassen sich verschiedene Verhaltensweisen erzeugen
- Stabilisierung autoregressiver Rollouts
- Guidance über einen langen Horizon
- Planning mit causal uncertainty

Theoretische Eigenschaften

Es wird gezeigt, dass Diffusion Forcing eine Variationsuntergrenze für die Likelihood aller Teilsequenzen von Tokens optimiert, die aus der echten gemeinsamen Verteilung gezogen wurden
Diese Eigenschaft zeigt, dass das Trainingsziel nicht nur mit empirischer Performance, sondern auch mit der Likelihood über Teilsequenzen hinweg verknüpft ist

Ergebnisse bei der Videovorhersage

Verwendet werden direkt vom Modell synthetisierte Videoergebnisse; sie werden ohne VAE oder Superresolution erzeugt
Es wird ausdrücklich angegeben, dass die Ergebnisse ohne Cherry-Picking gesampelt wurden
Im Vergleich auf dem DMLab-Datensatz sind die Unterschiede zwischen den drei Verfahren deutlich
- Teacher Forcing divergiert leicht
- Das causal full-sequence diffusion model zeigt gravierende Konsistenzprobleme
- Diffusion Forcing erreicht stabile und konsistente Videovorhersagen
Auf dem Minecraft-Datensatz zeigt sich dasselbe Muster
- Teacher Forcing divergiert leicht
- Das causal full-sequence diffusion model hat gravierende Konsistenzprobleme
- Diffusion Forcing erzeugt stabile und konsistente Vorhersagen

Lange Video-Rollouts über die Trainingslänge hinaus

Diffusion Forcing kann Videos ausrollen, die deutlich länger sind als die maximale beim Training gesehene Sequenzlänge
Diese Rollouts erfolgen ohne sliding window
- Beim RNN-Rollout wird das latente z nicht auf das anfängliche latente z0 zurückgesetzt
- Der stabilisierende Effekt zeigt sich bei Diffusion Forcing
DMLab-Ergebnisse:
- Training mit 36 Frames
- Rollouts von mehr als 2000 Frames möglich
- Ohne sliding window durchgeführt
- Die ursprüngliche Datensatzauflösung beträgt 64x64
- Aufgrund der mp4-Kompression der langen Videos ist die Bildqualität niedriger; zur Darstellung der ursprünglichen Generierungsqualität werden zusätzlich PNG-Visualisierungen bereitgestellt
Minecraft-Ergebnisse:
- Training mit 72 Frames
- Rollouts von mehr als 2000 Frames ohne Divergenz möglich
- Ohne sliding window durchgeführt
- Die ursprüngliche Datensatzauflösung beträgt 128x128
- In einigen Szenarien bleibt der Agent vor zwei Blöcke hohen dirt- oder stone blocks stehen, bis er die Richtung ändert; dies wird als inhärentes Problem der Datensatzerfassung behandelt

Diffusion Planning

Ähnlich wie bei früheren Arbeiten wie Diffuser kann eine Diffusionssequenz mithilfe von Guidance zur Testzeit als Planner genutzt werden
Diffusion Forcing definiert jedes Token als [a_t, o_{t+1}], um Kausalbeziehungen explizit zu modellieren
- Es hält eine belief darüber, welche Aktion auszuführen ist
- Es hält zugleich eine belief über die Beobachtung, zu der diese Aktion führen wird
- Wenn nach der Aktion eine neue Beobachtung eingeht, kann die belief per posterior estimation aktualisiert werden
Das Video zum Diffusion-Planning-Prozess visualisiert den Diffusion-Forcing-Planning-Prozess als Entscheidungsframework
Um causal uncertainty in der Zukunft zu modellieren, kann die nahe Zukunft mit niedrigem Rauschpegel und die ferne Zukunft mit hohem Rauschpegel versehen werden

Long-Horizon Imitation Learning

Viele reale Aufgaben sind nicht Markovian und erfordern für ihre Ausführung Long-Horizon Memory
In einer realen Robotikaufgabe muss ein Roboterarm mithilfe des dritten Slots die Slots zweier Früchte vertauschen
- Die Früchte werden zu Beginn zufällig in Slots platziert
- Aus einer einzelnen Beobachtung lässt sich die anfängliche Platzierung der Früchte nicht erkennen, sodass der nächste Schritt nicht bestimmt werden kann
Im Planning-Experiment wird die Guidance entfernt, und es wird durch gemeinsames Diffusing von Action-Observation-Sequenzen Feedback Control ausgeführt
Die gezeigten Videos zeigen mehrere aufeinanderfolgende Erfolge, bevor ein Fehlschlag auftritt
- Auch wenn die Positionen der Früchte durch vorherige Durchläufe randomisiert werden, kann der Roboter die Aufgabe ausführen
Um robust gegenüber ungesehenen Distractions zur Testzeit zu sein, kann das Modell per Prompting dazu gebracht werden, eingehende Beobachtungen als noisy observation zu behandeln
- Als Beispiel wird eine Distraction-Methode verwendet, bei der zufällig Einkaufstaschen ins Sichtfeld geworfen werden

Update 2025: Scaling Up Diffusion Forcing

Im Update von 2025 wird das State-of-the-Art-Modell Wan2.1-T2V-1.3B nur für 20k Steps und 49 Frames finetuned
Anschließend werden per 5-fachem Rollout stabil bis zu 217 Frames generiert
Die Folgearbeit ist unter History-Guided Video Diffusion zu finden
Die Beispielvideos umfassen unter anderem Wellen bei Sonnenuntergang, einen Affen auf einem Felsen, einen Hund, der sich schlafen legt, eine Luftaufnahme eines tropischen Strands, eine Surf-Szene und eine Fahrradfahrt bergauf

Künftige Forschungsrichtungen

Conditioning
- Beim Skalieren auf lange Sequenzen wird häufig ersetzungsbasierte Konditionierung verwendet
- Johnathan Hos „Video Diffusion Models“ diskutiert, warum dieser Ansatz falsch ist
- Diffusion Forcing bietet eine natürlichere Konditionierung, bei der Context Tokens clean und Future Tokens noisy behandelt werden; dieser Teil wurde jedoch nicht im Detail untersucht
Noise as masking
- Dieser Ansatz erreicht kein binäres Masking, sondern ein fractional masking von Tokens
- Er ist so allgemein, dass er auch in selbstüberwachte Lernmethoden wie MAE integriert werden kann
- Das Hinzufügen von Rauschen hat eine interessante Interpretation im Frequency Domain
Compositionality
- Das Paper zeigt, dass sich Compositionality durch Kontrolle der History Length erreichen lässt
- Mit noise as masking könnte das Modell möglicherweise selbst entscheiden, wann es unnötige History ignoriert und nur auf einen kürzeren Horizon konditioniert
Non-causal version
- In diesem Paper wird wegen der Bedeutung von Kausalität bei der Entscheidungsfindung causal Diffusion Forcing verwendet
- Die Idee von noise as masking ist auch auf non-causal Modelle anwendbar
- Wenn Entries, die die Vorhersage nicht sehen sollte, mit pure Gaussian noise maskiert werden, kann eine non-causal Version trainiert und beim Sampling causal gemacht werden
Alternative Guidance
- Im vorgeschlagenen Framework für Entscheidungsfindung wird Guidance auf die Observation angewendet, um näher an der Diffuser-Konfiguration zu bleiben
- Eine Version, die Guidance auf einen learned reward anwendet, wurde ebenfalls vorgeschlagen, im Paper aber nicht untersucht
Noise scheme
- Unabhängige Rauschpegel pro Token wurden auf Allgemeinheit ausgelegt, sind aber nicht für alle Aufgaben optimal
- Wenn Daten entlang der Zeitachse sehr lokal korreliert sind, kann zu viel Redundanz erhalten bleiben
- Dies kann das gesamte signal-to-noise ratio beeinflussen
Next few token prediction
- Next few token prediction wurde nur in den Planning-Experimenten verwendet; die Videoexperimente bleiben weiterhin beim Next-Token-Ansatz
- In der RNN-Version funktionierte es nicht besonders gut, im Transformer-Code dagegen sehr gut
- Wenn „few“ in causal models sehr groß ist, kann next few token prediction Inkonsistenzen erzeugen
- In non-causal models tritt dieses Phänomen weniger auf
Latent & DiT version
- Nach dem Release wurde eine 3D-U-Net-Version von Diffusion Forcing veröffentlicht
- Diffusion Forcing ist auch auf causal oder non-causal DiT anwendbar
- Das Stabilisierungsschema passt in einem Latent Space mit VAE natürlicher
- Pixel corruption ist nicht zwingend Gaussian, die Corruption eines VAE-Latents kann Gaussian aber näherkommen

Zitierinformationen

@article{chen2025diffusion,
  title={Diffusion forcing: Next-token prediction meets full-sequence diffusion},
  author={Chen, Boyuan and Mart{\'\i} Mons{\'o}, Diego and Du, Yilun and Simchowitz, Max and Tedrake, Russ and Sitzmann, Vincent},
  journal={Advances in Neural Information Processing Systems},
  volume={37},
  pages={24081--24125},
  year={2025}
}

Diffusion Forcing: Wenn Next-Token Prediction auf Full-Sequence Diffusion trifft

Kernstruktur von Diffusion Forcing

Tokenweises Rauschen und „Noise as Masking“

Theoretische Eigenschaften

Ergebnisse bei der Videovorhersage

Lange Video-Rollouts über die Trainingslänge hinaus

Diffusion Planning

Long-Horizon Imitation Learning

Update 2025: Scaling Up Diffusion Forcing

Künftige Forschungsrichtungen

Conditioning

Noise as masking

Compositionality

Non-causal version

Alternative Guidance

Noise scheme

Next few token prediction

Latent & DiT version

Zitierinformationen

1 Kommentare

Meinungen auf Hacker News

Diffusion Forcing: Wenn Next-Token Prediction auf Full-Sequence Diffusion trifft

Kernstruktur von Diffusion Forcing

Tokenweises Rauschen und „Noise as Masking“

Theoretische Eigenschaften

Ergebnisse bei der Videovorhersage

Lange Video-Rollouts über die Trainingslänge hinaus

Diffusion Planning

Long-Horizon Imitation Learning

Update 2025: Scaling Up Diffusion Forcing

Künftige Forschungsrichtungen

Conditioning

Noise as masking

Compositionality

Non-causal version

Alternative Guidance

Noise scheme

Next few token prediction

Latent & DiT version

Zitierinformationen

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News