Diffusion Forcing
Einführung in Diffusion Forcing
- „Diffusion Forcing“ ist ein Name, der sich von „teacher forcing“ und „diffusion models“ ableitet
- Diffusion Forcing kann die wichtigsten Stärken von Next-Token-Vorhersagemodellen und Full-Sequence-Diffusionsmodellen zugleich nutzen
- Mit einem einzigen Training kann es bei verschiedenen Sampling-Zeitpunkten flexibel arbeiten
Funktionsweise von Diffusion Forcing
- Es trainiert Sequenzdiffusion, wendet jedoch auf jedes Token ein anderes Rauschlevel an
- Das Rauschen der Diffusion kann als Maskierung in verschiedenen Abstufungen betrachtet werden
- Beim Sampling lässt sich durch unterschiedliche Rauschlevel über die gesamte Sequenz hinweg ein flexibles Verhalten erreichen
Videovorhersage
- Videovorhersage mit Diffusion Forcing liefert stabile und konsistente Ergebnisse
- Auf den Datensätzen DMLab und Minecraft zeigt Diffusion Forcing eine bessere Leistung als bestehende Methoden
Stabilisierung unendlicher Rollouts ohne Sliding Window
- Diffusion Forcing kann Videos ausrollen, die deutlich länger sind als die maximale Sequenzlänge im Training
- Es kann ein RNN ohne Sliding Window ausrollen
- Auf den Datensätzen DMLab und Minecraft sind Rollouts von mehr als 2000 Frames möglich
Diffusion Planning
- Diffusion Forcing kann beim Testen mithilfe von Guidance als Planer eingesetzt werden
- Jedes Token wird als [a_t, o_{t+1}] definiert, um Kausalität explizit zu modellieren
- Nach neuen Beobachtungen kann es durch posterior inference aktualisiert werden
Langfristiges Imitationslernen
- Viele reale Aufgaben besitzen keine Markov-Eigenschaft und erfordern Langzeitgedächtnis
- Bei der Aufgabe, in der ein Roboterarm zwei Obst-Slots vertauscht, wurden erfolgreiche Ergebnisse erzielt
- Diffusion Forcing kann beim Testen robust gegenüber Störfaktoren arbeiten, die während des Trainings nicht gesehen wurden
Meinung von GN⁺
- Diffusion Forcing kombiniert die Vorteile von Next-Token-Vorhersagemodellen und Full-Sequence-Diffusionsmodellen und ermöglicht dadurch flexibles Sampling
- Bei Videovorhersage und Rollouts zeigt es bessere Leistung als bisherige Methoden, was die praktischen Einsatzmöglichkeiten erhöht
- Der Erfolg beim langfristigen Imitationslernen zeigt die starke Fähigkeit von Diffusion Forcing zur Feedback-Kontrolle
- Der Stabilisierungseffekt von Diffusion Forcing erhöht seine Einsetzbarkeit über verschiedene Sequenzlängen hinweg
- Bei der Einführung neuer Technologien sollten die Modellkomplexität und die Rechenkosten berücksichtigt werden
1 Kommentare
Hacker-News-Kommentare
Es wird ein neuer Ansatz vorgeschlagen, der die Idee der Sequenzmaskierung mit Diffusionsmodellen kombiniert
Ich frage mich, ob jemand Forschung oder Tools kennt, mit denen sich bestehende textgenerierende LLMs ohne neues Pretraining mit Diffusionstechniken kombinieren lassen
Russ beschäftigt sich mit Diffusion; es scheint sehr gut auf Robotik anwendbar zu sein
Als jemand, der in diesem Bereich arbeitet, finde ich, dass die Forschung sehr schwer verständlich präsentiert wurde
Ich frage mich, ob ich etwas zur Trainingszeit übersehen habe; führt das Hinzufügen von Rauschen pro Token zu einer deutlichen Verlangsamung des Trainings?
Sehr coole Forschung, aber ich frage mich, warum es „Diffusion Forcing“ genannt wird