1 Punkte von GN⁺ 2024-07-06 | 1 Kommentare | Auf WhatsApp teilen

Diffusion Forcing

Einführung in Diffusion Forcing

  • „Diffusion Forcing“ ist ein Name, der sich von „teacher forcing“ und „diffusion models“ ableitet
  • Diffusion Forcing kann die wichtigsten Stärken von Next-Token-Vorhersagemodellen und Full-Sequence-Diffusionsmodellen zugleich nutzen
  • Mit einem einzigen Training kann es bei verschiedenen Sampling-Zeitpunkten flexibel arbeiten

Funktionsweise von Diffusion Forcing

  • Es trainiert Sequenzdiffusion, wendet jedoch auf jedes Token ein anderes Rauschlevel an
  • Das Rauschen der Diffusion kann als Maskierung in verschiedenen Abstufungen betrachtet werden
  • Beim Sampling lässt sich durch unterschiedliche Rauschlevel über die gesamte Sequenz hinweg ein flexibles Verhalten erreichen

Videovorhersage

  • Videovorhersage mit Diffusion Forcing liefert stabile und konsistente Ergebnisse
  • Auf den Datensätzen DMLab und Minecraft zeigt Diffusion Forcing eine bessere Leistung als bestehende Methoden

Stabilisierung unendlicher Rollouts ohne Sliding Window

  • Diffusion Forcing kann Videos ausrollen, die deutlich länger sind als die maximale Sequenzlänge im Training
  • Es kann ein RNN ohne Sliding Window ausrollen
  • Auf den Datensätzen DMLab und Minecraft sind Rollouts von mehr als 2000 Frames möglich

Diffusion Planning

  • Diffusion Forcing kann beim Testen mithilfe von Guidance als Planer eingesetzt werden
  • Jedes Token wird als [a_t, o_{t+1}] definiert, um Kausalität explizit zu modellieren
  • Nach neuen Beobachtungen kann es durch posterior inference aktualisiert werden

Langfristiges Imitationslernen

  • Viele reale Aufgaben besitzen keine Markov-Eigenschaft und erfordern Langzeitgedächtnis
  • Bei der Aufgabe, in der ein Roboterarm zwei Obst-Slots vertauscht, wurden erfolgreiche Ergebnisse erzielt
  • Diffusion Forcing kann beim Testen robust gegenüber Störfaktoren arbeiten, die während des Trainings nicht gesehen wurden

Meinung von GN⁺

  • Diffusion Forcing kombiniert die Vorteile von Next-Token-Vorhersagemodellen und Full-Sequence-Diffusionsmodellen und ermöglicht dadurch flexibles Sampling
  • Bei Videovorhersage und Rollouts zeigt es bessere Leistung als bisherige Methoden, was die praktischen Einsatzmöglichkeiten erhöht
  • Der Erfolg beim langfristigen Imitationslernen zeigt die starke Fähigkeit von Diffusion Forcing zur Feedback-Kontrolle
  • Der Stabilisierungseffekt von Diffusion Forcing erhöht seine Einsetzbarkeit über verschiedene Sequenzlängen hinweg
  • Bei der Einführung neuer Technologien sollten die Modellkomplexität und die Rechenkosten berücksichtigt werden

1 Kommentare

 
GN⁺ 2024-07-06
Hacker-News-Kommentare
  • Es wird ein neuer Ansatz vorgeschlagen, der die Idee der Sequenzmaskierung mit Diffusionsmodellen kombiniert

    • Der Grad der „Unsicherheit“ jedes Pixels wird verfolgt und als „Rausch“-Level des Diffusionsmodells verwendet
    • Bestimmte Teile eines Bildes können zuerst festgelegt werden, was sich etwa zum Lösen von Labyrinthen nutzen lässt
    • Wurde auch zur Steuerung eines Roboterarms verwendet
    • Der Titel verkauft die Idee unter Wert; im Grunde ist es eine Methode für „fractional masking“
    • Es gibt viele Fragen zur Codebasis: wie die Aufgaben für Maze-Tracking und Video-Erweiterung eingerichtet werden, wie der Roboterarm angebunden wird usw.
    • Die Architektur selbst braucht weitere Forschung und Erklärung
  • Ich frage mich, ob jemand Forschung oder Tools kennt, mit denen sich bestehende textgenerierende LLMs ohne neues Pretraining mit Diffusionstechniken kombinieren lassen

    • Es gibt ähnliche Ansätze wie Tree of Thoughts und MCTS, aber ich suche etwas, das näher an der Generierung auf Token-Ebene liegt
    • Ich frage mich, ob das mit kleinen GPT- / Phi 3- / Gwen-Modellen funktionieren könnte
  • Russ beschäftigt sich mit Diffusion; es scheint sehr gut auf Robotik anwendbar zu sein

  • Als jemand, der in diesem Bereich arbeitet, finde ich, dass die Forschung sehr schwer verständlich präsentiert wurde

    • Ich frage mich, welches Problem eigentlich gelöst werden soll und ob hier ein neues generatives Modell vorgeschlagen wird
  • Ich frage mich, ob ich etwas zur Trainingszeit übersehen habe; führt das Hinzufügen von Rauschen pro Token zu einer deutlichen Verlangsamung des Trainings?

    • Tolle Arbeit
  • Sehr coole Forschung, aber ich frage mich, warum es „Diffusion Forcing“ genannt wird