2 Punkte von GN⁺ 2025-04-21 | 1 Kommentare | Auf WhatsApp teilen
  • Eine Studie darüber, wie in Next-Frame-Prediction-Modellen für die Videogenerierung der Kontext von Eingabeframes gepackt werden kann
  • FramePack ist eine Methode, die das GPU-Speicherlayout optimiert, um Frame-Vorhersage effizient durchzuführen
  • Je nach Wichtigkeit der Frames werden GPU-Ressourcen zugewiesen, wodurch die Rechenkomplexität auf O(1) reduziert wird
  • Zur Lösung des Drifting-Problems wird bidirektionales Sampling vorgeschlagen
  • Hervorgehoben wird eine invertierte Anti-Drifting-Sampling-Methode, die beim Image-to-Video-Verfahren den ersten Frame besonders wichtig behandelt

Packing von Eingabeframes in der Videogenerierung

  • Next-Frame-Prediction-Modelle erzeugen neue Frames, indem sie mehrere Eingabeframes verwenden
  • FramePack kodiert Eingabeframes passend zum GPU-Speicherlayout und ermöglicht so eine effiziente Frame-Erzeugung
  • Jeder Frame wird mit einem Patchifying-Kernel kodiert, wobei die Kontextlänge je nach Wichtigkeit angepasst wird
  • Zum Beispiel wird in HunyuanVideo ein 480p-Frame mit einem Patchifying-Kernel von (1, 2, 2) zu 1536 Tokens, mit einem Patchifying-Kernel von (2, 4, 4) zu 192 Tokens

Frame-Wichtigkeit und Scheduling

  • Wichtige Frames erhalten mehr GPU-Ressourcen
  • Durch verschiedene Kompressionsmuster kann der Startframe durchgängig gleich wichtig gemacht werden
  • Sämtliches Scheduling hat eine O(1)-Komplexität
  • Das Paper liefert eine detaillierte Auswertung mehrerer Scheduling-Methoden

Drifting-Problem und Lösungsansätze

  • Drifting ist das Problem, dass die Qualität mit zunehmender Videolänge nachlässt
  • Es wird auch Fehlerakkumulation oder Exposure Bias genannt
  • Um dies zu lösen, wird die Kausalität aufgebrochen und bidirektionales Sampling eingeführt
  • Invertiertes Anti-Drifting-Sampling verwendet bei jeder Inferenz den ersten Frame als approximatives Ziel

Leistung bei Image-to-Video

  • Auf einem RTX 3060 6GB-Notebook wurden mit der 13B-HY-Variante Image-to-5-Second- und Image-to-60-Second-Videos erzeugt
  • Die Ergebnisse wurden mit h264crf18 komprimiert und an das GitHub-Repository angepasst

1 Kommentare

 
GN⁺ 2025-04-21
Hacker-News-Kommentar
  • Dieser Typ ist ein Genie. Für alle, die nicht wissen, dass er auch ControlNet entwickelt hat: Das ist das erste brauchbare Videogenerierungsmodell, das auf Consumer-Hardware läuft. Auf Pose-Support von ControlNet kann man sich wohl bald ebenfalls freuen.
    • Lustigerweise scheint dieses Modell wirklich zu wollen, dass Menschen tanzen. Sogar eine Person, die für ein Interview sitzt, fängt im Sitzen an zu tanzen.
    • Die Beispiele sind ziemlich beeindruckend, und die Ressourcen, die zur Erzeugung verwendet wurden, sind nahezu vernachlässigbar. Es sieht so aus, als wäre Inferenz sogar auf Consumer-Hardware der vorherigen Generation möglich. Ich würde auch gern Statistiken zum Inferenzdurchsatz auf einer 5090 sehen.
    • Könnte man das auch räumlich machen? Also zum Beispiel von oben nach unten generieren, statt ein Bild auf einmal zu erzeugen?
    • Könnte dieses Modell statt für Videoextrapolation auch für Interpolation verwendet werden?
    • Erstaunlich. Könnte es mit mehr RAM oder etwas anderem noch schneller werden? Wäre auf einer H100 oder H200 noch mehr Geschwindigkeit drin?
    • Es sieht so aus, als wäre die einzige Bewegung, die dieses Modell beherrscht, Tanzen.