9 Punkte von xguru 2022-10-07 | 1 Kommentare | Auf WhatsApp teilen
  • Ein „Text-conditional Video Generation System“, das mit einem Video Diffusion Model aus Texteingaben Videos erzeugt
  • Erzeugt aus Text zunächst ein Video mit niedriger Auflösung (24x48 Pixel, 16 Frames, 3 fps) und skaliert dieses dann durch das Kaskadieren von sieben Diffusionsmodellen hoch
  • Die finale Ausgabe beträgt 1280x768 bei 24 fps. Es können Videos mit einer Länge von 5,3 Sekunden erzeugt werden
  • Paper: Imagen Video : High Definition Video Generation with Diffusion Models