Google stellt die Text-zu-Video-KI "Imagen Video" vor
(imagen.research.google)- Ein „Text-conditional Video Generation System“, das mit einem Video Diffusion Model aus Texteingaben Videos erzeugt
- Erzeugt aus Text zunächst ein Video mit niedriger Auflösung (24x48 Pixel, 16 Frames, 3 fps) und skaliert dieses dann durch das Kaskadieren von sieben Diffusionsmodellen hoch
- Die finale Ausgabe beträgt 1280x768 bei 24 fps. Es können Videos mit einer Länge von 5,3 Sekunden erzeugt werden
- Paper: Imagen Video : High Definition Video Generation with Diffusion Models
1 Kommentare
Imagen – Googles Text-to-Image-Diffusionsmodell
Imagen-pytorch – Googles Imagen in Pytorch implementiert
Make-A-Video: Eine KI, die Videos aus Text erzeugt