Google stellt die Text-zu-Video-KI "Imagen Video" vor

xguru · 2022-10-07T10:52:01+09:00

Ein „Text-conditional Video Generation System“, das mit einem Video Diffusion Model aus Texteingaben Videos erzeugt Erzeugt aus Text zunächst ein Video mit niedriger Auflösung (24x48 Pixel, 16 Frames, 3 fps) und skaliert dieses dann durch das Kaskadieren von sieben Diffusionsmodellen hoch Die finale Ausgabe beträgt 1280x768 bei 24 fps. Es können Videos mit einer Länge von 5,3 Sekunden erzeugt werden Paper: Imagen Video : High Definition Video Generation with Diffusion Models

(imagen.research.google)

9 Punkte von xguru 2022-10-07 | 1 Kommentare | Auf WhatsApp teilen

Ein „Text-conditional Video Generation System“, das mit einem Video Diffusion Model aus Texteingaben Videos erzeugt
Erzeugt aus Text zunächst ein Video mit niedriger Auflösung (24x48 Pixel, 16 Frames, 3 fps) und skaliert dieses dann durch das Kaskadieren von sieben Diffusionsmodellen hoch
Die finale Ausgabe beträgt 1280x768 bei 24 fps. Es können Videos mit einer Länge von 5,3 Sekunden erzeugt werden
Paper: Imagen Video : High Definition Video Generation with Diffusion Models

1 Kommentare

xguru 2022-10-07

Imagen – Googles Text-to-Image-Diffusionsmodell
Imagen-pytorch – Googles Imagen in Pytorch implementiert
Make-A-Video: Eine KI, die Videos aus Text erzeugt

Google stellt die Text-zu-Video-KI "Imagen Video" vor

Verwandte Beiträge

1 Kommentare