VideoLDM – Hochauflösende Text-zu-Video-Synthese mit einem Latent Diffusion Model

xguru · 2023-04-22T10:18:01+09:00

LDM ermöglicht die Synthese hochauflösender Bilder mit geringem Rechenaufwand, indem ein Diffusion Model in einem komprimierten niedrigdimensionalen Latent-Raum trainiert wird Ein Paper von NVIDIA, das dieses LDM auf hochauflösende Videos anwendet Das LDM wird für Bilder vortrainiert und anschließend um die temporale Dimension erweitert; durch Feintuning der codierten Bildsequenzen wird der Bildgenerator in einen Videogenerator umgewandelt Durch Alignment des Diffusion-Model-Upsamplers wird es zu einem zeitlich konsistenten Super-Resolution-Videomodell

(research.nvidia.com)

7 Punkte von xguru 2023-04-22 | Noch keine Kommentare. | Auf WhatsApp teilen

LDM ermöglicht die Synthese hochauflösender Bilder mit geringem Rechenaufwand, indem ein Diffusion Model in einem komprimierten niedrigdimensionalen Latent-Raum trainiert wird
Ein Paper von NVIDIA, das dieses LDM auf hochauflösende Videos anwendet
Das LDM wird für Bilder vortrainiert und anschließend um die temporale Dimension erweitert; durch Feintuning der codierten Bildsequenzen wird der Bildgenerator in einen Videogenerator umgewandelt
Durch Alignment des Diffusion-Model-Upsamplers wird es zu einem zeitlich konsistenten Super-Resolution-Videomodell

VideoLDM – Hochauflösende Text-zu-Video-Synthese mit einem Latent Diffusion Model

Verwandte Beiträge

Noch keine Kommentare.