- LDM ermöglicht die Synthese hochauflösender Bilder mit geringem Rechenaufwand, indem ein Diffusion Model in einem komprimierten niedrigdimensionalen Latent-Raum trainiert wird
- Ein Paper von NVIDIA, das dieses LDM auf hochauflösende Videos anwendet
- Das LDM wird für Bilder vortrainiert und anschließend um die temporale Dimension erweitert; durch Feintuning der codierten Bildsequenzen wird der Bildgenerator in einen Videogenerator umgewandelt
- Durch Alignment des Diffusion-Model-Upsamplers wird es zu einem zeitlich konsistenten Super-Resolution-Videomodell
Noch keine Kommentare.