SnapFusion – ein Text-zu-Bild-Diffusionsmodell, das auf mobilen Geräten in nur 2 Sekunden erzeugen kann
(snap-research.github.io)- Erreicht durch eine effiziente Netzwerkarchitektur und verbesserte schrittweise Distillation
- Stellt ein effizientes UNet vor, das Redundanzen im Originalmodell identifiziert und den Rechenaufwand des Bilddecoders durch Datendestillation reduziert
- In Experimenten mit MS-COCO erzielte das SnapFusion-Modell mit nur 8 Entrauschungsschritten bessere FID- und CLIP-Werte als Stable Diffusion v1.5 mit 50 Schritten
1 Kommentare
Das ist ein von Snapchat veröffentlichtes Paper, aber der Code wurde noch nicht offengelegt ... In den Kommentaren streiten sie sich bereits darüber, ob das wirklich möglich ist. https://news.ycombinator.com/item?id=36304716
Zumindest läuft das Demo-Video im Flugmodus.