SnapFusion – ein Text-zu-Bild-Diffusionsmodell, das auf mobilen Geräten in nur 2 Sekunden erzeugen kann

xguru · 2023-06-14T11:17:02+09:00

Erreicht durch eine effiziente Netzwerkarchitektur und verbesserte schrittweise Distillation Stellt ein effizientes UNet vor, das Redundanzen im Originalmodell identifiziert und den Rechenaufwand des Bilddecoders durch Datendestillation reduziert In Experimenten mit MS-COCO erzielte das SnapFusion-Modell mit nur 8 Entrauschungsschritten bessere FID- und CLIP-Werte als Stable Diffusion v1.5 mit 50 Schritten

(snap-research.github.io)

9 Punkte von xguru 2023-06-14 | 1 Kommentare | Auf WhatsApp teilen

Erreicht durch eine effiziente Netzwerkarchitektur und verbesserte schrittweise Distillation
Stellt ein effizientes UNet vor, das Redundanzen im Originalmodell identifiziert und den Rechenaufwand des Bilddecoders durch Datendestillation reduziert
In Experimenten mit MS-COCO erzielte das SnapFusion-Modell mit nur 8 Entrauschungsschritten bessere FID- und CLIP-Werte als Stable Diffusion v1.5 mit 50 Schritten

1 Kommentare

xguru 2023-06-14

Das ist ein von Snapchat veröffentlichtes Paper, aber der Code wurde noch nicht offengelegt ... In den Kommentaren streiten sie sich bereits darüber, ob das wirklich möglich ist. https://news.ycombinator.com/item?id=36304716
Zumindest läuft das Demo-Video im Flugmodus.

SnapFusion – ein Text-zu-Bild-Diffusionsmodell, das auf mobilen Geräten in nur 2 Sekunden erzeugen kann

Verwandte Beiträge

1 Kommentare