Stable Diffusion – Open-Source-Text-to-Image ähnlich wie DALL-E

xguru · 2022-08-16T10:07:51+09:00

Latent-Diffusion-Modell, trainiert auf 512x512-Bildern aus der LAION-5B-Datenbank Verwendet ähnlich wie Googles Imagen den Text-Encoder CLIP ViT-L/14 Dank geringem Ressourcenbedarf läuft es auch auf einer einzelnen GPU mit mehr als 10 GB VRAM Zusammenarbeit und Förderung durch Forschende von Stability AI und LAION

(github.com/CompVis)

11 Punkte von xguru 2022-08-16 | 1 Kommentare | Auf WhatsApp teilen

Latent-Diffusion-Modell, trainiert auf 512x512-Bildern aus der LAION-5B-Datenbank
Verwendet ähnlich wie Googles Imagen den Text-Encoder CLIP ViT-L/14
Dank geringem Ressourcenbedarf läuft es auch auf einer einzelnen GPU mit mehr als 10 GB VRAM
Zusammenarbeit und Förderung durch Forschende von Stability AI und LAION

1 Kommentare

xguru 2022-08-16

Bei Bereichen wie Illustrationen im Stil moderner Kunst sollen die Ergebnisse sogar besser sein als bei DALL-E 2 oder MidJourney.
Laut Aussagen im Entwickler-Discord läuft es auch auf M1-Macs.
Da die Hardware-Anforderungen gering sind, dürfte es vor allem den großen Vorteil haben, dass es von jedem leicht genutzt werden kann.
Natürlich ist es Open Source, aber derzeit ist der Zugang noch auf akademische Nutzung beschränkt.

Selbst einen KI-Bildgenerator wie DALL-E betreiben
Imagen - Googles Text-to-Image-Diffusionsmodell
LAION-400M - Datensatz mit 400 Millionen Bild-Text-Paaren

Stable Diffusion – Open-Source-Text-to-Image ähnlich wie DALL-E

Verwandte Beiträge

1 Kommentare