Stable Diffusion – Open-Source-Text-to-Image ähnlich wie DALL-E
(github.com/CompVis)- Latent-Diffusion-Modell, trainiert auf 512x512-Bildern aus der LAION-5B-Datenbank
- Verwendet ähnlich wie Googles Imagen den Text-Encoder CLIP ViT-L/14
- Dank geringem Ressourcenbedarf läuft es auch auf einer einzelnen GPU mit mehr als 10 GB VRAM
- Zusammenarbeit und Förderung durch Forschende von Stability AI und LAION
1 Kommentare
Bei Bereichen wie Illustrationen im Stil moderner Kunst sollen die Ergebnisse sogar besser sein als bei DALL-E 2 oder MidJourney.
Laut Aussagen im Entwickler-Discord läuft es auch auf M1-Macs.
Da die Hardware-Anforderungen gering sind, dürfte es vor allem den großen Vorteil haben, dass es von jedem leicht genutzt werden kann.
Natürlich ist es Open Source, aber derzeit ist der Zugang noch auf akademische Nutzung beschränkt.
Selbst einen KI-Bildgenerator wie DALL-E betreiben
Imagen - Googles Text-to-Image-Diffusionsmodell
LAION-400M - Datensatz mit 400 Millionen Bild-Text-Paaren