Stable Diffusion 3.5 veröffentlicht

xguru · 2024-10-24T11:26:01+09:00

Enthält mehrere Modellversionen, die auf Consumer-Hardware ausgeführt werden können und sich flexibel anpassen lassen; für die meisten Anwendungsfälle kostenlos nutzbar Die Modelle Stable Diffusion 3.5 Large und Stable Diffusion 3.5 Large Turbo können bei Hugging Face heruntergeladen werden, der Inferenz-Code bei GitHub Verfügbare Modelle Stable Diffusion 3.5 Large: Das Basismodell mit 8 Milliarden Parametern und das leistungsstärkste Modell der Stable-Diffusion-Familie. Ideal für professionelle Anwendungsfälle bei 1-Megapixel-Auflösung Stable Diffusion 3.5 Large Turbo: Eine destillierte Version von Stable Diffusion 3.5 Large, die in nur 4 Schritten hochwertige Bilder mit hervorragender Prompt-Treue erzeugt. Deutlich schneller als Stable Diffusion 3.5 Large Stable Diffusion 3.5 Medium (geplanter Release am 29. Oktober): Verfügt über 2,5 Milliarden Parameter und wurde mit einer verbesserten MMDiT-X-Architektur und Trainingsmethoden dafür entwickelt, direkt auf Consumer-Hardware zu laufen. Bietet eine Balance aus Qualität und einfacher Anpassbarkeit. Kann Bilder mit 0,25 bis 2 Megapixeln erzeugen Modellentwicklungsprozess Bei der Modellentwicklung wurde die Anpassbarkeit priorisiert, um eine flexible Grundlage zu schaffen Dafür wurde Query-Key Normalization in die Transformer-Blöcke integriert, um den Trainingsprozess zu stabilisieren und zusätzliches Fine-Tuning sowie weitere Entwicklung zu vereinfachen Um Downstream-Flexibilität zu unterstützen, waren einige Trade-offs erforderlich Bei identischem Prompt und unterschiedlichen Seeds kann die Variabilität der Ausgaben höher sein. Das ist beabsichtigt, um im Basismodell eine breitere Wissensbasis und vielfältigere Stile zu bewahren Prompts mit zu geringer Spezifität können jedoch die Unsicherheit der Ausgaben erhöhen, und das ästhetische Niveau kann variieren Beim Medium-Modell wurden Architektur und Trainingsprotokoll mehrfach angepasst, um Qualität, Konsistenz und die Fähigkeit zur Erzeugung mehrerer Auflösungen zu verbessern Vorteile von Stable Diffusion 3.5 Einfache Anpassung: Modelle lassen sich leicht für spezifische kreative Anforderungen feinabstimmen oder zum Aufbau von Anwendungen auf Basis individueller Workflows verwenden Effiziente Performance: Besonders Stable Diffusion 3.5 Medium und Stable Diffusion 3.5 Large Turbo sind für den Betrieb auf Standard-Consumer-Hardware ohne hohe Anforderungen optimiert Vielfältige Ausgaben: Kann auch ohne umfangreiches Prompting Bilder erzeugen, die Menschen aus aller Welt mit unterschiedlichen Hauttönen und Merkmalen repräsentieren Stable Diffusion 3.5 Large ist bei der Prompt-Treue marktführend und kann bei der Bildqualität mit deutlich größeren Modellen mithalten Stable Diffusion 3.5 Large Turbo bietet gemessen an seiner Größe eine der schnellsten Inferenzzeiten und bleibt dabei bei Bildqualität und Prompt-Treue sehr konkurrenzfähig Stable Diffusion 3.5 Medium übertrifft andere mittelgroße Modelle und liefert mit einer ausgewogenen Kombination aus Prompt-Treue und Bildqualität effiziente, hochwertige Performance Überblick über die Stability AI Community License Kostenlos für nichtkommerzielle Nutzung: Einzelpersonen und Organisationen können das Modell kostenlos für nichtkommerzielle Zwecke einschließlich wissenschaftlicher Forschung verwenden Kostenlos für kommerzielle Nutzung bei einem Jahresumsatz von bis zu 1 Million US-Dollar: Startups, kleine und mittlere Unternehmen sowie Kreative können das Modell kostenlos kommerziell nutzen, sofern ihr Jahresumsatz unter 1 Million US-Dollar liegt Eigentum an den Ausgaben: Es ist möglich, Eigentum an den generierten Medien zu behalten, ohne dass sich daraus ein eingeschränkter Lizenzcharakter ergibt Organisationen mit mehr als 1 Million US-Dollar Jahresumsatz können Stability AI für eine Enterprise-Lizenz kontaktieren So erhält man Zugriff auf die Modelle Die Modellgewichte sind derzeit bei Hugging Face für Self-Hosting verfügbar Zugriff auf die Modelle ist auch über Plattformen wie Stability AI API, Replicate, ComfyUI und DeepInfra möglich Stability AIs Engagement für Sicherheit Stability AI setzt auf sichere und verantwortungsvolle AI-Praktiken und ergreift bereits in frühen Entwicklungsphasen gezielte Maßnahmen, um Integrität sicherzustellen Es werden angemessene Maßnahmen ergriffen, um einen Missbrauch von Stable Diffusion 3.5 durch böswillige Akteure zu verhindern Ausblick Öffentliche Veröffentlichung von Stable Diffusion 3.5 Medium am 29. Oktober geplant Kurz darauf soll ControlNets mit erweiterten Steuerungsfunktionen für verschiedene professionelle Anwendungsfälle folgen

(stability.ai)

10 Punkte von xguru 2024-10-24 | Noch keine Kommentare. | Auf WhatsApp teilen

Enthält mehrere Modellversionen, die auf Consumer-Hardware ausgeführt werden können und sich flexibel anpassen lassen; für die meisten Anwendungsfälle kostenlos nutzbar
Die Modelle Stable Diffusion 3.5 Large und Stable Diffusion 3.5 Large Turbo können bei Hugging Face heruntergeladen werden, der Inferenz-Code bei GitHub
Verfügbare Modelle
- Stable Diffusion 3.5 Large: Das Basismodell mit 8 Milliarden Parametern und das leistungsstärkste Modell der Stable-Diffusion-Familie. Ideal für professionelle Anwendungsfälle bei 1-Megapixel-Auflösung
- Stable Diffusion 3.5 Large Turbo: Eine destillierte Version von Stable Diffusion 3.5 Large, die in nur 4 Schritten hochwertige Bilder mit hervorragender Prompt-Treue erzeugt. Deutlich schneller als Stable Diffusion 3.5 Large
- Stable Diffusion 3.5 Medium (geplanter Release am 29. Oktober): Verfügt über 2,5 Milliarden Parameter und wurde mit einer verbesserten MMDiT-X-Architektur und Trainingsmethoden dafür entwickelt, direkt auf Consumer-Hardware zu laufen. Bietet eine Balance aus Qualität und einfacher Anpassbarkeit. Kann Bilder mit 0,25 bis 2 Megapixeln erzeugen

Modellentwicklungsprozess

Bei der Modellentwicklung wurde die Anpassbarkeit priorisiert, um eine flexible Grundlage zu schaffen
Dafür wurde Query-Key Normalization in die Transformer-Blöcke integriert, um den Trainingsprozess zu stabilisieren und zusätzliches Fine-Tuning sowie weitere Entwicklung zu vereinfachen
Um Downstream-Flexibilität zu unterstützen, waren einige Trade-offs erforderlich
Bei identischem Prompt und unterschiedlichen Seeds kann die Variabilität der Ausgaben höher sein. Das ist beabsichtigt, um im Basismodell eine breitere Wissensbasis und vielfältigere Stile zu bewahren
Prompts mit zu geringer Spezifität können jedoch die Unsicherheit der Ausgaben erhöhen, und das ästhetische Niveau kann variieren
Beim Medium-Modell wurden Architektur und Trainingsprotokoll mehrfach angepasst, um Qualität, Konsistenz und die Fähigkeit zur Erzeugung mehrerer Auflösungen zu verbessern

Vorteile von Stable Diffusion 3.5

Einfache Anpassung: Modelle lassen sich leicht für spezifische kreative Anforderungen feinabstimmen oder zum Aufbau von Anwendungen auf Basis individueller Workflows verwenden
Effiziente Performance: Besonders Stable Diffusion 3.5 Medium und Stable Diffusion 3.5 Large Turbo sind für den Betrieb auf Standard-Consumer-Hardware ohne hohe Anforderungen optimiert
Vielfältige Ausgaben: Kann auch ohne umfangreiches Prompting Bilder erzeugen, die Menschen aus aller Welt mit unterschiedlichen Hauttönen und Merkmalen repräsentieren
Stable Diffusion 3.5 Large ist bei der Prompt-Treue marktführend und kann bei der Bildqualität mit deutlich größeren Modellen mithalten
Stable Diffusion 3.5 Large Turbo bietet gemessen an seiner Größe eine der schnellsten Inferenzzeiten und bleibt dabei bei Bildqualität und Prompt-Treue sehr konkurrenzfähig
Stable Diffusion 3.5 Medium übertrifft andere mittelgroße Modelle und liefert mit einer ausgewogenen Kombination aus Prompt-Treue und Bildqualität effiziente, hochwertige Performance

Überblick über die Stability AI Community License

Kostenlos für nichtkommerzielle Nutzung: Einzelpersonen und Organisationen können das Modell kostenlos für nichtkommerzielle Zwecke einschließlich wissenschaftlicher Forschung verwenden
Kostenlos für kommerzielle Nutzung bei einem Jahresumsatz von bis zu 1 Million US-Dollar: Startups, kleine und mittlere Unternehmen sowie Kreative können das Modell kostenlos kommerziell nutzen, sofern ihr Jahresumsatz unter 1 Million US-Dollar liegt
Eigentum an den Ausgaben: Es ist möglich, Eigentum an den generierten Medien zu behalten, ohne dass sich daraus ein eingeschränkter Lizenzcharakter ergibt
Organisationen mit mehr als 1 Million US-Dollar Jahresumsatz können Stability AI für eine Enterprise-Lizenz kontaktieren

So erhält man Zugriff auf die Modelle

Die Modellgewichte sind derzeit bei Hugging Face für Self-Hosting verfügbar
Zugriff auf die Modelle ist auch über Plattformen wie Stability AI API, Replicate, ComfyUI und DeepInfra möglich

Stability AIs Engagement für Sicherheit

Stability AI setzt auf sichere und verantwortungsvolle AI-Praktiken und ergreift bereits in frühen Entwicklungsphasen gezielte Maßnahmen, um Integrität sicherzustellen
Es werden angemessene Maßnahmen ergriffen, um einen Missbrauch von Stable Diffusion 3.5 durch böswillige Akteure zu verhindern

Ausblick

Öffentliche Veröffentlichung von Stable Diffusion 3.5 Medium am 29. Oktober geplant
Kurz darauf soll ControlNets mit erweiterten Steuerungsfunktionen für verschiedene professionelle Anwendungsfälle folgen