- Eine Forschungsarbeit wurde veröffentlicht, die die Technologien hinter Stable Diffusion 3 eingehend untersucht
- SD3 übertrifft auf Basis menschlicher Präferenzbewertungen moderne Text-zu-Bild-Generierungssysteme wie DALL·E 3, Midjourney v6 und Ideogram v1 bei Typografie und Prompt-Treue
- Die neue Architektur Multimodal Diffusion Transformer (MMDiT) verbessert im Vergleich zu früheren SD3-Versionen das Textverständnis und die Rechtschreibfähigkeit, indem sie getrennte Gewichtungssätze für Bild- und Sprachrepräsentationen verwendet
Leistung
- Die Leistung wurde anhand menschlichen Feedbacks bewertet, indem die von Stable Diffusion 3 erzeugten Bilder mit verschiedenen offenen Modellen wie SDXL, SDXL Turbo, Stable Cascade, Playground v2.5 und Pixart-α sowie mit Closed-Source-Systemen wie DALL·E 3, Midjourney v6 und Ideogram v1 verglichen wurden
- Die Testergebnisse zeigen, dass Stable Diffusion 3 in allen oben genannten Bereichen mit den aktuellen modernsten Text-zu-Bild-Generierungssystemen gleichzieht oder sie übertrifft
- In frühen, nicht optimierten Inferenztests verfügt das größte SD3-Modell über 8B Parameter, passt in die 24 GB VRAM einer RTX 4090 und benötigt bei 50 Sampling-Schritten 34 Sekunden zur Erzeugung eines Bildes mit 1024x1024 Auflösung
- Zum ersten Release wird es verschiedene Stable-Diffusion-3-Varianten von 800M bis 8B Parametern geben, was die Hardware-Hürde weiter senkt
Architekturdetails
- Für die Text-zu-Bild-Generierung muss das Modell beide Modalitäten, also Text und Bild, berücksichtigen
- Diese neue Architektur wird MMDiT genannt, was sich auf ihre Fähigkeit bezieht, verschiedene Modalitäten zu verarbeiten
- Wie bei früheren Versionen von Stable Diffusion werden vortrainierte Modelle verwendet, um geeignete Text- und Bildrepräsentationen abzuleiten
- Da Text- und Bild-Embeddings konzeptionell sehr unterschiedlich sind, werden für beide Modalitäten getrennte Gewichtungssätze verwendet
- Durch diesen Ansatz kann Information zwischen Bild- und Text-Token fließen, was das Gesamtverständnis und die Typografie der Ausgaben verbessert
- Diese Architektur lässt sich leicht auf multimodale Anwendungen wie Video erweitern
Verbesserung von Rectified Flows durch Reweighting
- Stable Diffusion 3 verwendet während des Trainings die Rectified-Flow-(RF)-Formulierung, die Daten und Rauschen über lineare Trajektorien verbindet
- Dadurch entstehen geradlinigere Inferenzpfade, was Sampling mit weniger Schritten ermöglicht
- Zudem wurde im Trainingsprozess ein neuer Zeitplan für das Sampling der Trajektorien eingeführt, der dem mittleren Abschnitt der Trajektorie mehr Gewicht gibt
- Tests im Vergleich zu anderen Diffusionstrajektorien zeigen, dass die frühere RF-Formulierung die Leistung bei Sampling mit wenigen Schritten verbessert, bei mehr Schritten jedoch relativ an Leistung verliert
- Die neu gewichtete RF-Variante verbessert die Leistung dagegen durchgängig
Skalierung des Rectified-Flow-Transformer-Modells
- Mit der neu gewichteten Rectified-Flow-Formulierung und dem MMDiT-Backbone wurde eine Skalierungsstudie für die Text-zu-Bild-Synthese durchgeführt
- Es wurde ein gleichmäßiger Rückgang des Validierungsverlusts sowohl in Bezug auf die Modellgröße als auch auf die Trainingsschritte beobachtet
- Um zu prüfen, ob sich dies in sinnvolle Verbesserungen der Modellausgaben übersetzt, wurden automatische Metriken zur Bildausrichtung (GenEval) und menschliche Präferenzwerte (ELO) ausgewertet
- Die Ergebnisse zeigen eine starke Korrelation zwischen diesen Metriken und dem Validierungsverlust
- Die Skalierungstrends zeigen keine Anzeichen von Sättigung, was einen optimistischen Ausblick darauf gibt, dass sich die Modellleistung künftig weiter verbessern lässt
Flexible Text-Encoder
- Für die Inferenz können die Speicheranforderungen von SD3 deutlich reduziert werden, indem der speicherintensive T5-Text-Encoder mit 4,7B Parametern entfernt wird, bei nur minimalem Leistungsverlust
- Das Entfernen dieses Text-Encoders beeinflusst die visuelle Ästhetik nicht (Gewinnrate nach Entfernung: 50 %), reduziert jedoch die Texttreue leicht (Gewinnrate 46 %)
- Für die volle Leistungsfähigkeit von SD3 bei der Generierung von Text wird jedoch empfohlen, T5 beizubehalten
1 Kommentare
Hacker-News-Kommentare
Das Engagement von Stability AI für Open Source ist sehr interessant, und ich hoffe, dass sie so lange wie möglich durchhalten.
Das Text-Rendering von Stable Diffusion 3 ist beeindruckend, aber der Text hat immer noch dieses typische, übermäßig bearbeitete Aussehen.
Frage, ob SD3 herunterladbar ist.
Es ist sehr interessant, dass Bildgeneratoren endlich anfangen, Rechtschreibung korrekt umzusetzen.
Die Ankündigung von SD3 ist sehr spannend.
Die Verbesserung beim Text-Rendering in SD3 ist gut, aber Hände und Finger zu erzeugen, ist immer noch schwierig.
Diese Architektur ist flexibel genug, um sich leicht auf Video zu erweitern.
Viele Unternehmen, die sich einst „Open“ verschrieben hatten oder früher offen waren, werden zunehmend geschlossener.
Im Gegensatz zu Stability AI ist OpenAI das verschlossenste KI-Forschungslabor.