Forschungsarbeit zu Stable Diffusion 3 veröffentlicht

xguru · 2024-03-06T10:46:01+09:00

Eine Forschungsarbeit wurde veröffentlicht, die die Technologien hinter Stable Diffusion 3 eingehend untersucht SD3 übertrifft auf Basis menschlicher Präferenzbewertungen moderne Text-zu-Bild-Generierungssysteme wie DALL·E 3, Midjourney v6 und Ideogram v1 bei Typografie und Prompt-Treue Die neue Architektur Multimodal Diffusion Transformer (MMDiT) verbessert im Vergleich zu früheren SD3-Versionen das Textverständnis und die Rechtschreibfähigkeit, indem sie getrennte Gewichtungssätze für Bild- und Sprachrepräsentationen verwendet Leistung Die Leistung wurde anhand menschlichen Feedbacks bewertet, indem die von Stable Diffusion 3 erzeugten Bilder mit verschiedenen offenen Modellen wie SDXL, SDXL Turbo, Stable Cascade, Playground v2.5 und Pixart-α sowie mit Closed-Source-Systemen wie DALL·E 3, Midjourney v6 und Ideogram v1 verglichen wurden Die Testergebnisse zeigen, dass Stable Diffusion 3 in allen oben genannten Bereichen mit den aktuellen modernsten Text-zu-Bild-Generierungssystemen gleichzieht oder sie übertrifft In frühen, nicht optimierten Inferenztests verfügt das größte SD3-Modell über 8B Parameter, passt in die 24 GB VRAM einer RTX 4090 und benötigt bei 50 Sampling-Schritten 34 Sekunden zur Erzeugung eines Bildes mit 1024x1024 Auflösung Zum ersten Release wird es verschiedene Stable-Diffusion-3-Varianten von 800M bis 8B Parametern geben, was die Hardware-Hürde weiter senkt Architekturdetails Für die Text-zu-Bild-Generierung muss das Modell beide Modalitäten, also Text und Bild, berücksichtigen Diese neue Architektur wird MMDiT genannt, was sich auf ihre Fähigkeit bezieht, verschiedene Modalitäten zu verarbeiten Wie bei früheren Versionen von Stable Diffusion werden vortrainierte Modelle verwendet, um geeignete Text- und Bildrepräsentationen abzuleiten Da Text- und Bild-Embeddings konzeptionell sehr unterschiedlich sind, werden für beide Modalitäten getrennte Gewichtungssätze verwendet Durch diesen Ansatz kann Information zwischen Bild- und Text-Token fließen, was das Gesamtverständnis und die Typografie der Ausgaben verbessert Diese Architektur lässt sich leicht auf multimodale Anwendungen wie Video erweitern Verbesserung von Rectified Flows durch Reweighting Stable Diffusion 3 verwendet während des Trainings die Rectified-Flow-(RF)-Formulierung, die Daten und Rauschen über lineare Trajektorien verbindet Dadurch entstehen geradlinigere Inferenzpfade, was Sampling mit weniger Schritten ermöglicht Zudem wurde im Trainingsprozess ein neuer Zeitplan für das Sampling der Trajektorien eingeführt, der dem mittleren Abschnitt der Trajektorie mehr Gewicht gibt Tests im Vergleich zu anderen Diffusionstrajektorien zeigen, dass die frühere RF-Formulierung die Leistung bei Sampling mit wenigen Schritten verbessert, bei mehr Schritten jedoch relativ an Leistung verliert Die neu gewichtete RF-Variante verbessert die Leistung dagegen durchgängig Skalierung des Rectified-Flow-Transformer-Modells Mit der neu gewichteten Rectified-Flow-Formulierung und dem MMDiT-Backbone wurde eine Skalierungsstudie für die Text-zu-Bild-Synthese durchgeführt Es wurde ein gleichmäßiger Rückgang des Validierungsverlusts sowohl in Bezug auf die Modellgröße als auch auf die Trainingsschritte beobachtet Um zu prüfen, ob sich dies in sinnvolle Verbesserungen der Modellausgaben übersetzt, wurden automatische Metriken zur Bildausrichtung (GenEval) und menschliche Präferenzwerte (ELO) ausgewertet Die Ergebnisse zeigen eine starke Korrelation zwischen diesen Metriken und dem Validierungsverlust Die Skalierungstrends zeigen keine Anzeichen von Sättigung, was einen optimistischen Ausblick darauf gibt, dass sich die Modellleistung künftig weiter verbessern lässt Flexible Text-Encoder Für die Inferenz können die Speicheranforderungen von SD3 deutlich reduziert werden, indem der speicherintensive T5-Text-Encoder mit 4,7B Parametern entfernt wird, bei nur minimalem Leistungsverlust Das Entfernen dieses Text-Encoders beeinflusst die visuelle Ästhetik nicht (Gewinnrate nach Entfernung: 50 %), reduziert jedoch die Texttreue leicht (Gewinnrate 46 %) Für die volle Leistungsfähigkeit von SD3 bei der Generierung von Text wird jedoch empfohlen, T5 beizubehalten

(stability.ai)

13 Punkte von xguru 2024-03-06 | 1 Kommentare | Auf WhatsApp teilen

Eine Forschungsarbeit wurde veröffentlicht, die die Technologien hinter Stable Diffusion 3 eingehend untersucht
SD3 übertrifft auf Basis menschlicher Präferenzbewertungen moderne Text-zu-Bild-Generierungssysteme wie DALL·E 3, Midjourney v6 und Ideogram v1 bei Typografie und Prompt-Treue
Die neue Architektur Multimodal Diffusion Transformer (MMDiT) verbessert im Vergleich zu früheren SD3-Versionen das Textverständnis und die Rechtschreibfähigkeit, indem sie getrennte Gewichtungssätze für Bild- und Sprachrepräsentationen verwendet

Leistung

Die Leistung wurde anhand menschlichen Feedbacks bewertet, indem die von Stable Diffusion 3 erzeugten Bilder mit verschiedenen offenen Modellen wie SDXL, SDXL Turbo, Stable Cascade, Playground v2.5 und Pixart-α sowie mit Closed-Source-Systemen wie DALL·E 3, Midjourney v6 und Ideogram v1 verglichen wurden
Die Testergebnisse zeigen, dass Stable Diffusion 3 in allen oben genannten Bereichen mit den aktuellen modernsten Text-zu-Bild-Generierungssystemen gleichzieht oder sie übertrifft
In frühen, nicht optimierten Inferenztests verfügt das größte SD3-Modell über 8B Parameter, passt in die 24 GB VRAM einer RTX 4090 und benötigt bei 50 Sampling-Schritten 34 Sekunden zur Erzeugung eines Bildes mit 1024x1024 Auflösung
Zum ersten Release wird es verschiedene Stable-Diffusion-3-Varianten von 800M bis 8B Parametern geben, was die Hardware-Hürde weiter senkt

Architekturdetails

Für die Text-zu-Bild-Generierung muss das Modell beide Modalitäten, also Text und Bild, berücksichtigen
Diese neue Architektur wird MMDiT genannt, was sich auf ihre Fähigkeit bezieht, verschiedene Modalitäten zu verarbeiten
Wie bei früheren Versionen von Stable Diffusion werden vortrainierte Modelle verwendet, um geeignete Text- und Bildrepräsentationen abzuleiten
Da Text- und Bild-Embeddings konzeptionell sehr unterschiedlich sind, werden für beide Modalitäten getrennte Gewichtungssätze verwendet
Durch diesen Ansatz kann Information zwischen Bild- und Text-Token fließen, was das Gesamtverständnis und die Typografie der Ausgaben verbessert
Diese Architektur lässt sich leicht auf multimodale Anwendungen wie Video erweitern

Verbesserung von Rectified Flows durch Reweighting

Stable Diffusion 3 verwendet während des Trainings die Rectified-Flow-(RF)-Formulierung, die Daten und Rauschen über lineare Trajektorien verbindet
Dadurch entstehen geradlinigere Inferenzpfade, was Sampling mit weniger Schritten ermöglicht
Zudem wurde im Trainingsprozess ein neuer Zeitplan für das Sampling der Trajektorien eingeführt, der dem mittleren Abschnitt der Trajektorie mehr Gewicht gibt
Tests im Vergleich zu anderen Diffusionstrajektorien zeigen, dass die frühere RF-Formulierung die Leistung bei Sampling mit wenigen Schritten verbessert, bei mehr Schritten jedoch relativ an Leistung verliert
Die neu gewichtete RF-Variante verbessert die Leistung dagegen durchgängig

Skalierung des Rectified-Flow-Transformer-Modells

Mit der neu gewichteten Rectified-Flow-Formulierung und dem MMDiT-Backbone wurde eine Skalierungsstudie für die Text-zu-Bild-Synthese durchgeführt
Es wurde ein gleichmäßiger Rückgang des Validierungsverlusts sowohl in Bezug auf die Modellgröße als auch auf die Trainingsschritte beobachtet
Um zu prüfen, ob sich dies in sinnvolle Verbesserungen der Modellausgaben übersetzt, wurden automatische Metriken zur Bildausrichtung (GenEval) und menschliche Präferenzwerte (ELO) ausgewertet
Die Ergebnisse zeigen eine starke Korrelation zwischen diesen Metriken und dem Validierungsverlust
Die Skalierungstrends zeigen keine Anzeichen von Sättigung, was einen optimistischen Ausblick darauf gibt, dass sich die Modellleistung künftig weiter verbessern lässt

Flexible Text-Encoder

Für die Inferenz können die Speicheranforderungen von SD3 deutlich reduziert werden, indem der speicherintensive T5-Text-Encoder mit 4,7B Parametern entfernt wird, bei nur minimalem Leistungsverlust
Das Entfernen dieses Text-Encoders beeinflusst die visuelle Ästhetik nicht (Gewinnrate nach Entfernung: 50 %), reduziert jedoch die Texttreue leicht (Gewinnrate 46 %)
Für die volle Leistungsfähigkeit von SD3 bei der Generierung von Text wird jedoch empfohlen, T5 beizubehalten

1 Kommentare

xguru 2024-03-06

Hacker-News-Kommentare

Das Engagement von Stability AI für Open Source ist sehr interessant, und ich hoffe, dass sie so lange wie möglich durchhalten.
- Ich frage mich, ob Stable Diffusion 3 für Tokenisierung und Text-Embeddings immer noch CLIP von OpenAI verwendet.
- Ich nehme einfach an, dass dieser Teil der Modellarchitektur verbessert wurde, damit er besser zu Text- und Bild-Prompts passt.
Das Text-Rendering von Stable Diffusion 3 ist beeindruckend, aber der Text hat immer noch dieses typische, übermäßig bearbeitete Aussehen.
- Die Textfarbe ist immer auf einen einzigen Wert angehoben, sodass es so aussieht, als hätte man den Text amateurhaft einfach zu einem hochwertigen Bild hinzugefügt.
Frage, ob SD3 herunterladbar ist.
- Ich habe frühe Versionen von SD lokal ausgeführt, und das war sehr gut.
- Ich frage mich, ob es wie bei vielen LLMs, bei denen Self-Hosting vielversprechend wirkte, inzwischen zu SaaS geworden ist.
Es ist sehr interessant, dass Bildgeneratoren endlich anfangen, Rechtschreibung korrekt umzusetzen.
- Die Fähigkeit von DALL-E 3 zur korrekten Schreibweise wurde hervorgehoben, aber nach meinen Versuchen mit Bing ist sie inkonsistent.
- Ich würde gern eine weniger technische Erklärung darüber lesen, welchen Herausforderungen man bei der korrekten Schreibweise begegnet und warum.
- Ich frage mich, ob SD3 Textprobleme in älteren Bildern bereinigen oder korrigieren kann.
Die Ankündigung von SD3 ist sehr spannend.
- Das Paper enthält viel mehr Details als der Blog.
- Die Kernaussage des Papers ist, dass die Architektur einen ausdrucksstärkeren Text-Encoder aufnehmen kann und dass das bei komplexen Szenen hilft.
- Da man trainingstechnisch bei diesem Stack offenbar noch nicht an die Grenzen gestoßen ist, erwarte ich, dass SD3.1 weitere Verbesserungen bringt, und vermute, dass SD4 mehr Frontend-Encoding für Videoverarbeitung hinzufügen könnte.
Die Verbesserung beim Text-Rendering in SD3 ist gut, aber Hände und Finger zu erzeugen, ist immer noch schwierig.
- In den Beispielbildern sind keine menschlichen Hände zu sehen, außer bei dem verpixelten Zauberer, und die Affenhände wirken etwas seltsam.
Diese Architektur ist flexibel genug, um sich leicht auf Video zu erweitern.
- Ich erwarte, dass sie zu einem weiteren „Fundamental“-Baustein wird, ähnlich den Transformer-Blöcken von LLaMA.
- Sie ist allgemein genug, um Text-Encoding/Zeitschritt-Konditionierung auf verschiedene Weise in den Block zu integrieren.
- Abgesehen davon, mit Positions-Encoding (2D RoPE?) herumzuspielen, bleibt kaum noch etwas zu tun.
- Transformer weiter skalieren und sich auf Quantisierung/Optimierung konzentrieren, damit dieser Stack überall ordentlich läuft.
Viele Unternehmen, die sich einst „Open“ verschrieben hatten oder früher offen waren, werden zunehmend geschlossener.
- Ich schätze es, dass Stability AI solche Forschungspapiere veröffentlicht.
Im Gegensatz zu Stability AI ist OpenAI das verschlossenste KI-Forschungslabor.
- Sogar Deep Mind veröffentlicht mehr Papers.
- Ich frage mich, ob es bei OpenAI intern jemanden gibt, der öffentlich sagt: „Wir sind wegen des Geldes hier!“
- Der Brief, den SamA kürzlich über Elons Gerichtsverfahren geschrieben hat, ist ungefähr so wahrheitsgetreu wie Putins Behauptung, er invadiere die Ukraine, um sie zu „entnazifizieren“.