13 Punkte von xguru 2024-03-06 | 1 Kommentare | Auf WhatsApp teilen
  • Eine Forschungsarbeit wurde veröffentlicht, die die Technologien hinter Stable Diffusion 3 eingehend untersucht
  • SD3 übertrifft auf Basis menschlicher Präferenzbewertungen moderne Text-zu-Bild-Generierungssysteme wie DALL·E 3, Midjourney v6 und Ideogram v1 bei Typografie und Prompt-Treue
  • Die neue Architektur Multimodal Diffusion Transformer (MMDiT) verbessert im Vergleich zu früheren SD3-Versionen das Textverständnis und die Rechtschreibfähigkeit, indem sie getrennte Gewichtungssätze für Bild- und Sprachrepräsentationen verwendet

Leistung

  • Die Leistung wurde anhand menschlichen Feedbacks bewertet, indem die von Stable Diffusion 3 erzeugten Bilder mit verschiedenen offenen Modellen wie SDXL, SDXL Turbo, Stable Cascade, Playground v2.5 und Pixart-α sowie mit Closed-Source-Systemen wie DALL·E 3, Midjourney v6 und Ideogram v1 verglichen wurden
  • Die Testergebnisse zeigen, dass Stable Diffusion 3 in allen oben genannten Bereichen mit den aktuellen modernsten Text-zu-Bild-Generierungssystemen gleichzieht oder sie übertrifft
  • In frühen, nicht optimierten Inferenztests verfügt das größte SD3-Modell über 8B Parameter, passt in die 24 GB VRAM einer RTX 4090 und benötigt bei 50 Sampling-Schritten 34 Sekunden zur Erzeugung eines Bildes mit 1024x1024 Auflösung
  • Zum ersten Release wird es verschiedene Stable-Diffusion-3-Varianten von 800M bis 8B Parametern geben, was die Hardware-Hürde weiter senkt

Architekturdetails

  • Für die Text-zu-Bild-Generierung muss das Modell beide Modalitäten, also Text und Bild, berücksichtigen
  • Diese neue Architektur wird MMDiT genannt, was sich auf ihre Fähigkeit bezieht, verschiedene Modalitäten zu verarbeiten
  • Wie bei früheren Versionen von Stable Diffusion werden vortrainierte Modelle verwendet, um geeignete Text- und Bildrepräsentationen abzuleiten
  • Da Text- und Bild-Embeddings konzeptionell sehr unterschiedlich sind, werden für beide Modalitäten getrennte Gewichtungssätze verwendet
  • Durch diesen Ansatz kann Information zwischen Bild- und Text-Token fließen, was das Gesamtverständnis und die Typografie der Ausgaben verbessert
  • Diese Architektur lässt sich leicht auf multimodale Anwendungen wie Video erweitern

Verbesserung von Rectified Flows durch Reweighting

  • Stable Diffusion 3 verwendet während des Trainings die Rectified-Flow-(RF)-Formulierung, die Daten und Rauschen über lineare Trajektorien verbindet
  • Dadurch entstehen geradlinigere Inferenzpfade, was Sampling mit weniger Schritten ermöglicht
  • Zudem wurde im Trainingsprozess ein neuer Zeitplan für das Sampling der Trajektorien eingeführt, der dem mittleren Abschnitt der Trajektorie mehr Gewicht gibt
  • Tests im Vergleich zu anderen Diffusionstrajektorien zeigen, dass die frühere RF-Formulierung die Leistung bei Sampling mit wenigen Schritten verbessert, bei mehr Schritten jedoch relativ an Leistung verliert
  • Die neu gewichtete RF-Variante verbessert die Leistung dagegen durchgängig

Skalierung des Rectified-Flow-Transformer-Modells

  • Mit der neu gewichteten Rectified-Flow-Formulierung und dem MMDiT-Backbone wurde eine Skalierungsstudie für die Text-zu-Bild-Synthese durchgeführt
  • Es wurde ein gleichmäßiger Rückgang des Validierungsverlusts sowohl in Bezug auf die Modellgröße als auch auf die Trainingsschritte beobachtet
  • Um zu prüfen, ob sich dies in sinnvolle Verbesserungen der Modellausgaben übersetzt, wurden automatische Metriken zur Bildausrichtung (GenEval) und menschliche Präferenzwerte (ELO) ausgewertet
  • Die Ergebnisse zeigen eine starke Korrelation zwischen diesen Metriken und dem Validierungsverlust
  • Die Skalierungstrends zeigen keine Anzeichen von Sättigung, was einen optimistischen Ausblick darauf gibt, dass sich die Modellleistung künftig weiter verbessern lässt

Flexible Text-Encoder

  • Für die Inferenz können die Speicheranforderungen von SD3 deutlich reduziert werden, indem der speicherintensive T5-Text-Encoder mit 4,7B Parametern entfernt wird, bei nur minimalem Leistungsverlust
  • Das Entfernen dieses Text-Encoders beeinflusst die visuelle Ästhetik nicht (Gewinnrate nach Entfernung: 50 %), reduziert jedoch die Texttreue leicht (Gewinnrate 46 %)
  • Für die volle Leistungsfähigkeit von SD3 bei der Generierung von Text wird jedoch empfohlen, T5 beizubehalten

1 Kommentare

 
xguru 2024-03-06

Hacker-News-Kommentare

  • Das Engagement von Stability AI für Open Source ist sehr interessant, und ich hoffe, dass sie so lange wie möglich durchhalten.

    • Ich frage mich, ob Stable Diffusion 3 für Tokenisierung und Text-Embeddings immer noch CLIP von OpenAI verwendet.
    • Ich nehme einfach an, dass dieser Teil der Modellarchitektur verbessert wurde, damit er besser zu Text- und Bild-Prompts passt.
  • Das Text-Rendering von Stable Diffusion 3 ist beeindruckend, aber der Text hat immer noch dieses typische, übermäßig bearbeitete Aussehen.

    • Die Textfarbe ist immer auf einen einzigen Wert angehoben, sodass es so aussieht, als hätte man den Text amateurhaft einfach zu einem hochwertigen Bild hinzugefügt.
  • Frage, ob SD3 herunterladbar ist.

    • Ich habe frühe Versionen von SD lokal ausgeführt, und das war sehr gut.
    • Ich frage mich, ob es wie bei vielen LLMs, bei denen Self-Hosting vielversprechend wirkte, inzwischen zu SaaS geworden ist.
  • Es ist sehr interessant, dass Bildgeneratoren endlich anfangen, Rechtschreibung korrekt umzusetzen.

    • Die Fähigkeit von DALL-E 3 zur korrekten Schreibweise wurde hervorgehoben, aber nach meinen Versuchen mit Bing ist sie inkonsistent.
    • Ich würde gern eine weniger technische Erklärung darüber lesen, welchen Herausforderungen man bei der korrekten Schreibweise begegnet und warum.
    • Ich frage mich, ob SD3 Textprobleme in älteren Bildern bereinigen oder korrigieren kann.
  • Die Ankündigung von SD3 ist sehr spannend.

    • Das Paper enthält viel mehr Details als der Blog.
    • Die Kernaussage des Papers ist, dass die Architektur einen ausdrucksstärkeren Text-Encoder aufnehmen kann und dass das bei komplexen Szenen hilft.
    • Da man trainingstechnisch bei diesem Stack offenbar noch nicht an die Grenzen gestoßen ist, erwarte ich, dass SD3.1 weitere Verbesserungen bringt, und vermute, dass SD4 mehr Frontend-Encoding für Videoverarbeitung hinzufügen könnte.
  • Die Verbesserung beim Text-Rendering in SD3 ist gut, aber Hände und Finger zu erzeugen, ist immer noch schwierig.

    • In den Beispielbildern sind keine menschlichen Hände zu sehen, außer bei dem verpixelten Zauberer, und die Affenhände wirken etwas seltsam.
  • Diese Architektur ist flexibel genug, um sich leicht auf Video zu erweitern.

    • Ich erwarte, dass sie zu einem weiteren „Fundamental“-Baustein wird, ähnlich den Transformer-Blöcken von LLaMA.
    • Sie ist allgemein genug, um Text-Encoding/Zeitschritt-Konditionierung auf verschiedene Weise in den Block zu integrieren.
    • Abgesehen davon, mit Positions-Encoding (2D RoPE?) herumzuspielen, bleibt kaum noch etwas zu tun.
    • Transformer weiter skalieren und sich auf Quantisierung/Optimierung konzentrieren, damit dieser Stack überall ordentlich läuft.
  • Viele Unternehmen, die sich einst „Open“ verschrieben hatten oder früher offen waren, werden zunehmend geschlossener.

    • Ich schätze es, dass Stability AI solche Forschungspapiere veröffentlicht.
  • Im Gegensatz zu Stability AI ist OpenAI das verschlossenste KI-Forschungslabor.

    • Sogar Deep Mind veröffentlicht mehr Papers.
    • Ich frage mich, ob es bei OpenAI intern jemanden gibt, der öffentlich sagt: „Wir sind wegen des Geldes hier!“
    • Der Brief, den SamA kürzlich über Elons Gerichtsverfahren geschrieben hat, ist ungefähr so wahrheitsgetreu wie Putins Behauptung, er invadiere die Ukraine, um sie zu „entnazifizieren“.