- Das erste Bildmodell von Krea 1 wurde als Open-Weight-Version namens FLUX.1 Krea veröffentlicht
- Anders als bisherige Bildmodelle wurde es auf einen klaren ästhetischen Geschmack und Photorealismus ausgerichtet und darauf entworfen, Bilder zu erzeugen, die nicht wie KI aussehen
- Es wurde festgestellt, dass bestehende Benchmarks und Kennzahlen oft von der ästhetischen Präferenz der echten Nutzer abweichen; deshalb wurden direkt kuratierte Daten und eine meinungszentrierte ästhetische Ausrichtung eingesetzt
- Pre-Training und Post-Training wurden getrennt gehandhabt, wobei eine Phase die Vielfalt sicherstellt und eine weitere auf einen klaren Stil konvergiert
- Zukünftig sind Forschungen zu Personalisierung und geschmacksgesteuerter Anpassung, zur Erweiterung auf breitere visuelle Domänen und zu besseren Funktionen für Creator geplant
FLUX.1 Krea Open-Source-Veröffentlichung
- Krea 1 ist das erste mit Black Forest Labs gemeinsam trainierte Bildgenerierungsmodell und zielt auf hervorragende Kontrolle von Ästhetik und Bildqualität ab
- FLUX.1 Krea [dev] wurde als Open-Weight veröffentlicht und ist vollständig mit dem bisherigen FLUX.1-dev-Ökosystem kompatibel
- Das Modell maximiert Photorealismus und ästhetische Merkmale und verfolgt eine auf präferenzgebundene Ästhetik ausgerichtete Philosophie, die bestimmte Geschmackspräferenzen widerspiegelt
Das Phänomen „AI Look“ und seine Grenzen
- Herkömmliche KI-generierte Bilder zeigen oft den sogenannten „AI-Look“, mit übermäßig unscharfem Hintergrund, wachsartiger Haut und einer blassen Komposition
- Durch die einseitige Fokussierung auf die Optimierung von Benchmarks und technischen Kennzahlen werden echte Texturen, Stilvielfalt und kreative Ergebnisse oft nicht ausreichend berücksichtigt
- Grenzen bestehender Bewertungsmodelle, die die tatsächlichen Nutzerpräferenzen nicht abbilden
- In der Vortrainingsphase sind Fréchet Inception Distance (FID) und CLIP Score zur Messung der Gesamtleistung eines Modells nützlich
- In Wissenschaft und Industrie kommen zwar DPG, GenEval, T2I-Compbench, GenAI-Bench zum Einsatz, sie bewerten aber überwiegend Prompt-Übereinstimmung, räumliche Beziehungen und Attributkombinationen
- Als ästhetische Bewertungsmodelle werden LAION-Aesthetics, Pickscore, ImageReward, HPSv2 genutzt, doch die meisten davon sind CLIP-basiert und in Auflösung sowie Parameterzahl begrenzt
- Beispielsweise weist LAION-Aesthetics eine Tendenz zu Bildern mit Frauen, unscharfem Hintergrund und leuchtenden Farben auf; das Filtern nach solchen Kriterien kann implizite Vorurteile in das Modell einprägen
- Ästhetische Bewertungsmetriken und Filter sind nützlich, um schlechte Bilder auszusieben, aber eine zu starke Abhängigkeit bei der Datenauswahl birgt das Risiko, dass Biases direkt im Modell selbst verankert werden
- Zwar entstehen neue Bewertungsmetriken auf Basis von Vision-Language-Modellen, doch ästhetische Präferenz bleibt subjektiv und lässt sich nicht auf einen einzigen Wert reduzieren
Struktur von Pre-training und Post-training
-
Vortraining (Pre-training)
- Im Vortraining werden durch Stil, Objekte, Menschen, Orte usw. breit visuelle Kenntnisse erworben, um die Mode Coverage maximal zu erhöhen
- Es werden auch „schlechte“ Daten eingeschlossen, damit das Modell unerwünschte Eigenschaften (z. B. seltsame Finger, Unschärfe) lernt
- Das Vortraining bestimmt die maximale Qualitätsobergrenze und die Stilvielfalt des Modells
-
Nachtraining (Post-training)
- Im Nachtraining wird die Modellverteilung auf einen bevorzugten Stil fokussiert (mode collapsing), um statt auf AI-Look zu setzen eine klare ästhetische Richtung zu etablieren
- Es wird in zwei Phasen durchgeführt: Supervised Finetuning (SFT) und RLHF (Reinforcement Learning from Human Feedback)
- SFT: Verwendung eines direkt kuratierten hochwertigen Datensatzes und synthetischer Bilder von Krea-1
- RLHF: Mehrfache Optimierung auf Basis interner Präferenzdaten zur feinen Verfeinerung von Ästhetik und Stil
- Es wurde bestätigt, dass die Datenqualität entscheidender ist als die Datenmenge (selbst unter 1M qualitativ hochwertige Daten reichen)
- Die Anwendung einer meinungszentrierten (opinionated) Ästhetikpräferenz-Labelierung verhindert, dass bei ausschließlicher Nutzung nur öffentlicher Präferenzdaten ein monotoner Stil entsteht und das Modell in den AI-Look zurückfällt
Modell-Pipeline und experimentelle Erkenntnisse
- Ein 12B-Parameter- flux-dev-raw-Basismodell mit guidance-distillation wird verwendet und klar von anderen zu stark feinabgestimmten Open-Modellen abgegrenzt
- In der RLHF-Phase kommt die Methode TPO (preference optimization) zum Einsatz, um ästhetische Empfindung und Stilprägung zu verstärken
- Hochwertige interne Präferenzdaten (strenge Filterung) werden wiederholt genutzt, um die Modellausgabe präzise zu justieren
-
Wichtige Erkenntnisse
-
- Datenqualität ist wichtiger als Datenmenge. Mit weniger als 1M Datenpunkten ist sinnvolles Post-Training möglich. Quantitative Vielfalt wirkt sich auf Bias-Reduktion und Stabilität aus, aber am wichtigsten bleiben kuratierte hochwertige Daten
-
- Es braucht eine klare, geschmackszentrierte Datenerhebung. Öffentliche Datensätze erzeugen unbeabsichtigt Verzerrungen, Rückfälle in den AI-Look sowie einfache Kompositions- und Farbverzerrungen
- Für objektive Ziele wie Textwiedergabe, Anatomie und Struktur ist Datenvielfalt hilfreich, für subjektive Ziele wie Ästhetik ist hingegen spezialisierte Datenqualität effizienter als Mischungen
- Werden viele ästhetische Verteilungen kombiniert, entstehen oft Ergebnisse, die niemanden zufriedenstellen, und viele Nutzer greifen dann auf nachgelagerte Methoden wie LoRA zurück
Zukunftsorientierte Forschung und Abschluss
- Krea 1 ist ein erster Schritt für Kreative, die ästhetische Standards und Qualität priorisieren, und es erhofft sich eine stärkere Expansion der Open-Source-Community
- Zukünftig sollen durch Stärkung der Kernkompetenz, breitere visuelle Domänen und Forschung zu Personalisierung und Kontrollierbarkeit Modelle bereitgestellt werden, die den ästhetischen Vorlieben der Nutzer entsprechen
- Siehe GitHub ( https://github.com/krea-ai/flux-krea )
Noch keine Kommentare.