Veröffentlichung der Gewichte von FLUX.1 Krea

(krea.ai)

4 Punkte von GN⁺ 2025-08-02 | Noch keine Kommentare. | Auf WhatsApp teilen

Das erste Bildmodell von Krea 1 wurde als Open-Weight-Version namens FLUX.1 Krea veröffentlicht
Anders als bisherige Bildmodelle wurde es auf einen klaren ästhetischen Geschmack und Photorealismus ausgerichtet und darauf entworfen, Bilder zu erzeugen, die nicht wie KI aussehen
Es wurde festgestellt, dass bestehende Benchmarks und Kennzahlen oft von der ästhetischen Präferenz der echten Nutzer abweichen; deshalb wurden direkt kuratierte Daten und eine meinungszentrierte ästhetische Ausrichtung eingesetzt
Pre-Training und Post-Training wurden getrennt gehandhabt, wobei eine Phase die Vielfalt sicherstellt und eine weitere auf einen klaren Stil konvergiert
Zukünftig sind Forschungen zu Personalisierung und geschmacksgesteuerter Anpassung, zur Erweiterung auf breitere visuelle Domänen und zu besseren Funktionen für Creator geplant

FLUX.1 Krea Open-Source-Veröffentlichung

Krea 1 ist das erste mit Black Forest Labs gemeinsam trainierte Bildgenerierungsmodell und zielt auf hervorragende Kontrolle von Ästhetik und Bildqualität ab
FLUX.1 Krea [dev] wurde als Open-Weight veröffentlicht und ist vollständig mit dem bisherigen FLUX.1-dev-Ökosystem kompatibel
Das Modell maximiert Photorealismus und ästhetische Merkmale und verfolgt eine auf präferenzgebundene Ästhetik ausgerichtete Philosophie, die bestimmte Geschmackspräferenzen widerspiegelt

Das Phänomen „AI Look“ und seine Grenzen

Herkömmliche KI-generierte Bilder zeigen oft den sogenannten „AI-Look“, mit übermäßig unscharfem Hintergrund, wachsartiger Haut und einer blassen Komposition
Durch die einseitige Fokussierung auf die Optimierung von Benchmarks und technischen Kennzahlen werden echte Texturen, Stilvielfalt und kreative Ergebnisse oft nicht ausreichend berücksichtigt
Grenzen bestehender Bewertungsmodelle, die die tatsächlichen Nutzerpräferenzen nicht abbilden
- In der Vortrainingsphase sind Fréchet Inception Distance (FID) und CLIP Score zur Messung der Gesamtleistung eines Modells nützlich
- In Wissenschaft und Industrie kommen zwar DPG, GenEval, T2I-Compbench, GenAI-Bench zum Einsatz, sie bewerten aber überwiegend Prompt-Übereinstimmung, räumliche Beziehungen und Attributkombinationen
- Als ästhetische Bewertungsmodelle werden LAION-Aesthetics, Pickscore, ImageReward, HPSv2 genutzt, doch die meisten davon sind CLIP-basiert und in Auflösung sowie Parameterzahl begrenzt
- Beispielsweise weist LAION-Aesthetics eine Tendenz zu Bildern mit Frauen, unscharfem Hintergrund und leuchtenden Farben auf; das Filtern nach solchen Kriterien kann implizite Vorurteile in das Modell einprägen
Ästhetische Bewertungsmetriken und Filter sind nützlich, um schlechte Bilder auszusieben, aber eine zu starke Abhängigkeit bei der Datenauswahl birgt das Risiko, dass Biases direkt im Modell selbst verankert werden
Zwar entstehen neue Bewertungsmetriken auf Basis von Vision-Language-Modellen, doch ästhetische Präferenz bleibt subjektiv und lässt sich nicht auf einen einzigen Wert reduzieren

Struktur von Pre-training und Post-training

Vortraining (Pre-training)
- Im Vortraining werden durch Stil, Objekte, Menschen, Orte usw. breit visuelle Kenntnisse erworben, um die Mode Coverage maximal zu erhöhen
- Es werden auch „schlechte“ Daten eingeschlossen, damit das Modell unerwünschte Eigenschaften (z. B. seltsame Finger, Unschärfe) lernt
- Das Vortraining bestimmt die maximale Qualitätsobergrenze und die Stilvielfalt des Modells
Nachtraining (Post-training)
- Im Nachtraining wird die Modellverteilung auf einen bevorzugten Stil fokussiert (mode collapsing), um statt auf AI-Look zu setzen eine klare ästhetische Richtung zu etablieren
- Es wird in zwei Phasen durchgeführt: Supervised Finetuning (SFT) und RLHF (Reinforcement Learning from Human Feedback)
  - SFT: Verwendung eines direkt kuratierten hochwertigen Datensatzes und synthetischer Bilder von Krea-1
  - RLHF: Mehrfache Optimierung auf Basis interner Präferenzdaten zur feinen Verfeinerung von Ästhetik und Stil
- Es wurde bestätigt, dass die Datenqualität entscheidender ist als die Datenmenge (selbst unter 1M qualitativ hochwertige Daten reichen)
- Die Anwendung einer meinungszentrierten (opinionated) Ästhetikpräferenz-Labelierung verhindert, dass bei ausschließlicher Nutzung nur öffentlicher Präferenzdaten ein monotoner Stil entsteht und das Modell in den AI-Look zurückfällt

Modell-Pipeline und experimentelle Erkenntnisse

Ein 12B-Parameter- flux-dev-raw-Basismodell mit guidance-distillation wird verwendet und klar von anderen zu stark feinabgestimmten Open-Modellen abgegrenzt
In der RLHF-Phase kommt die Methode TPO (preference optimization) zum Einsatz, um ästhetische Empfindung und Stilprägung zu verstärken
Hochwertige interne Präferenzdaten (strenge Filterung) werden wiederholt genutzt, um die Modellausgabe präzise zu justieren
Wichtige Erkenntnisse
- 1. Datenqualität ist wichtiger als Datenmenge. Mit weniger als 1M Datenpunkten ist sinnvolles Post-Training möglich. Quantitative Vielfalt wirkt sich auf Bias-Reduktion und Stabilität aus, aber am wichtigsten bleiben kuratierte hochwertige Daten
- 1. Es braucht eine klare, geschmackszentrierte Datenerhebung. Öffentliche Datensätze erzeugen unbeabsichtigt Verzerrungen, Rückfälle in den AI-Look sowie einfache Kompositions- und Farbverzerrungen
  - Für objektive Ziele wie Textwiedergabe, Anatomie und Struktur ist Datenvielfalt hilfreich, für subjektive Ziele wie Ästhetik ist hingegen spezialisierte Datenqualität effizienter als Mischungen
  - Werden viele ästhetische Verteilungen kombiniert, entstehen oft Ergebnisse, die niemanden zufriedenstellen, und viele Nutzer greifen dann auf nachgelagerte Methoden wie LoRA zurück

Zukunftsorientierte Forschung und Abschluss

Krea 1 ist ein erster Schritt für Kreative, die ästhetische Standards und Qualität priorisieren, und es erhofft sich eine stärkere Expansion der Open-Source-Community
Zukünftig sollen durch Stärkung der Kernkompetenz, breitere visuelle Domänen und Forschung zu Personalisierung und Kontrollierbarkeit Modelle bereitgestellt werden, die den ästhetischen Vorlieben der Nutzer entsprechen
Siehe GitHub ( https://github.com/krea-ai/flux-krea )

Veröffentlichung der Gewichte von FLUX.1 Krea

FLUX.1 Krea Open-Source-Veröffentlichung

Das Phänomen „AI Look“ und seine Grenzen

Struktur von Pre-training und Post-training

Vortraining (Pre-training)

Nachtraining (Post-training)

Modell-Pipeline und experimentelle Erkenntnisse

Wichtige Erkenntnisse

Zukunftsorientierte Forschung und Abschluss

Verwandte Beiträge

Noch keine Kommentare.