4 Punkte von GN⁺ 2025-08-02 | 1 Kommentare | Auf WhatsApp teilen
  • Das erste Bildmodell von Krea 1 wurde als Open-Weight-Version namens FLUX.1 Krea veröffentlicht
  • Anders als bisherige Bildmodelle wurde es auf einen klaren ästhetischen Geschmack und Photorealismus ausgerichtet und darauf entworfen, Bilder zu erzeugen, die nicht wie KI aussehen
  • Es wurde festgestellt, dass bestehende Benchmarks und Kennzahlen oft von der ästhetischen Präferenz der echten Nutzer abweichen; deshalb wurden direkt kuratierte Daten und eine meinungszentrierte ästhetische Ausrichtung eingesetzt
  • Pre-Training und Post-Training wurden getrennt gehandhabt, wobei eine Phase die Vielfalt sicherstellt und eine weitere auf einen klaren Stil konvergiert
  • Zukünftig sind Forschungen zu Personalisierung und geschmacksgesteuerter Anpassung, zur Erweiterung auf breitere visuelle Domänen und zu besseren Funktionen für Creator geplant

FLUX.1 Krea Open-Source-Veröffentlichung

  • Krea 1 ist das erste mit Black Forest Labs gemeinsam trainierte Bildgenerierungsmodell und zielt auf hervorragende Kontrolle von Ästhetik und Bildqualität ab
  • FLUX.1 Krea [dev] wurde als Open-Weight veröffentlicht und ist vollständig mit dem bisherigen FLUX.1-dev-Ökosystem kompatibel
  • Das Modell maximiert Photorealismus und ästhetische Merkmale und verfolgt eine auf präferenzgebundene Ästhetik ausgerichtete Philosophie, die bestimmte Geschmackspräferenzen widerspiegelt

Das Phänomen „AI Look“ und seine Grenzen

  • Herkömmliche KI-generierte Bilder zeigen oft den sogenannten „AI-Look“, mit übermäßig unscharfem Hintergrund, wachsartiger Haut und einer blassen Komposition
  • Durch die einseitige Fokussierung auf die Optimierung von Benchmarks und technischen Kennzahlen werden echte Texturen, Stilvielfalt und kreative Ergebnisse oft nicht ausreichend berücksichtigt
  • Grenzen bestehender Bewertungsmodelle, die die tatsächlichen Nutzerpräferenzen nicht abbilden
    • In der Vortrainingsphase sind Fréchet Inception Distance (FID) und CLIP Score zur Messung der Gesamtleistung eines Modells nützlich
    • In Wissenschaft und Industrie kommen zwar DPG, GenEval, T2I-Compbench, GenAI-Bench zum Einsatz, sie bewerten aber überwiegend Prompt-Übereinstimmung, räumliche Beziehungen und Attributkombinationen
    • Als ästhetische Bewertungsmodelle werden LAION-Aesthetics, Pickscore, ImageReward, HPSv2 genutzt, doch die meisten davon sind CLIP-basiert und in Auflösung sowie Parameterzahl begrenzt
    • Beispielsweise weist LAION-Aesthetics eine Tendenz zu Bildern mit Frauen, unscharfem Hintergrund und leuchtenden Farben auf; das Filtern nach solchen Kriterien kann implizite Vorurteile in das Modell einprägen
  • Ästhetische Bewertungsmetriken und Filter sind nützlich, um schlechte Bilder auszusieben, aber eine zu starke Abhängigkeit bei der Datenauswahl birgt das Risiko, dass Biases direkt im Modell selbst verankert werden
  • Zwar entstehen neue Bewertungsmetriken auf Basis von Vision-Language-Modellen, doch ästhetische Präferenz bleibt subjektiv und lässt sich nicht auf einen einzigen Wert reduzieren

Struktur von Pre-training und Post-training

  • Vortraining (Pre-training)

    • Im Vortraining werden durch Stil, Objekte, Menschen, Orte usw. breit visuelle Kenntnisse erworben, um die Mode Coverage maximal zu erhöhen
    • Es werden auch „schlechte“ Daten eingeschlossen, damit das Modell unerwünschte Eigenschaften (z. B. seltsame Finger, Unschärfe) lernt
    • Das Vortraining bestimmt die maximale Qualitätsobergrenze und die Stilvielfalt des Modells
  • Nachtraining (Post-training)

    • Im Nachtraining wird die Modellverteilung auf einen bevorzugten Stil fokussiert (mode collapsing), um statt auf AI-Look zu setzen eine klare ästhetische Richtung zu etablieren
    • Es wird in zwei Phasen durchgeführt: Supervised Finetuning (SFT) und RLHF (Reinforcement Learning from Human Feedback)
      • SFT: Verwendung eines direkt kuratierten hochwertigen Datensatzes und synthetischer Bilder von Krea-1
      • RLHF: Mehrfache Optimierung auf Basis interner Präferenzdaten zur feinen Verfeinerung von Ästhetik und Stil
    • Es wurde bestätigt, dass die Datenqualität entscheidender ist als die Datenmenge (selbst unter 1M qualitativ hochwertige Daten reichen)
    • Die Anwendung einer meinungszentrierten (opinionated) Ästhetikpräferenz-Labelierung verhindert, dass bei ausschließlicher Nutzung nur öffentlicher Präferenzdaten ein monotoner Stil entsteht und das Modell in den AI-Look zurückfällt

Modell-Pipeline und experimentelle Erkenntnisse

  • Ein 12B-Parameter- flux-dev-raw-Basismodell mit guidance-distillation wird verwendet und klar von anderen zu stark feinabgestimmten Open-Modellen abgegrenzt
  • In der RLHF-Phase kommt die Methode TPO (preference optimization) zum Einsatz, um ästhetische Empfindung und Stilprägung zu verstärken
  • Hochwertige interne Präferenzdaten (strenge Filterung) werden wiederholt genutzt, um die Modellausgabe präzise zu justieren
  • Wichtige Erkenntnisse

      1. Datenqualität ist wichtiger als Datenmenge. Mit weniger als 1M Datenpunkten ist sinnvolles Post-Training möglich. Quantitative Vielfalt wirkt sich auf Bias-Reduktion und Stabilität aus, aber am wichtigsten bleiben kuratierte hochwertige Daten
      1. Es braucht eine klare, geschmackszentrierte Datenerhebung. Öffentliche Datensätze erzeugen unbeabsichtigt Verzerrungen, Rückfälle in den AI-Look sowie einfache Kompositions- und Farbverzerrungen
      • Für objektive Ziele wie Textwiedergabe, Anatomie und Struktur ist Datenvielfalt hilfreich, für subjektive Ziele wie Ästhetik ist hingegen spezialisierte Datenqualität effizienter als Mischungen
      • Werden viele ästhetische Verteilungen kombiniert, entstehen oft Ergebnisse, die niemanden zufriedenstellen, und viele Nutzer greifen dann auf nachgelagerte Methoden wie LoRA zurück

Zukunftsorientierte Forschung und Abschluss

  • Krea 1 ist ein erster Schritt für Kreative, die ästhetische Standards und Qualität priorisieren, und es erhofft sich eine stärkere Expansion der Open-Source-Community
  • Zukünftig sollen durch Stärkung der Kernkompetenz, breitere visuelle Domänen und Forschung zu Personalisierung und Kontrollierbarkeit Modelle bereitgestellt werden, die den ästhetischen Vorlieben der Nutzer entsprechen
  • Siehe GitHub ( https://github.com/krea-ai/flux-krea )

1 Kommentare

 
GN⁺ 2025-08-02
Hacker-News-Kommentare
  • Hallo zusammen, freut mich, hier zu sein. Ich bin Mitgründer und CTO von Krea. Ich wollte die Gewichte unseres Modells schon lange veröffentlichen und mit der HN-Community teilen. Ich werde heute so gut wie möglich den ganzen Tag online bleiben und alle Fragen beantworten
    • Mich würde interessieren, ob es Pläne für Unterstützung der Flux-"Kontext"-Version gibt, also des Editing-Modells. Das Einsatzpotenzial von promptbasiertem Bild-Editing wirkt enorm. Auch wenn ich die Qualität einer Open-Weights-Version noch nicht gesehen habe, war die Demo sehr beeindruckend. Soweit ich weiß, ist auch dieses Modell 12B groß
    • Mich würde interessieren, was das Ziel dieser Veröffentlichung ist. Gibt es geschäftliche Ziele dahinter, oder ist es wirklich rein als Beitrag für die Community gedacht?
    • Wir brauchen ein Modell, das auch andere Sprachen als Englisch unterstützt
    • Mich interessiert beim Beispiel P(.|photo) vs. P(.|minimal), wie dieser Konflikt in der Praxis entschieden wird. Meiner Meinung nach sollte fotografischer Realismus der Standard sein. Wenn ein Nutzer zum Beispiel "eine Katze, die ein Buch liest" schreibt, sollte meiner Ansicht nach eine echte Katze erscheinen, die ein Buch liest, und kein AI-Stil oder eine Illustration. Ohne weiteren Kontext fühlt es sich natürlich an, "Katze" als realistische Katze zu interpretieren. Wenn der Nutzer eine Illustration oder einen anderen Stil möchte, sollte er das dann nicht explizit in den Prompt schreiben? Mich würde interessieren, ob mir hier eine Nuance entgeht
  • Gute Veröffentlichung. Ich habe den 12B-Txt2Img-Krea-Stack kurz getestet. Das Herausragendste sind die hohe Geschwindigkeit (und vermutlich auch der Realismus). Allerdings hat er, wenig überraschend, bei der <i>Prompt-Adherence</i> keine höhere Punktzahl erreicht als das normale Flux.1D-Modell. Die Ergebnisse sind auf https://genai-showdown.specr.net zu sehen. Gleichzeitig sieht es so aus, als könnte Wan 2.2+ künftig eine große Rolle im T2I-Bereich spielen, aber um die geringe Bildvielfalt auszugleichen, könnten sehr viele LoRAs nötig sein
    • Könntest du die URL teilen, unter der man deine Testergebnisse sehen kann? Und nur zur Einordnung: Dieses Modell legt mehr Fokus auf <i>Aesthetics</i> und nicht ausschließlich auf Prompt-Treue. Das ist keine Ausrede für schwache Samples, sondern ich möchte betonen, dass das eines der Forschungsziele war. Wenn man den sogenannten "Flux Look" loswerden will, ist das ein Trade-off, den man berücksichtigen muss. Und einige Leute erzeugen wohl Basisbilder mit Wan 2.2 und verfeinern sie dann mit Krea, was ein ziemlich interessanter Ansatz ist
  • Hallo! Ich bin der leitende Forscher von Krea-1 FLUX.1. Krea ist ein aus Krea-1 destilliertes 12B Rectified Flow Model und wurde so entworfen, dass es mit der FLUX-Architektur kompatibel ist. Wenn es technische Fragen gibt, kann ich sie beantworten
    • Ich komme aus der klassischen Medienproduktion. Das Aufteilen von Medien in mehrere Ebenen und deren Kombination ist zentral für Kosten- und Qualitätskontrolle. Die heutigen Verfahren zur Generierung von AI-Bildern, -Videos und -Audio unterstützen das aber nicht. ForgeUI hatte das kurzzeitig, wurde dann aber eingestellt. Ich vermute, weil man die Anforderungen echter großskaliger Medienproduktion nicht verstanden hat. Mich würde interessieren, ob bei euch jemand im Team ist, der Erfahrung mit echtem Film-VFX, Animationswerbung oder Produktionen im Multi-Millionen-Dollar-Bereich hat. Wenn ihr erfolgreich sein wollt, müsst ihr unbedingt traditionelle Produktions-Workflows für Medien unterstützen. Bestehende AI-Tools werden in der Praxis nicht übernommen, weil sie überhaupt nicht mit Produktionswerkzeugen oder -erwartungen verzahnt sind
    • Die Modellqualität ist wirklich hervorragend. Besonders beeindruckt hat mich die Aussage, dass "flux-dev-raw ein guidance-distilled Modell ist, daher wurde eine angepasste Verlustfunktion erstellt, um direkt auf die classifier-free-guided Verteilung feinzujustieren". Ich würde dazu gern mehr Details und Fine-Tuning-Tipps hören. Auch in der Open-Source-AI-Art-Community ist Fine-Tuning des ursprünglichen destillierten flux-dev bekanntermaßen sehr schwierig, deshalb interessiert mich das besonders
    • Vielen Dank für diese Arbeit. Könntest du erklären, was genau gemeint ist mit "so entworfen, dass es mit der FLUX-Architektur kompatibel ist", und warum das wichtig ist?
  • Ich verstehe nicht ganz, warum die safetensor-Datei 23,8 GB groß ist, wenn es sich um ein 12B-Parameter-Modell handelt. Ich dachte immer, 1B Parameter benötigen 1 GB VRAM. Nutzt dieses Modell also 24 GB VRAM oder 12 GB? Oder liege ich mit meiner Annahme falsch?
    • Mit bfloat16 gerechnet gilt 1B x 16 Bit = 2 GB, also sind bei 12B fast 24 GB korrekt. Es wurde in bfloat16 hochgeladen, weil der Wechsel von float32 auf bfloat16 kaum Leistungsverlust verursacht
    • Die Float-Größe pro Parameter kann unterschiedlich sein. Viele Modelle werden als FP8 (8 Bit/Parameter) ausgeliefert, dieses hier jedoch als FP16 (16 Bit). Häufig wird in FP16 trainiert und dann zur Auslieferung auf FP8 oder FP4 quantisiert
    • Ein auf 8 Bit quantisiertes Modell kann man grob als 1B = 1 GB betrachten, aber 16 Bit oder 32 Bit benötigen das Zwei- bis Vierfache
  • Ich habe mit einem einfachen Prompt ein merkwürdiges Ergebnis bekommen: "Octopus DJ spinning the turntables at a rave." Die menschlichen Hände am DJ sind auffällig. Ich konnte diese Hände mit keinem Prompt entfernen. Wie im Paper erwähnt, ist das Modell definitiv opinionated
    • Mit dem Prompt "Octopus DJ with no fingers" verschwanden die Hände, aber gleichzeitig auch alle menschlichen Eigenschaften des Oktopus, sodass am Ende nur noch ein reiner Oktopus übrig blieb, der die Turntables bedient
  • Das Bild, das ich immer haben möchte, ist ein Galtonbrett. Oben fallen Kugeln aus zwei leicht getrennten Öffnungen, eine blaue Kugel und eine rote Kugel. Unten zeigt die Verteilung der beiden Farben zusammen in den Spalten eine bimodale Normalverteilung. Referenzbild: https://imgur.com/a/DiAOTzJ (oben zwei Auslässe). Tatsächlicher Versuch: https://imgur.com/undefined, https://imgur.com/a/uecXDzI
    • Mich würde interessieren, ob du so etwas schon einmal in der Realität gebaut hast. Ich konnte kein Video eines doppelten Galtonbretts finden
  • Hey HN! Ich bin Mitgründer von Krea. Wir haben einen Blogpost veröffentlicht, in dem wir zusammenfassen, wie wir FLUX Krea trainiert haben. Wer mehr Details wissen will, kann hier nachlesen: https://www.krea.ai/blog/flux-krea-open-source-release
    • Etwas off-topic, aber ich muss wirklich fragen, ob ihr auf eurer Website tatsächlich die Scrollbar versteckt habt. Ich verstehe nicht, warum man das tun würde.
      .scrollbar-hide {
        -ms-overflow-style: none;
        scrollbar-width: none;
      }
      
  • Mich würde interessieren, ob ihr eine NVIDIA-optimierte Version bereitstellt. So wie RTX-beschleunigtes FLUX.1 Kontext hier: https://blogs.nvidia.com/blog/rtx-ai-garage-flux-kontext-nim-tensorrt/
    • Für FLUX.1 Krea wurde keine separate RTX-beschleunigte Version erstellt. Das Modell ist jedoch vollständig mit der bestehenden FLUX.1-dev-Codebasis kompatibel. Eine eigene ONNX-Exportversion scheint es nicht zu geben. Eine gute Anschlussarbeit wäre, mit SVDQuant 4- bis 8-Bit-quantisierte Versionen zu erstellen, um die Checkpoints hardwarefreundlicher für allgemeinere Systeme zu machen
  • Übersicht der Referenzlinks:
  • Ich würde empfehlen, einen gut dokumentierten Weg bereitzustellen, damit Unternehmen die kommerziellen Nutzungsrechte klar lizenzieren können, sobald sie die gewünschten Ergebnisse erzielen (ihr werdet schon sehen, warum!)