- FLUX.1 Kontext von Black Forest Labs ist ein neuestes generatives KI-Modell, das Text und Bilder gleichzeitig als Eingabe nutzt, den Kontext versteht und unter Beibehaltung von Merkmalen und Stil bestehender Bilder sofortige Bearbeitung und Generierung ermöglicht
- Im Vergleich zu bestehenden Text-Bild-Generierungsalgorithmen zeigt es überlegene Leistung bei Konsistenz von Schrift und Objekten, lokaler Bearbeitung, Stilreferenz und schneller Reaktionszeit
- Nutzer können nur Text eingeben oder Bild und Text kombinieren, um nur bestimmte Bereiche zu ändern, nur einen Stil anzuwenden oder mehrstufige Bearbeitungen durchzuführen – vielfältige interaktive Bild-Workflows sind möglich
- FLUX.1 Kontext [pro] bewahrt die Bildkonsistenz auch über mehrere Bearbeitungsschritte hinweg und arbeitet mit branchenführender Geschwindigkeit
- Das Open-Source-Modell [dev]-Version ist ein leichtgewichtiges 12B-Diffusion-Transformer-Modell und wird als Private Beta für Forschung und Customizing veröffentlicht
Einführung in FLUX.1 Kontext
- FLUX.1 Kontext überwindet die Grenzen bestehender Modelle, die Bilder nur aus Text erzeugen, und ist ein generatives Flow-Matching-Modell, das Text und Bilder gemeinsam als Eingabe nutzt und kontextbasierte Bildgenerierung und -bearbeitung ermöglicht
- Durch die gleichzeitige Verwendung von Text-Prompts und Bildern können bestimmte Elemente eines Bildes entfernt, hinzugefügt oder verändert und neue Szenen erzeugt werden, während Stil und Merkmale erhalten bleiben
Hauptfunktionen
- Charakterkonsistenz: Dieselbe Person, dasselbe Objekt und derselbe Stil bleiben auch in verschiedenen Szenen und Umgebungen konsistent erhalten
- Lokale Bearbeitung: Nur bestimmte Teile eines Bildes lassen sich per Textanweisung ändern (z. B. nur ein bestimmtes Gesichtselement entfernen oder nur Text austauschen)
- Stilreferenz: Der unverwechselbare Stil eines Referenzbildes kann auf neue Szenen angewendet werden
- Interaktive Geschwindigkeit: Unterstützt Echtzeit-Bearbeitung und -Generierung mit einer im Vergleich zu bestehenden Modellen bis zu 8-fach schnelleren Inferenz
Integration von Text-zu-Bild- und Bild-zu-Bild-Bearbeitung
- FLUX.1 Kontext bewahrt Bildqualität und Merkmale nicht nur bei einer einzelnen Bearbeitung, sondern auch bei wiederholten Anweisungen über mehrere Schritte hinweg
- Durch die fortlaufende Nutzung von Prompt und vorherigen Bildergebnissen kann man schrittweise zum gewünschten Resultat gelangen
FLUX.1 Kontext Modell-Line-up
- FLUX.1 Kontext [pro]
- Flaggschiffmodell, spezialisiert auf schnelle iterative Bearbeitung und Generierung
- Verarbeitet Text und Referenzbilder gleichzeitig und führt zielgerichtete Bereichsbearbeitung sowie komplexe Szenentransformationen schnell und konsistent aus
- FLUX.1 Kontext [max]
- Experimentelles High-End-Modell mit verbessertem Prompt-Verständnis, Typografie und schneller konsistenter Bearbeitung
- FLUX.1 Kontext [dev]
- Leichtgewichtiges (12B) Modell für Forschung und Customizing, veröffentlicht als Private Beta
- Bei Veröffentlichung soll es über wichtige KI-Infrastrukturpartner wie FAL, Replicate, Runware, DataCrunch, TogetherAI und HuggingFace verfügbar sein
Unterstützung und Zugang
- Die FLUX.1-Kontext-Serie kann in verschiedenen Services wie KreaAI, Freepik, Lightricks, OpenArt, LeonardoAI sowie auf Infrastrukturen wie FAL, Replicate, Runware, DataCrunch, TogetherAI, ComfyOrg genutzt werden
- Über den FLUX Playground (https://playground.bfl.ai/) für Live-Tests und Demos lässt sich die Modellleistung einfach ohne zusätzliche Integration prüfen und die Ergebnisse direkt ansehen
Leistungsbewertung
- Im hauseigenen Benchmark KontextBench wurde es über sechs Aufgaben zur Bildgenerierung und -bearbeitung hinweg mit SOTA-Modellen verglichen
- In den Bereichen Textbearbeitung und Charaktererhalt erzielte es Ergebnisse auf Spitzenniveau der Branche
- Auch bei der Inferenzgeschwindigkeit wurde im Vergleich zu zuvor führenden Modellen eine deutlich niedrigere Latenz erreicht
- Ebenso wurde Wettbewerbsfähigkeit bei verschiedenen Kriterien wie ästhetischer Qualität, Prompt-Verständnis, Typografie und Realismus nachgewiesen
Einschränkungen und zukünftige Aufgaben
- Bei mehrstufiger wiederholter Bearbeitung (mehr als 6 Durchgänge) können visuelle Artefakte (artifact) auftreten, was die Bildqualität beeinträchtigen kann
- Mitunter werden Detailanweisungen bestimmter Prompts nicht exakt befolgt
- Aufgrund begrenzten Weltwissens und Kontextverständnisses können kontextuell ungenaue Bilder erzeugt werden
- Bei Modellkomprimierung und Distillation kann die Bildqualität sinken
1 Kommentare
Hacker-News-Kommentare
Ich habe es selbst ausprobiert und dabei ein interessantes Phänomen von „Context Slip“ erlebt: zugehöriges Bild. Ich habe mit einem Generierungs-Prompt ein Bild erstellt, auf dem ein Raumschiff auf einem abgelegenen Planeten landet, und dann um eine Bearbeitung gebeten: „Mach das Raumschiff farbenfroher und zeige es im Bild größer.“ Daraufhin verwandelte sich das Raumschiff in ein Containerschiff. Da der Chatverlauf erhalten blieb, hätte das Modell eigentlich erkennen müssen, dass ich ein Raumschiff wollte, aber es hat den wichtigen Kontext übersehen und ein völlig seltsames Ergebnis geliefert.
Ich teste gerade direkt mit dem FLUX Kontext Pro Endpoint von Replicate. Es gibt auch eine Replicate-App, die verschiedene Anwendungsfälle für die Bildbearbeitung mit FLUX Kontext zeigt: FLUX Kontext Apps. Die Bildqualität liegt bei einfacher Image-to-Image-Generierung ungefähr auf dem Niveau der Bilderzeugung von GPT-4o. Auch die Generierungsgeschwindigkeit ist mit etwa 4 Sekunden ziemlich hoch. Prompt Engineering wirkt abgesehen von den Beispielen noch etwas knifflig, aber ich denke, das wird mit der Zeit besser. Stiländerungen oder detaillierte Wünsche werden zwar übernommen, aber je konkreter die Anweisungen werden, desto eher scheint das Modell detaillierte Anforderungen zu ignorieren.
Einige Samples scheinen nur besonders gute Ergebnisse herauszupicken. Hat jemand die Professional-Headshot-App aus den „Kontext Apps“ ausprobiert? Link zu den Kontext Apps. Ich habe mehrere Fotos von mir eingegeben, und jedes Mal kam eine komplett andere Person heraus. Das finale Headshot-Ergebnis sieht allerdings definitiv professionell aus.
Ich überlege, ob ich das FLUX-Kontext-Modell zu meiner GenAI-Bildvergleichsseite hinzufügen soll. Die Max-Version erzielt bei der Prompt-Treue zwar fast doppelt so hohe Werte, liegt aber trotzdem noch deutlich hinter OpenAIs gpt-image-1 zurück, unabhängig von der Bildqualität. gpt-image-1 steht auf Platz 1 des Leaderboards. Flux 1.D behalte ich als Baseline für lokale GenAI-Fähigkeiten bei: Vergleichsseite. Ich habe kürzlich auch Hunyuans Image-2.0-Modell hinzugefügt, aber als Echtzeitmodell fällt es erwartungsgemäß niedriger aus. Zur Einordnung: Dieses Modell von Black Forest Labs scheint eher auf iterative Bearbeitung und Korrektur bestehender Bilder ausgerichtet zu sein als auf Text-to-Image.
Ich frage mich, ob die Eingabebilder auf nur ein Bild beschränkt sind. Ich würde gern mehrere Bilder eingeben und komplexe Prompts ausprobieren wie „Platziere den Gegenstand aus Bild A in Bild B“ oder „Setze die Figur aus A in die Landschaft von B“.
Für alle, die sich für das technische Paper interessieren, hier der offizielle Report.
Wie viel Fachwissen braucht man wohl, um so etwas lokal selbst zu modifizieren oder zu trainieren? Ich habe mit einer RTX 4090 unter Windows zwei Tage lang versucht, mit Flux 1 dev selbst LoRa-Finetuning zu machen, aber ich bekomme es nicht richtig hin. Ich frage mich, wie tief man einsteigen muss, ob die Einstiegshürde niedrig genug ist und ob das auch für Anfänger möglich ist oder eher nur für Erfahrene.
Ich verstehe das Beispiel „remove from face“ nicht so ganz. Wenn es kein anderes Gesichtsfoto gibt, verwendet es dann nicht am Ende einfach ein typisches Gesicht?
Es wurde gefragt, ob man Schachbilder generieren kann: Link zur Schach-AI-Vorhersage
Ein Kommentar spekuliert darüber, wann eine offene Entwicklerversion erscheinen könnte, ob schon innerhalb einer Woche oder eher in ein bis zwei Monaten.