3 Punkte von GN⁺ 2025-05-30 | 1 Kommentare | Auf WhatsApp teilen
  • FLUX.1 Kontext von Black Forest Labs ist ein neuestes generatives KI-Modell, das Text und Bilder gleichzeitig als Eingabe nutzt, den Kontext versteht und unter Beibehaltung von Merkmalen und Stil bestehender Bilder sofortige Bearbeitung und Generierung ermöglicht
  • Im Vergleich zu bestehenden Text-Bild-Generierungsalgorithmen zeigt es überlegene Leistung bei Konsistenz von Schrift und Objekten, lokaler Bearbeitung, Stilreferenz und schneller Reaktionszeit
  • Nutzer können nur Text eingeben oder Bild und Text kombinieren, um nur bestimmte Bereiche zu ändern, nur einen Stil anzuwenden oder mehrstufige Bearbeitungen durchzuführen – vielfältige interaktive Bild-Workflows sind möglich
  • FLUX.1 Kontext [pro] bewahrt die Bildkonsistenz auch über mehrere Bearbeitungsschritte hinweg und arbeitet mit branchenführender Geschwindigkeit
  • Das Open-Source-Modell [dev]-Version ist ein leichtgewichtiges 12B-Diffusion-Transformer-Modell und wird als Private Beta für Forschung und Customizing veröffentlicht

Einführung in FLUX.1 Kontext

  • FLUX.1 Kontext überwindet die Grenzen bestehender Modelle, die Bilder nur aus Text erzeugen, und ist ein generatives Flow-Matching-Modell, das Text und Bilder gemeinsam als Eingabe nutzt und kontextbasierte Bildgenerierung und -bearbeitung ermöglicht
  • Durch die gleichzeitige Verwendung von Text-Prompts und Bildern können bestimmte Elemente eines Bildes entfernt, hinzugefügt oder verändert und neue Szenen erzeugt werden, während Stil und Merkmale erhalten bleiben

Hauptfunktionen

  • Charakterkonsistenz: Dieselbe Person, dasselbe Objekt und derselbe Stil bleiben auch in verschiedenen Szenen und Umgebungen konsistent erhalten
  • Lokale Bearbeitung: Nur bestimmte Teile eines Bildes lassen sich per Textanweisung ändern (z. B. nur ein bestimmtes Gesichtselement entfernen oder nur Text austauschen)
  • Stilreferenz: Der unverwechselbare Stil eines Referenzbildes kann auf neue Szenen angewendet werden
  • Interaktive Geschwindigkeit: Unterstützt Echtzeit-Bearbeitung und -Generierung mit einer im Vergleich zu bestehenden Modellen bis zu 8-fach schnelleren Inferenz

Integration von Text-zu-Bild- und Bild-zu-Bild-Bearbeitung

  • FLUX.1 Kontext bewahrt Bildqualität und Merkmale nicht nur bei einer einzelnen Bearbeitung, sondern auch bei wiederholten Anweisungen über mehrere Schritte hinweg
  • Durch die fortlaufende Nutzung von Prompt und vorherigen Bildergebnissen kann man schrittweise zum gewünschten Resultat gelangen

FLUX.1 Kontext Modell-Line-up

  • FLUX.1 Kontext [pro]
    • Flaggschiffmodell, spezialisiert auf schnelle iterative Bearbeitung und Generierung
    • Verarbeitet Text und Referenzbilder gleichzeitig und führt zielgerichtete Bereichsbearbeitung sowie komplexe Szenentransformationen schnell und konsistent aus
  • FLUX.1 Kontext [max]
    • Experimentelles High-End-Modell mit verbessertem Prompt-Verständnis, Typografie und schneller konsistenter Bearbeitung
  • FLUX.1 Kontext [dev]
    • Leichtgewichtiges (12B) Modell für Forschung und Customizing, veröffentlicht als Private Beta
    • Bei Veröffentlichung soll es über wichtige KI-Infrastrukturpartner wie FAL, Replicate, Runware, DataCrunch, TogetherAI und HuggingFace verfügbar sein

Unterstützung und Zugang

  • Die FLUX.1-Kontext-Serie kann in verschiedenen Services wie KreaAI, Freepik, Lightricks, OpenArt, LeonardoAI sowie auf Infrastrukturen wie FAL, Replicate, Runware, DataCrunch, TogetherAI, ComfyOrg genutzt werden
  • Über den FLUX Playground (https://playground.bfl.ai/) für Live-Tests und Demos lässt sich die Modellleistung einfach ohne zusätzliche Integration prüfen und die Ergebnisse direkt ansehen

Leistungsbewertung

  • Im hauseigenen Benchmark KontextBench wurde es über sechs Aufgaben zur Bildgenerierung und -bearbeitung hinweg mit SOTA-Modellen verglichen
  • In den Bereichen Textbearbeitung und Charaktererhalt erzielte es Ergebnisse auf Spitzenniveau der Branche
  • Auch bei der Inferenzgeschwindigkeit wurde im Vergleich zu zuvor führenden Modellen eine deutlich niedrigere Latenz erreicht
  • Ebenso wurde Wettbewerbsfähigkeit bei verschiedenen Kriterien wie ästhetischer Qualität, Prompt-Verständnis, Typografie und Realismus nachgewiesen

Einschränkungen und zukünftige Aufgaben

  • Bei mehrstufiger wiederholter Bearbeitung (mehr als 6 Durchgänge) können visuelle Artefakte (artifact) auftreten, was die Bildqualität beeinträchtigen kann
  • Mitunter werden Detailanweisungen bestimmter Prompts nicht exakt befolgt
  • Aufgrund begrenzten Weltwissens und Kontextverständnisses können kontextuell ungenaue Bilder erzeugt werden
  • Bei Modellkomprimierung und Distillation kann die Bildqualität sinken

1 Kommentare

 
GN⁺ 2025-05-30
Hacker-News-Kommentare
  • Ich habe es selbst ausprobiert und dabei ein interessantes Phänomen von „Context Slip“ erlebt: zugehöriges Bild. Ich habe mit einem Generierungs-Prompt ein Bild erstellt, auf dem ein Raumschiff auf einem abgelegenen Planeten landet, und dann um eine Bearbeitung gebeten: „Mach das Raumschiff farbenfroher und zeige es im Bild größer.“ Daraufhin verwandelte sich das Raumschiff in ein Containerschiff. Da der Chatverlauf erhalten blieb, hätte das Modell eigentlich erkennen müssen, dass ich ein Raumschiff wollte, aber es hat den wichtigen Kontext übersehen und ein völlig seltsames Ergebnis geliefert.

  • Ich teste gerade direkt mit dem FLUX Kontext Pro Endpoint von Replicate. Es gibt auch eine Replicate-App, die verschiedene Anwendungsfälle für die Bildbearbeitung mit FLUX Kontext zeigt: FLUX Kontext Apps. Die Bildqualität liegt bei einfacher Image-to-Image-Generierung ungefähr auf dem Niveau der Bilderzeugung von GPT-4o. Auch die Generierungsgeschwindigkeit ist mit etwa 4 Sekunden ziemlich hoch. Prompt Engineering wirkt abgesehen von den Beispielen noch etwas knifflig, aber ich denke, das wird mit der Zeit besser. Stiländerungen oder detaillierte Wünsche werden zwar übernommen, aber je konkreter die Anweisungen werden, desto eher scheint das Modell detaillierte Anforderungen zu ignorieren.

    • Wenn man betrachtet, wie gut Originaleigenschaften erhalten bleiben, wirkt das FLUX-Modell präziser als 4o. Wenn man bei einem vorhandenen 3D-Tiercharakter nur die Beleuchtung ändern möchte, ruiniert 4o oft das Gesicht des Charakters und verändert Körper oder Details, während FLUX selbst bei starken Änderungen an Pose oder Licht die sichtbare Form fast perfekt identisch beibehält.
    • Bei Image-to-Image-Experimenten ist es beeindruckender als GPT-4o. 4o ist stark auf Sepiatöne fixiert, und gerade bei wiederholten Bearbeitungen sieht man den 4o-Ursprung der Ergebnisse deutlich. Dagegen liefert FLUX.1 Kontext Max eine viel breitere und vielfältigere Farbdarstellung und erfasst sogar kleine Details, die 4o übersehen würde. Ich habe es noch nicht geschafft, Bilder rein per Prompt neu zu erzeugen. Aber beim Bearbeiten bestehender Bilder per Prompt wirkt FLUX klar überlegen.
    • Mir gefällt wirklich, dass Replicate die neuesten Modelle immer sofort anbietet. In der sich schnell entwickelnden AI-Ära ist es großartig, dass neue Forschungsmodell-Versionen unmittelbar per API bereitgestellt werden und sich auch in der Praxis skalierbar einsetzen lassen. Anbieter wie Replicate scheinen die Wirkung solcher Modellveröffentlichungen um ein Vielfaches zu verstärken.
    • Ich frage mich, auf welcher GPU und mit wie viel VRAM diese rund 4 Sekunden basieren. Meinst du vielleicht die UI von Huggingface?
  • Einige Samples scheinen nur besonders gute Ergebnisse herauszupicken. Hat jemand die Professional-Headshot-App aus den „Kontext Apps“ ausprobiert? Link zu den Kontext Apps. Ich habe mehrere Fotos von mir eingegeben, und jedes Mal kam eine komplett andere Person heraus. Das finale Headshot-Ergebnis sieht allerdings definitiv professionell aus.

    • Ich habe im flux playground einen Headshot-Prompt mit einem müden Fitnessstudio-Selfie ausprobiert, und dabei blieben mein Gesichtsausdruck, der Schweiß, mein Hautton und die meisten anderen Merkmale erhalten. Es war fast so, als wäre nur der Hintergrund geändert worden. Als ich die Anfrage erweitert habe zu „Mach daraus ein gutes Headshot für Social Media, mit Lächeln, guter Haltung und Kleidung, sauberer Haut ohne Schweiß usw.“, wurden nur die Kleidung geändert und ein unnatürliches Lächeln hinzugefügt. Das entspricht ziemlich genau den Ergebnissen, die man bei solchen Bildern tatsächlich bekommt.
    • Ich frage mich, ob Eingabe- und Ausgabebild dasselbe Seitenverhältnis haben. Wenn das Verhältnis zwangsweise geändert wird, scheint es seltsame Effekte zu geben.
    • Die Bewahrung von Identität, etwa beim Gesicht, ist eine Aufgabe, die noch niemand perfekt gelöst hat. Mit Händen ist es ähnlich, das ist eine wissenschaftliche Herausforderung.
  • Ich überlege, ob ich das FLUX-Kontext-Modell zu meiner GenAI-Bildvergleichsseite hinzufügen soll. Die Max-Version erzielt bei der Prompt-Treue zwar fast doppelt so hohe Werte, liegt aber trotzdem noch deutlich hinter OpenAIs gpt-image-1 zurück, unabhängig von der Bildqualität. gpt-image-1 steht auf Platz 1 des Leaderboards. Flux 1.D behalte ich als Baseline für lokale GenAI-Fähigkeiten bei: Vergleichsseite. Ich habe kürzlich auch Hunyuans Image-2.0-Modell hinzugefügt, aber als Echtzeitmodell fällt es erwartungsgemäß niedriger aus. Zur Einordnung: Dieses Modell von Black Forest Labs scheint eher auf iterative Bearbeitung und Korrektur bestehender Bilder ausgerichtet zu sein als auf Text-to-Image.

    • Bitte füge auch „Flux 1.1 Pro Ultra“ zur Seite hinzu. Es gilt als das leistungsstärkste Modell dieser Reihe und soll bei der Prompt-Treue viel besser sein als Flux Dev. Damit ließe sich eines der besten Open-Source-Modelle fair vergleichen. Die Seite selbst ist auch interessant, und die Prompts sind spannend.
    • Mein Vorschlag: Solche Szenen-Prompts konnte bisher kein Modell aus früheren Zeiten richtig umsetzen, auch wenn sich das in letzter Zeit wohl stark verbessert hat…
      A knight with a sword in hand stands with his back to us, facing down an army. He holds his shield above his head to protect himself from the rain of arrows shot by archers visible in the rear.
      
      Es ist erstaunlich, warum die Ergebnisse trotz ausreichender Daten so chaotisch sind. Das ist eine ziemlich ikonische Szene.
    • Ich habe um die Aufnahme auf der Seite gebeten und schaue sie mir gerne an.
  • Ich frage mich, ob die Eingabebilder auf nur ein Bild beschränkt sind. Ich würde gern mehrere Bilder eingeben und komplexe Prompts ausprobieren wie „Platziere den Gegenstand aus Bild A in Bild B“ oder „Setze die Figur aus A in die Landschaft von B“.

    • Im experimentellen „multi“-Modus sind mehrere Bildeingaben möglich.
    • Bei Fal kann man vermutlich ein Multi-Image-Interface verwenden, und bei Replicate gibt es das wahrscheinlich auch, ich habe es aber nicht geprüft. Dieses Modell ist unglaublich leistungsfähig. Es ist zwar nicht besser als gpt-image-1, kommt aber wirklich nah heran. Ich glaube, bei Bildern oder Videos gibt es jetzt keine exklusiven Eintrittsbarrieren mehr. Es gab Sorgen, dass Google oder OpenAI den Kreativmarkt monopolisieren würden, aber inzwischen kann im Grunde jeder selbst etwas bauen.
  • Für alle, die sich für das technische Paper interessieren, hier der offizielle Report.

    • Die Implementierung wirkt ähnlich schlicht wie bei anderen offenen Modellen (HiDream-E1, ICEdit, DreamO usw.). Der eigentliche Unterschied scheint in der Datenkuratierung zu liegen, und dieser Teil wird im Paper nur kurz erklärt.
    • Die meisten interessieren sich gar nicht für das Paper selbst, sondern wollen nur das Open-Weight-Modell herunterladen und selbst laufen lassen. Die meisten nehmen es einfach und nutzen es, statt etwas beizutragen.
  • Wie viel Fachwissen braucht man wohl, um so etwas lokal selbst zu modifizieren oder zu trainieren? Ich habe mit einer RTX 4090 unter Windows zwei Tage lang versucht, mit Flux 1 dev selbst LoRa-Finetuning zu machen, aber ich bekomme es nicht richtig hin. Ich frage mich, wie tief man einsteigen muss, ob die Einstiegshürde niedrig genug ist und ob das auch für Anfänger möglich ist oder eher nur für Erfahrene.

    • Ein Open-Source-Modell ist noch nicht veröffentlicht, und einfacher als LoRA-Training mit Flux 1 Dev wird es wohl kaum sein.
    • Ich empfehle das Skript SimpleTuner. Damit konnte ich direkt LoRa-Finetuning machen, ohne viel über Python-Bibliotheken zu wissen.
    • Meist findet man relativ leicht eine in comfyui aufgebaute Version. Bei YouTubern wird so etwas teilweise auch als Patreon-Belohnung verteilt.
    • Wenn es mit RTX 4090 + Windows nicht klappt, liegt das vermutlich am Windows-Betriebssystem. Unter Linux zeigt sich die echte Leistung deutlicher.
  • Ich verstehe das Beispiel „remove from face“ nicht so ganz. Wenn es kein anderes Gesichtsfoto gibt, verwendet es dann nicht am Ende einfach ein typisches Gesicht?

    • Es stellt nicht wirklich etwas wieder her, sondern alles ist letztlich nur ein generiertes Bild. Es gibt kein echtes Gesicht.
    • Wenn man sich das Beispiel genauer ansieht, könnte das Modell bei teilweise verdeckten Gesichtern bestimmte Objekte inferieren und wiederherstellen.
    • Das hängt davon ab, auf welchem Stand das Basismodell ist; einige Identitätsmodelle können schon aus partieller Geometrie Gesichter ziemlich fein interpolieren.
    • Ich glaube, die Slideshow im ersten Beispiel hat selbst einen Bug. Eine Schneeflocke verdeckt fast das ganze Gesicht.
    • Wenn man echte Fotos verwendet, verändert das Modell oft das Gesicht, deshalb scheint man als Beispiel lieber Bilder zu verwenden, auf denen das Gesicht gar nicht sichtbar ist.
  • Es wurde gefragt, ob man Schachbilder generieren kann: Link zur Schach-AI-Vorhersage

  • Ein Kommentar spekuliert darüber, wann eine offene Entwicklerversion erscheinen könnte, ob schon innerhalb einer Woche oder eher in ein bis zwei Monaten.