FLUX.2: Visuelles Generations- und Bearbeitungsmodell der nächsten Generation

(bfl.ai)

2 Punkte von GN⁺ 2025-11-27 | 1 Kommentare | Auf WhatsApp teilen

FLUX.2 ist ein hochwertiges Bildgenerierungsmodell für reale kreative Workflows und unterstützt Charakter- und Stil-Konsistenz über mehrere Referenzbilder hinweg sowie Textverarbeitung und die Einhaltung von Brand-Guidelines
Detaillierte Bildbearbeitung ist bis zu einer Auflösung von 4 Megapixeln möglich, wobei visuelle Elemente wie Beleuchtung, Layout und Logos zuverlässig gesteuert werden können
Über eine Open-Core-Strategie werden sowohl Open-Weight-Modelle als auch produktionsreife APIs bereitgestellt und das mit FLUX.1 aufgebaute offene Ökosystem auf die FLUX.2-Stufe gehoben
Wichtige neue Funktionen sind Multi-Reference-Support, präzises Typografie-Rendering, verbesserte Prompt-Verarbeitung und die Einbindung von realitätsbasiertem Wissen
Die Modellfamilie besteht aus pro, flex, dev, klein, VAE und wird sowohl als Open Weight als auch über kommerzielle APIs angeboten
Black Forest Labs will durch die Verbindung offener Forschung mit kommerzieller Infrastruktur die offene Weiterentwicklung visueller Intelligenz vorantreiben

Überblick über FLUX.2

FLUX.2 ist kein Modell für bloße Demos, sondern für reale Produktionsumgebungen
- Hält Charakter- und Stil-Konsistenz auf Basis mehrerer Referenzbilder aufrecht
- Folgt strukturierten Prompts und kann komplexe Texte lesen und schreiben
- Verarbeitet Brand-Guidelines, Beleuchtung, Layouts und Logos zuverlässig
Unterstützt Bildbearbeitung mit detailreicher Darstellung und konsistenter Qualität bis zu 4 MP Auflösung

Die Open-Core-Philosophie von Black Forest Labs

Vertreten wird der Grundsatz, dass visuelle Intelligenz von Forschenden, Kreativen und Entwickelnden gemeinsam weiterentwickelt werden sollte
Es werden sowohl Open-Weight-Modelle als auch kommerziell nutzbare API-Endpunkte parallel bereitgestellt
- Offene Modelle fördern Experimente, senken Kosten und erhöhen die Transparenz
Seit der Gründung im Jahr 2024 wurde mit FLUX.1 [dev] und FLUX.1 Kontext [pro] eine Basis für offene Innovation geschaffen
- FLUX.1 [dev] wird als das weltweit populärste offene Bildmodell bezeichnet
- FLUX.1 Kontext [pro] wird von großen Teams wie Adobe und Meta genutzt

Von FLUX.1 zu FLUX.2

Während FLUX.1 das Potenzial als kreatives Werkzeug gezeigt hat, liegt der Fokus von FLUX.2 auf der Transformation von Produktions-Workflows
Präzision, Effizienz, Kontrollierbarkeit und Realismus wurden gestärkt, wodurch die Wirtschaftlichkeit der Bildgenerierung deutlich verbessert wird
Damit dürfte es sich als zentraler Baustein kreativer Infrastruktur etablieren

Wichtige Funktionen (What’s New)

Multi-Reference-Support: Referenziert bis zu 10 Bilder gleichzeitig, um Charakter-, Produkt- und Stil-Konsistenz zu erhalten
Feine Details und Realismus: Geeignet für Produktaufnahmen, Visualisierungen und fotorealistische Ergebnisse
Verbessertes Text-Rendering: Bessere Lesbarkeit bei komplexer Typografie, Infografiken und UI-Mockups
Stärkere Prompt-Verarbeitung: Setzt mehrschichtige strukturierte Prompts und kombinatorische Einschränkungen präzise um
Erweitertes realitätsbasiertes Wissen: Konsistente Szenenkomposition auf Basis von Beleuchtung und räumlicher Logik
High-Resolution Editing: Unterstützt flexible Ein- und Ausgabeformate bis zu 4 MP Auflösung

Die FLUX.2-Produktfamilie

FLUX.2 [pro]
- Bietet Bildqualität, Prompt-Treue und visuelle Genauigkeit auf dem Niveau konkurrierender geschlossener Spitzenmodelle
- Zeichnet sich durch hohe Generierungsgeschwindigkeit und niedrige Kosten aus und ist über den BFL Playground, die API und Partnerplattformen verfügbar
FLUX.2 [flex]
- Ein Modell, bei dem Parameter wie Schrittzahl und Guidance Scale direkt angepasst werden können, um Qualität, Geschwindigkeit und Text-Rendering zu optimieren
- Besonders stark bei präziser Typografie-Darstellung
FLUX.2 [dev]
- Ein 32B-Open-Weight-Modell und das derzeit leistungsstärkste öffentliche Modell, das Text-zu-Bild und Multi-Input-Bildbearbeitung in einem einzigen Checkpoint unterstützt
- Gewichte werden auf Hugging Face bereitgestellt, einschließlich einer in Zusammenarbeit mit NVIDIA und ComfyUI implementierten FP8-Optimierung
- Als API nutzbar über FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare, DeepInfra und weitere
FLUX.2 [klein] (geplant)
- Ein Apache-2.0-Open-Source-Modell, das per Größendestillation auf Basis von FLUX.2 als leichtgewichtiges Hochleistungsmodell bereitgestellt werden soll
FLUX.2 – VAE
- Ein neues VAE, das Lernbarkeit, Qualität und Kompressionsrate ausgewogen optimiert, und ein zentraler Bestandteil des FLUX.2-Backbones ist
- Wird auf Hugging Face unter der Apache-2.0-Lizenz bereitgestellt

Leistung und Nutzen

Die FLUX.2-Modellfamilie bietet modernste Bildgenerierungsqualität zu wettbewerbsfähigen Preisen
Unter den Open-Weight-Modellen erzielt FLUX.2 [dev] bei Text-zu-Bild-Generierung sowie Single- und Multi-Reference-Editing bessere Leistung als alle offenen Alternativen
Alle Modelle werden vor und nach der Veröffentlichung gemäß den Prinzipien verantwortungsvoller Entwicklung betreut

Technische Struktur (How It Works)

Basiert auf einer latent flow matching-Architektur, die Bildgenerierung und -bearbeitung in einer Struktur vereint
Kombiniert ein Mistral-3 24B Vision-Language-Modell mit einem Rectified Flow Transformer
- Das VLM liefert Weltwissen und Kontextverständnis
- Der Transformer verarbeitet räumliche Beziehungen, Materialeigenschaften und Kompositionslogik
Kann bis zu 10 Referenzbilder kombinieren, um neue Ergebnisse zu erzeugen
Der latente Raum des Modells wurde neu trainiert, um das Trilemma aus Lernbarkeit, Qualität und Kompressionsrate zu verbessern

Weitere Materialien

Ausblick (Into the New)

FLUX.2 ist ein Schritt hin zu multimodalen Modellen, die Wahrnehmung, Generierung, Gedächtnis und Schlussfolgern integrieren
Als Basistechnologie für Infrastruktur visueller Intelligenz zielt es darauf ab, die Art zu verändern, wie wir die Welt wahrnehmen und verstehen
Aktuell wird in Freiburg und San Francisco Personal eingestellt

1 Kommentare

GN⁺ 2025-11-27

Hacker-News-Meinungen

In letzter Zeit erscheinen neue Modelle so häufig, dass sich das Aktualisieren einer GenAI-Vergleichsseite fast wie Sisyphusarbeit anfühlt
Trotzdem wurden die Ergebnisse des neuen Flux 2 Pro Editing-Modells hochgeladen
Sie sind auf der Ergebnisseite zu sehen
Dieses Modell erzielte einen leicht höheren Wert als BFLs Kontext und landete mit 6 Punkten insgesamt im Mittelfeld unter 12 Modellen
Bald sollen numerische Metriken für eine feinere Bewertung hinzugefügt werden
Wer nur Flux 2 Pro, Nano Banana Pro und Kontext vergleichen möchte, kann diesen Link nutzen
Nebenbei scheint BFL zur präziseren Bearbeitung eine JSON-Struktur zu unterstützen, daher ist interessant, ob sich damit die Genauigkeit weiter steigern lässt
- Es wäre besser, wenn das Bewertungssystem statt eines simplen Bestanden/Nicht-bestanden auf eine Skala von 0 bis 10 umgestellt würde
  Dass Flux und Gemini Pro 3 die gleiche Punktzahl erhalten, verschlechtert die Qualität des Benchmarks
- Der Vergleich ist nützlich, aber es fehlt an Stilvielfalt
  OpenAI-Modelle haben eine zu starke eigene Handschrift und sind daher beim Stil-Matching schwächer, während Flux je nach Stil unterschiedlich gut abschneidet
  Flux wollte offenbar vermeiden, auf einen Durchschnitt vieler Stile hin trainiert zu werden, doch das kollidiert mit dem Ziel, visuell attraktive Bilder zu erzeugen
  Letztlich wird das Problem der Stil-Konsistenz wohl noch eine Weile bestehen bleiben
- Google liegt derzeit klar vorn
  Seedream ist ebenfalls beeindruckend und dürfte in der nächsten Version auf ein Niveau kommen, auf dem es mit Google konkurrieren kann
  Bilderzeugung fühlt sich fast wie ein gelöstes Problem an
- Auf der Seite gibt es einen Tippfehler: s/sttae/state/g muss korrigiert werden
- Es ist fraglich, ob BFL noch die Energie hat, weiter mit Großunternehmen wie Google und ByteDance (SeeDream) zu konkurrieren
  Das neue Modell bleibt nur im Mittelfeld, und auch Open Source ist nicht so offen wie bei chinesischen Modellen
  Die Bildqualität von Flux wirkt weiterhin wie Plastikhaut und künstliche Texturen
  Selbst wenn es technisch besteht, würde man Flux in realen Workflows wohl nicht wählen
  Vielleicht liegt das an einem Datenteam ohne ästhetisches Gespür
  Zwischen Google und dem chinesischen Ökosystem steckt BFL in einer schwierigen Lage
  Andere Medienmodell-Unternehmen wie RunwayML, PikaLabs und LumaLabs kämpfen mit ähnlichen Problemen
  BFL hat zwar kürzlich eine große Investition erhalten, doch die Konkurrenz mit Hyperscalern wirkt weiterhin übermächtig
Es ist erfreulich, dass das neue Modell auch als Open-Weights-Version veröffentlicht wurde
Allerdings bleibt die Frage, was aus dem früher angekündigten SOTA-Videomodell geworden ist
Es wurde auch im YouTube-Video erwähnt, aber die zugehörige Seite (bfl.ai/up-next) wurde gelöscht
- Als Startup wurde auf Bildmodelle statt Video umgeschwenkt
  Bildmodelle haben mehr Anwendungsfälle, und die Datensätze sind deutlich umfangreicher
- Gerüchten zufolge endete das Training des Videomodells in einem groß angelegten Fehlschlag, woraufhin das Projekt eingestellt wurde
- Bildmodelle sind weiterhin eine zentrale Technologiesäule
  Bilder sind die Grundlage von Video, und es gibt viel mehr steuerbare Elemente
  Bildmodelle liefern schnelles Feedback und Produktivität, und bei Stil-, Posen- und Konsistenzsteuerung gibt es noch viel zu tun
  Midjourney ist ästhetisch überwältigend, aber es fehlt an Kontrolle
  Flux wirkt plastisch, Imagen eher comicartig, OpenAI altmodisch
  Am Ende muss in Ästhetik, Kontrolle und Reproduzierbarkeit zugleich konkurriert werden
  Video lenkt von dieser Arbeit ab
Flux 2 Pro wurde direkt getestet (Replicate-Link)
Im Vergleich zu Nano Banana gibt es keinen großen Unterschied, gegenüber Flux 1.1 Pro ist es eher eine schrittweise Verbesserung
- Die Prompt-Konsistenz hat sich verbessert, aber die Bildqualität wirkt künstlicher
- Der Flux-2-Prompt-Guide empfiehlt standardmäßig JSON-Prompts und die Angabe von HEX-Farben
- Wenn Prompt-Upsampling aktiviert ist, verbessert sich die Inferenzleistung, während ohne diese Funktion seltsame Ergebnisse herauskommen
- Die Flux-2-API ist stark IP-sensibel, sodass es Fälle gibt, die nur mit aktiviertem Upsampling durchgehen (Beispiel)
- Kosten und Geschwindigkeit sind ähnlich wie bei Nano Banana, aber bei Nutzung der Bildeingabefunktion ist Flux 2 Pro teurer
- Zwischen den Ergebnissen von Flux 1.1 und 2 gibt es keinen objektiven Sieger
- Schon die Möglichkeit, Flux lokal auszuführen, ist ein Vorteil
  Wenn Google die Preise erhöht oder die API ändert, gibt es keine Alternative, während BFL eine lokale Option bietet
- Die hochauflösende Ausgabe (4K) von Flux 2 Pro kann sogar Probleme verursachen
  Sie fügt unnötige Details hinzu, ähnlich wie ein ESRGAN-Upscale (Testlink)
- Die Flux 2 Dev-Version hat keine IP-Zensur
FLUX.1 Pro Kontext ist weiterhin stark bei künstlerischem Ausdruck und Verständnis von Anweisungen
Das zeigt auch der Nano-Banana-Vergleichsblog
FLUX.2 [dev] kann lokal auf RTX-GPUs mit einer fp8-optimierten Version ausgeführt werden
Es ist gut, dass Open Weights beibehalten werden, aber das Modell ist von 12B auf 32B gewachsen, was die lokale Nutzung belastend macht
Eine Distill-Version wird erwartet
- Auf der Hugging-Face-Seite ist zu sehen,
  dass der Text-Encoder 48GB und das Generierungsmodell 64GB benötigt, also insgesamt über 100GB
  Das ist eine hohe Einstiegshürde für lokale Nutzer
Der Text-Encoder dieser Version ist Mistral-Small-3.2-24B-Instruct-2506, besser als die frühere Kombination aus CLIP und T5, aber sehr groß
Hätte man auf ein unter Apache 2.0 distilliertes Modell gewartet und es dann veröffentlicht, wäre eine stärkere Differenzierung gegenüber Nano Banana möglich gewesen
Auch die Preisstruktur ist ungewöhnlich — Eingabe kostet $0.015 pro MP, Ausgabe $0.03 für das erste MP und danach $0.015 pro MP
- Qwen-Image-Edit-2511 soll nächste Woche unter Apache 2.0 erscheinen, daher wirkt es, als habe BFL die Veröffentlichung beschleunigt
- CLIP war faktisch eine bedeutungslose Wahl. Selbst mit auf 0 gesetzten Gewichten waren die Ergebnisse nahezu identisch
- Die Kombination aus CLIP und T5 wurde damals von vielen Bildgenerierungsmodellen verwendet. Es war keine seltsame Entscheidung
- Beim Fokus auf die GTM-Strategie scheint der europäische Markt das Nachsehen gehabt zu haben
Es ist gut, dass Nano Banana Pro einen Konkurrenten bekommen hat
Das hilft, den Preiswettbewerb aufrechtzuerhalten
- In Regionen wie Hongkong, wo die Nutzung von US-Modellen eingeschränkt ist, sind solche Alternativen besonders wichtig
  Google, OpenAI und Claude können dort alle nicht abonniert werden
- Es ist auch schön zu sehen, dass ein europäisches Unternehmen aktiv mitmischt
Zur Einordnung: Die Open-Source-Version FLUX.2-DEV ist nicht für kommerzielle Nutzung erlaubt
Vollständiger Lizenztext
Es wurde Nano Banana Pro mit Flux 2 Pro anhand des Prompts „family guy cyberpunk 2077“ verglichen,
wobei das Google-Modell besser zu einer Spielszene passte und Flux zu realistisch wirkte
- Flux ist auf fotolastige Datensätze abgestimmt und daher bei künstlerischen Stilen schwächer
  Flux 2 Pro zeigte eine ähnliche Tendenz
  Mit dem LoRA-Ökosystem und etwas Zeit fürs Feintuning bleibt Flux 1 Dev aber weiterhin stark bei kreativem Styling
Eine 18GB-4bit-Quant-Version wird über diffusers bereitgestellt und kann daher auch in Umgebungen mit wenig VRAM ausgeführt werden

FLUX.2: Visuelles Generations- und Bearbeitungsmodell der nächsten Generation

Überblick über FLUX.2

Die Open-Core-Philosophie von Black Forest Labs

Von FLUX.1 zu FLUX.2

Wichtige Funktionen (What’s New)

Die FLUX.2-Produktfamilie

Leistung und Nutzen

Technische Struktur (How It Works)

Weitere Materialien

Ausblick (Into the New)

Verwandte Beiträge

1 Kommentare

Hacker-News-Meinungen