2 Punkte von GN⁺ 2025-11-27 | 1 Kommentare | Auf WhatsApp teilen
  • FLUX.2 ist ein hochwertiges Bildgenerierungsmodell für reale kreative Workflows und unterstützt Charakter- und Stil-Konsistenz über mehrere Referenzbilder hinweg sowie Textverarbeitung und die Einhaltung von Brand-Guidelines
  • Detaillierte Bildbearbeitung ist bis zu einer Auflösung von 4 Megapixeln möglich, wobei visuelle Elemente wie Beleuchtung, Layout und Logos zuverlässig gesteuert werden können
  • Über eine Open-Core-Strategie werden sowohl Open-Weight-Modelle als auch produktionsreife APIs bereitgestellt und das mit FLUX.1 aufgebaute offene Ökosystem auf die FLUX.2-Stufe gehoben
  • Wichtige neue Funktionen sind Multi-Reference-Support, präzises Typografie-Rendering, verbesserte Prompt-Verarbeitung und die Einbindung von realitätsbasiertem Wissen
  • Die Modellfamilie besteht aus pro, flex, dev, klein, VAE und wird sowohl als Open Weight als auch über kommerzielle APIs angeboten
  • Black Forest Labs will durch die Verbindung offener Forschung mit kommerzieller Infrastruktur die offene Weiterentwicklung visueller Intelligenz vorantreiben

Überblick über FLUX.2

  • FLUX.2 ist kein Modell für bloße Demos, sondern für reale Produktionsumgebungen
    • Hält Charakter- und Stil-Konsistenz auf Basis mehrerer Referenzbilder aufrecht
    • Folgt strukturierten Prompts und kann komplexe Texte lesen und schreiben
    • Verarbeitet Brand-Guidelines, Beleuchtung, Layouts und Logos zuverlässig
  • Unterstützt Bildbearbeitung mit detailreicher Darstellung und konsistenter Qualität bis zu 4 MP Auflösung

Die Open-Core-Philosophie von Black Forest Labs

  • Vertreten wird der Grundsatz, dass visuelle Intelligenz von Forschenden, Kreativen und Entwickelnden gemeinsam weiterentwickelt werden sollte
  • Es werden sowohl Open-Weight-Modelle als auch kommerziell nutzbare API-Endpunkte parallel bereitgestellt
    • Offene Modelle fördern Experimente, senken Kosten und erhöhen die Transparenz
  • Seit der Gründung im Jahr 2024 wurde mit FLUX.1 [dev] und FLUX.1 Kontext [pro] eine Basis für offene Innovation geschaffen
    • FLUX.1 [dev] wird als das weltweit populärste offene Bildmodell bezeichnet
    • FLUX.1 Kontext [pro] wird von großen Teams wie Adobe und Meta genutzt

Von FLUX.1 zu FLUX.2

  • Während FLUX.1 das Potenzial als kreatives Werkzeug gezeigt hat, liegt der Fokus von FLUX.2 auf der Transformation von Produktions-Workflows
  • Präzision, Effizienz, Kontrollierbarkeit und Realismus wurden gestärkt, wodurch die Wirtschaftlichkeit der Bildgenerierung deutlich verbessert wird
  • Damit dürfte es sich als zentraler Baustein kreativer Infrastruktur etablieren

Wichtige Funktionen (What’s New)

  • Multi-Reference-Support: Referenziert bis zu 10 Bilder gleichzeitig, um Charakter-, Produkt- und Stil-Konsistenz zu erhalten
  • Feine Details und Realismus: Geeignet für Produktaufnahmen, Visualisierungen und fotorealistische Ergebnisse
  • Verbessertes Text-Rendering: Bessere Lesbarkeit bei komplexer Typografie, Infografiken und UI-Mockups
  • Stärkere Prompt-Verarbeitung: Setzt mehrschichtige strukturierte Prompts und kombinatorische Einschränkungen präzise um
  • Erweitertes realitätsbasiertes Wissen: Konsistente Szenenkomposition auf Basis von Beleuchtung und räumlicher Logik
  • High-Resolution Editing: Unterstützt flexible Ein- und Ausgabeformate bis zu 4 MP Auflösung

Die FLUX.2-Produktfamilie

  • FLUX.2 [pro]
    • Bietet Bildqualität, Prompt-Treue und visuelle Genauigkeit auf dem Niveau konkurrierender geschlossener Spitzenmodelle
    • Zeichnet sich durch hohe Generierungsgeschwindigkeit und niedrige Kosten aus und ist über den BFL Playground, die API und Partnerplattformen verfügbar
  • FLUX.2 [flex]
    • Ein Modell, bei dem Parameter wie Schrittzahl und Guidance Scale direkt angepasst werden können, um Qualität, Geschwindigkeit und Text-Rendering zu optimieren
    • Besonders stark bei präziser Typografie-Darstellung
  • FLUX.2 [dev]
    • Ein 32B-Open-Weight-Modell und das derzeit leistungsstärkste öffentliche Modell, das Text-zu-Bild und Multi-Input-Bildbearbeitung in einem einzigen Checkpoint unterstützt
    • Gewichte werden auf Hugging Face bereitgestellt, einschließlich einer in Zusammenarbeit mit NVIDIA und ComfyUI implementierten FP8-Optimierung
    • Als API nutzbar über FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare, DeepInfra und weitere
  • FLUX.2 [klein] (geplant)
    • Ein Apache-2.0-Open-Source-Modell, das per Größendestillation auf Basis von FLUX.2 als leichtgewichtiges Hochleistungsmodell bereitgestellt werden soll
  • FLUX.2 – VAE
    • Ein neues VAE, das Lernbarkeit, Qualität und Kompressionsrate ausgewogen optimiert, und ein zentraler Bestandteil des FLUX.2-Backbones ist
    • Wird auf Hugging Face unter der Apache-2.0-Lizenz bereitgestellt

Leistung und Nutzen

  • Die FLUX.2-Modellfamilie bietet modernste Bildgenerierungsqualität zu wettbewerbsfähigen Preisen
  • Unter den Open-Weight-Modellen erzielt FLUX.2 [dev] bei Text-zu-Bild-Generierung sowie Single- und Multi-Reference-Editing bessere Leistung als alle offenen Alternativen
  • Alle Modelle werden vor und nach der Veröffentlichung gemäß den Prinzipien verantwortungsvoller Entwicklung betreut

Technische Struktur (How It Works)

  • Basiert auf einer latent flow matching-Architektur, die Bildgenerierung und -bearbeitung in einer Struktur vereint
  • Kombiniert ein Mistral-3 24B Vision-Language-Modell mit einem Rectified Flow Transformer
    • Das VLM liefert Weltwissen und Kontextverständnis
    • Der Transformer verarbeitet räumliche Beziehungen, Materialeigenschaften und Kompositionslogik
  • Kann bis zu 10 Referenzbilder kombinieren, um neue Ergebnisse zu erzeugen
  • Der latente Raum des Modells wurde neu trainiert, um das Trilemma aus Lernbarkeit, Qualität und Kompressionsrate zu verbessern

Weitere Materialien

Ausblick (Into the New)

  • FLUX.2 ist ein Schritt hin zu multimodalen Modellen, die Wahrnehmung, Generierung, Gedächtnis und Schlussfolgern integrieren
  • Als Basistechnologie für Infrastruktur visueller Intelligenz zielt es darauf ab, die Art zu verändern, wie wir die Welt wahrnehmen und verstehen
  • Aktuell wird in Freiburg und San Francisco Personal eingestellt

1 Kommentare

 
GN⁺ 2025-11-27
Hacker-News-Meinungen
  • In letzter Zeit erscheinen neue Modelle so häufig, dass sich das Aktualisieren einer GenAI-Vergleichsseite fast wie Sisyphusarbeit anfühlt
    Trotzdem wurden die Ergebnisse des neuen Flux 2 Pro Editing-Modells hochgeladen
    Sie sind auf der Ergebnisseite zu sehen
    Dieses Modell erzielte einen leicht höheren Wert als BFLs Kontext und landete mit 6 Punkten insgesamt im Mittelfeld unter 12 Modellen
    Bald sollen numerische Metriken für eine feinere Bewertung hinzugefügt werden
    Wer nur Flux 2 Pro, Nano Banana Pro und Kontext vergleichen möchte, kann diesen Link nutzen
    Nebenbei scheint BFL zur präziseren Bearbeitung eine JSON-Struktur zu unterstützen, daher ist interessant, ob sich damit die Genauigkeit weiter steigern lässt

    • Es wäre besser, wenn das Bewertungssystem statt eines simplen Bestanden/Nicht-bestanden auf eine Skala von 0 bis 10 umgestellt würde
      Dass Flux und Gemini Pro 3 die gleiche Punktzahl erhalten, verschlechtert die Qualität des Benchmarks
    • Der Vergleich ist nützlich, aber es fehlt an Stilvielfalt
      OpenAI-Modelle haben eine zu starke eigene Handschrift und sind daher beim Stil-Matching schwächer, während Flux je nach Stil unterschiedlich gut abschneidet
      Flux wollte offenbar vermeiden, auf einen Durchschnitt vieler Stile hin trainiert zu werden, doch das kollidiert mit dem Ziel, visuell attraktive Bilder zu erzeugen
      Letztlich wird das Problem der Stil-Konsistenz wohl noch eine Weile bestehen bleiben
    • Google liegt derzeit klar vorn
      Seedream ist ebenfalls beeindruckend und dürfte in der nächsten Version auf ein Niveau kommen, auf dem es mit Google konkurrieren kann
      Bilderzeugung fühlt sich fast wie ein gelöstes Problem an
    • Auf der Seite gibt es einen Tippfehler: s/sttae/state/g muss korrigiert werden
    • Es ist fraglich, ob BFL noch die Energie hat, weiter mit Großunternehmen wie Google und ByteDance (SeeDream) zu konkurrieren
      Das neue Modell bleibt nur im Mittelfeld, und auch Open Source ist nicht so offen wie bei chinesischen Modellen
      Die Bildqualität von Flux wirkt weiterhin wie Plastikhaut und künstliche Texturen
      Selbst wenn es technisch besteht, würde man Flux in realen Workflows wohl nicht wählen
      Vielleicht liegt das an einem Datenteam ohne ästhetisches Gespür
      Zwischen Google und dem chinesischen Ökosystem steckt BFL in einer schwierigen Lage
      Andere Medienmodell-Unternehmen wie RunwayML, PikaLabs und LumaLabs kämpfen mit ähnlichen Problemen
      BFL hat zwar kürzlich eine große Investition erhalten, doch die Konkurrenz mit Hyperscalern wirkt weiterhin übermächtig
  • Es ist erfreulich, dass das neue Modell auch als Open-Weights-Version veröffentlicht wurde
    Allerdings bleibt die Frage, was aus dem früher angekündigten SOTA-Videomodell geworden ist
    Es wurde auch im YouTube-Video erwähnt, aber die zugehörige Seite (bfl.ai/up-next) wurde gelöscht

    • Als Startup wurde auf Bildmodelle statt Video umgeschwenkt
      Bildmodelle haben mehr Anwendungsfälle, und die Datensätze sind deutlich umfangreicher
    • Gerüchten zufolge endete das Training des Videomodells in einem groß angelegten Fehlschlag, woraufhin das Projekt eingestellt wurde
    • Bildmodelle sind weiterhin eine zentrale Technologiesäule
      Bilder sind die Grundlage von Video, und es gibt viel mehr steuerbare Elemente
      Bildmodelle liefern schnelles Feedback und Produktivität, und bei Stil-, Posen- und Konsistenzsteuerung gibt es noch viel zu tun
      Midjourney ist ästhetisch überwältigend, aber es fehlt an Kontrolle
      Flux wirkt plastisch, Imagen eher comicartig, OpenAI altmodisch
      Am Ende muss in Ästhetik, Kontrolle und Reproduzierbarkeit zugleich konkurriert werden
      Video lenkt von dieser Arbeit ab
  • Flux 2 Pro wurde direkt getestet (Replicate-Link)
    Im Vergleich zu Nano Banana gibt es keinen großen Unterschied, gegenüber Flux 1.1 Pro ist es eher eine schrittweise Verbesserung

    • Die Prompt-Konsistenz hat sich verbessert, aber die Bildqualität wirkt künstlicher
    • Der Flux-2-Prompt-Guide empfiehlt standardmäßig JSON-Prompts und die Angabe von HEX-Farben
    • Wenn Prompt-Upsampling aktiviert ist, verbessert sich die Inferenzleistung, während ohne diese Funktion seltsame Ergebnisse herauskommen
    • Die Flux-2-API ist stark IP-sensibel, sodass es Fälle gibt, die nur mit aktiviertem Upsampling durchgehen (Beispiel)
    • Kosten und Geschwindigkeit sind ähnlich wie bei Nano Banana, aber bei Nutzung der Bildeingabefunktion ist Flux 2 Pro teurer
    • Zwischen den Ergebnissen von Flux 1.1 und 2 gibt es keinen objektiven Sieger
    • Schon die Möglichkeit, Flux lokal auszuführen, ist ein Vorteil
      Wenn Google die Preise erhöht oder die API ändert, gibt es keine Alternative, während BFL eine lokale Option bietet
    • Die hochauflösende Ausgabe (4K) von Flux 2 Pro kann sogar Probleme verursachen
      Sie fügt unnötige Details hinzu, ähnlich wie ein ESRGAN-Upscale (Testlink)
    • Die Flux 2 Dev-Version hat keine IP-Zensur
  • FLUX.1 Pro Kontext ist weiterhin stark bei künstlerischem Ausdruck und Verständnis von Anweisungen
    Das zeigt auch der Nano-Banana-Vergleichsblog

  • FLUX.2 [dev] kann lokal auf RTX-GPUs mit einer fp8-optimierten Version ausgeführt werden
    Es ist gut, dass Open Weights beibehalten werden, aber das Modell ist von 12B auf 32B gewachsen, was die lokale Nutzung belastend macht
    Eine Distill-Version wird erwartet

    • Auf der Hugging-Face-Seite ist zu sehen,
      dass der Text-Encoder 48GB und das Generierungsmodell 64GB benötigt, also insgesamt über 100GB
      Das ist eine hohe Einstiegshürde für lokale Nutzer
  • Der Text-Encoder dieser Version ist Mistral-Small-3.2-24B-Instruct-2506, besser als die frühere Kombination aus CLIP und T5, aber sehr groß
    Hätte man auf ein unter Apache 2.0 distilliertes Modell gewartet und es dann veröffentlicht, wäre eine stärkere Differenzierung gegenüber Nano Banana möglich gewesen
    Auch die Preisstruktur ist ungewöhnlich — Eingabe kostet $0.015 pro MP, Ausgabe $0.03 für das erste MP und danach $0.015 pro MP

    • Qwen-Image-Edit-2511 soll nächste Woche unter Apache 2.0 erscheinen, daher wirkt es, als habe BFL die Veröffentlichung beschleunigt
    • CLIP war faktisch eine bedeutungslose Wahl. Selbst mit auf 0 gesetzten Gewichten waren die Ergebnisse nahezu identisch
    • Die Kombination aus CLIP und T5 wurde damals von vielen Bildgenerierungsmodellen verwendet. Es war keine seltsame Entscheidung
    • Beim Fokus auf die GTM-Strategie scheint der europäische Markt das Nachsehen gehabt zu haben
  • Es ist gut, dass Nano Banana Pro einen Konkurrenten bekommen hat
    Das hilft, den Preiswettbewerb aufrechtzuerhalten

    • In Regionen wie Hongkong, wo die Nutzung von US-Modellen eingeschränkt ist, sind solche Alternativen besonders wichtig
      Google, OpenAI und Claude können dort alle nicht abonniert werden
    • Es ist auch schön zu sehen, dass ein europäisches Unternehmen aktiv mitmischt
  • Zur Einordnung: Die Open-Source-Version FLUX.2-DEV ist nicht für kommerzielle Nutzung erlaubt
    Vollständiger Lizenztext

  • Es wurde Nano Banana Pro mit Flux 2 Pro anhand des Prompts „family guy cyberpunk 2077“ verglichen,
    wobei das Google-Modell besser zu einer Spielszene passte und Flux zu realistisch wirkte

    • Flux ist auf fotolastige Datensätze abgestimmt und daher bei künstlerischen Stilen schwächer
      Flux 2 Pro zeigte eine ähnliche Tendenz
      Mit dem LoRA-Ökosystem und etwas Zeit fürs Feintuning bleibt Flux 1 Dev aber weiterhin stark bei kreativem Styling
  • Eine 18GB-4bit-Quant-Version wird über diffusers bereitgestellt und kann daher auch in Umgebungen mit wenig VRAM ausgeführt werden