FLUX.2 [klein]: Auf dem Weg zu interaktiver visueller Intelligenz

(bfl.ai)

5 Punkte von GN⁺ 2026-01-19 | 2 Kommentare | Auf WhatsApp teilen

FLUX.2 [klein] ist eine ultraschnelle visuelle Modellfamilie, die Bildgenerierung und -bearbeitung integriert und Inferenzgeschwindigkeiten von unter 1 Sekunde sowie Kompatibilität mit Consumer-GPUs bietet
Unterstützt Text-zu-Bild, Bildbearbeitung und Multi-Reference-Generierung in einer einheitlichen Architektur, bei einer Qualität auf dem Niveau großer Modelle
Das 9B-Modell wird unter der FLUX NCL-Lizenz, das 4B-Modell unter der Apache-2.0-Lizenz veröffentlicht, was Entwicklerzugang und Anpassbarkeit erleichtert
Die FP8- und NVFP4-quantisierten Versionen wurden in Zusammenarbeit mit NVIDIA erstellt und senken den VRAM-Bedarf um bis zu 55 % sowie steigern die Geschwindigkeit um bis zu 2,7x
Als Schritt hin zur Vision „interaktiver visueller Intelligenz“, die auf Echtzeitgenerierung und Interaktion abzielt, ist es für Echtzeit-Design- und Content-Erstellungstools nutzbar

Überblick über FLUX.2 [klein]

FLUX.2 [klein] ist die von Black Forest Labs veröffentlichte schnellste Bildgenerierungs-Modellfamilie und vereint Generierung und Bearbeitung in einer Struktur
- Die End-to-End-Inferenzgeschwindigkeit liegt bei unter 1 Sekunde, hochwertige Bilder werden in Echtzeit erzeugt
- Es kann mit nur 13 GB VRAM betrieben werden und läuft damit auch auf GPUs der Klasse RTX 3090/4070
Der Modellname „klein“ bedeutet auf Deutsch klein und steht für die kompakte Struktur und niedrige Latenz
- Die Leistung ist dennoch mit großen Modellen vergleichbar und unterstützt Text-zu-Bild-Generierung, Bearbeitung und Multi-Reference-Generierung

Hauptmerkmale

Bildgenerierung oder -bearbeitung mit unter 0,5 Sekunden Inferenz
Fotorealistische Qualität und hohe Vielfalt
Integrierte Modellarchitektur: Text-zu-Bild-, Bild-zu-Bild- und Multi-Reference-Aufgaben in einem einzigen Modell
Kompatibel mit Consumer-GPUs: Das 4B-Modell läuft mit etwa 13 GB VRAM
Entwicklerfreundlich: Das 4B-Modell ist unter Apache 2.0 verfügbar, das 9B-Modell unter FLUX NCL
Mit API und offenen Gewichten sind sowohl lokale Ausführung als auch produktiver Einsatz möglich

Modellaufbau

FLUX.2 [klein] 9B

Flaggschiffmodell, das das Gleichgewicht zwischen Qualität und Latenz definiert
- Bei Text-zu-Bild, Single-Reference-Editing und Multi-Reference-Generierung gleichwertige oder bessere Leistung als 5x größere Modelle
- Unter 0,5 Sekunden Inferenzgeschwindigkeit
- Basierend auf einem 9B-Flow-Modell und einem 8B-Qwen3-Text-Embedder
- 4-Schritt-Inferenzarchitektur (step-distilled) zur Maximierung der Effizienz
Lizenz: FLUX NCL

FLUX.2 [klein] 4B

Ein unter der Apache-2.0-Lizenz vollständig offengelegtes Modell
- Lauffähig auf Consumer-GPUs wie RTX 3090/4070
- Unterstützt Text-to-Image (T2I), Image-to-Image (I2I) und Multi-Reference-Generierung
- Trotz kompakter Größe hohe Qualität im Verhältnis zur Modellgröße
- Geeignet für lokale Entwicklung und Edge-Deployment

FLUX.2 [klein] Base 9B / 4B

Nicht destillierte (full-capacity) Versionen, die das Trainingssignal vollständig bewahren
- Geeignet für Finetuning, LoRA-Training und Forschungs-Pipelines
- Höhere Ausgabevielfalt als destillierte Modelle
Lizenz: 4B Base unter Apache 2.0, 9B Base unter FLUX NCL

Quantisierte Versionen

In Zusammenarbeit mit NVIDIA wurden FP8- und NVFP4-Versionen veröffentlicht
- FP8: bis zu 1,6x schneller und 40 % weniger VRAM
- NVFP4: bis zu 2,7x schneller und 55 % weniger VRAM
- 1024×1024-T2I-Benchmark auf RTX 5080/5090 durchgeführt
Gleiches Lizenzmodell bleibt bestehen: 4B unter Apache 2.0, 9B unter FLUX NCL

Leistungsanalyse

FLUX.2 [klein] erreicht gleichwertige oder bessere Qualität bei geringerer Latenz und geringerem VRAM-Verbrauch als Qwen
Zeigt bessere Leistung als Z-Image und unterstützt Text-zu-Bild sowie Multi-Reference-Editing in einem einzigen Modell
Die Base-Versionen sind etwas langsamer, bieten aber höhere Anpassbarkeit und Forschungstauglichkeit
Die Geschwindigkeitsmessungen wurden in einer GB200-(bf16)-Umgebung durchgeführt

Vision interaktiver visueller Intelligenz

FLUX.2 [klein] ist mehr als nur eine Geschwindigkeitssteigerung und markiert einen Fortschritt hin zu visueller Intelligenz mit Echtzeitinteraktion
Ziel ist ein System, das sehen, erschaffen und iterieren kann
Dadurch werden neue Anwendungsfelder wie Echtzeit-Designtools, visuelles Schlussfolgern und interaktive Content-Erstellung möglich

Ressourcen und Zugangswege

Ausprobieren: Demo, Playground
Hugging Face Space: klein 9B, klein 4B
Entwicklerressourcen: Dokumentation, GitHub, Modellgewichte
Weitere Informationen: Offizielle Modellseite

2 Kommentare

yangeok 2026-01-19

Ah, auf dem Mac wird das wohl nichts. Es heißt No GPU or XPU found, haha,,

GN⁺ 2026-01-19

Hacker-News-Kommentare

Ich habe Klein noch nicht zu meiner GenAI Showdown-Seite hinzugefügt
Aber wenn es Z-Image Turbo ähnelt, dürfte die Leistung sehr stark sein
Z-Image Turbo bekam übrigens 4 von 15 Punkten, was ziemlich beeindruckend ist, wenn man bedenkt, dass das deutlich größere Modell Flux.2 (32b) nur einen Punkt mehr bekam
Den Vergleich lokaler Modelle gibt es hier
- Auf Mobilgeräten gibt es ein Problem, bei dem die Info-Bubble sofort verschwindet, wenn man sie antippt. Ich habe um eine Korrektur gebeten
- Ich denke, mit der Testmethode gibt es ein Problem. Große Modelle haben deutlich bessere feingranulare Lernfähigkeiten und ein besseres Verständnis für CGI-Rendering
  Ein Test auf Basis strukturierter Daten kann falsches Vertrauen erzeugen. Einfaches Text-zu-Bild ist inzwischen kein guter Benchmark mehr
Es ist erstaunlich, dass die Modelle immer kleiner werden und gleichzeitig Qualität und Effizienz steigen
Z-Image Turbo ist wirklich beeindruckend, und ich möchte dieses Modell auch so schnell wie möglich ausprobieren
Einen älteren zugehörigen Thread gibt es hier
- Es scheint, als gäbe es auch bei kleinen Modellen Momente, in denen ein Schwellenwert erreicht wird
  Ein 100-GB-Modell ist schwer herunterzuladen und auszuführen, aber ein 4-GB-Modell können die meisten Entwickler sofort ausprobieren
- Die Qualität wird besser, aber kleinen Modellen fehlt im Vergleich zu großen Modellen wie Qwen Image oder Flux 2 Full noch immer Wissensumfang
  Besonders bei Personen, Künstlern und bestimmten Objekten ist der Unterschied groß
- Ich frage mich, ob es eine Mindestanzahl an Parametern gibt, die für eine bestimmte Ausgabequalität nötig ist
  Nach GPT 3.5 wurde Deepseek mit viel geringeren Kosten trainiert, und inzwischen laufen auf Laptops Modelle, die 3.5 übertreffen. Ich frage mich, wie weit sich das noch reduzieren lässt
Dieses Modell kann keine Pogo-Stick-Bilder erzeugen
Ich habe versucht, ein Bild von einem „Tiger, der auf einem Pogo-Stick springt“ zu erzeugen, aber es konnte nicht einmal den Pogo-Stick selbst generieren
- Selbst wenn man ein Bild eines leeren Weinglases gibt und es auffordert, es mit Wein zu füllen, scheitert es
  Solche physischen Manipulationen beherrschen die Modelle noch nicht, also sind entsprechende Berufe wohl vorerst sicher
- Für lokale Modelle ist das ein schwieriger Test. gpt-image und NB hatten damit kein Problem, aber nur Qwen-Image lieferte ein annäherndes Ergebnis
  Beispiele verschiedener Modelle gibt es hier
  Kleine Modelle brauchen für die Darstellung eines konkreten Objekts wie eines Pogo-Sticks zusätzliche Prompts
- Selbst mit einem Referenzbild scheitert es noch.
  Wenn das Modell genug Schlussfolgerungsvermögen hätte, könnte es sein Wissen durch externe Referenzbilder ergänzen, aber so weit ist es noch nicht
- Das ist ein guter Benchmark-Prompt. Auch Z-Image Turbo zeichnet Pogo-Sticks nicht gut
  Tiger-Beispiel, das ist kein Pogo-Stick, Nano-Banana-Pro-Beispiel
FLUX.2 [klein] 4B ist die schnellste Version der Klein-Familie und soll für Echtzeitvorschau oder latenzkritische Produktionsumgebungen ausgelegt sein
Ich frage mich, welche Situationen genau damit gemeint sind
- Wenn ich lokale Modelle nutze, möchte ich nicht 10 Minuten auf die Erzeugung eines einzelnen Bildes warten
  Gerade bei Bildbearbeitungs-Workflows ist Geschwindigkeit wichtig
- Vermutlich eignet es sich gut für schnelle Bildbearbeitung
Zuerst dachte ich, es gehe um die F.lux-App, die nachts den Bildschirm orange färbt
Inzwischen ist diese Funktion standardmäßig in jedem OS enthalten, daher braucht man sie nicht mehr
Wenn man GenAI-Modelle als komprimierte Implementierungen betrachtet, wird Text gut komprimiert, Bilder und Videos aber nicht
Trotzdem sind aktuelle Text-zu-Bild- und Text-zu-Video-Modelle viel kleiner als LLMs wie Llama-3
Das könnte daran liegen, dass wir nur einen engen menschenzentrierten Bereich der visuellen Welt trainiert haben. Es gibt noch viele unerforschte visuelle Kombinationsräume
- Text lässt sich verlustfrei komprimieren, aber Bilder und Videos enthalten viel Rauschen, daher ist ein direkter Vergleich unfair
  Wenn verlustbehaftete Kompression auf einem Niveau erfolgt, das Menschen nicht unterscheiden können, könnten Bilder sogar effizienter sein
- Tatsächlich lassen sich Bilder und Videos viel besser komprimieren als Text
  Text liegt eher bei 4:1 bis 6:1, während Bilder selbst bei über 10:1 visuell verlustfrei wirken, und Videos sind dank zeitlicher Konsistenz noch effizienter
- Ich denke, bei LLMs gibt es noch viel Spielraum für Effizienzverbesserungen
  Gleichzeitig sollte man die Menge an implizitem Meta-Wissen, die in LLMs steckt, nicht unterschätzen
Ich frage mich, ob jemand Flux 2 Klein schon ausprobiert hat
Ich jage neuen Modellen inzwischen nicht mehr hinterher und baue meine ganze App nur mit Nano Banana Pro
Die Ergebnisse sind für mich vollkommen zufriedenstellend
picxstudio.com
Mit Flux 1 hatte ich wirklich viel Spaß, und gerade spiele ich mit Z-Image Turbo herum
Wenn Flux2 Klein zu Invoke hinzugefügt wird, werde ich es ausprobieren
- Stimme zu. Die Erfahrung mit ZIT in Invoke war großartig
Ich frage mich, wie die Interaktionsfähigkeit im Vergleich zu den GPT-Versionen ist
Mir gefällt, dass selbst diese kleine Version als Open Source veröffentlicht wurde
Dadurch gibt es viele Möglichkeiten, weil man sie auch ohne riesiges Budget ausführen kann
Auch die Geschwindigkeitsverbesserung ist ziemlich beeindruckend

FLUX.2 [klein]: Auf dem Weg zu interaktiver visueller Intelligenz

Überblick über FLUX.2 [klein]

Hauptmerkmale

Modellaufbau

FLUX.2 [klein] 9B

FLUX.2 [klein] 4B

FLUX.2 [klein] Base 9B / 4B

Quantisierte Versionen

Leistungsanalyse

Vision interaktiver visueller Intelligenz

Ressourcen und Zugangswege

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentare