- FLUX.2 [klein] ist eine ultraschnelle visuelle Modellfamilie, die Bildgenerierung und -bearbeitung integriert und Inferenzgeschwindigkeiten von unter 1 Sekunde sowie Kompatibilität mit Consumer-GPUs bietet
- Unterstützt Text-zu-Bild, Bildbearbeitung und Multi-Reference-Generierung in einer einheitlichen Architektur, bei einer Qualität auf dem Niveau großer Modelle
- Das 9B-Modell wird unter der FLUX NCL-Lizenz, das 4B-Modell unter der Apache-2.0-Lizenz veröffentlicht, was Entwicklerzugang und Anpassbarkeit erleichtert
- Die FP8- und NVFP4-quantisierten Versionen wurden in Zusammenarbeit mit NVIDIA erstellt und senken den VRAM-Bedarf um bis zu 55 % sowie steigern die Geschwindigkeit um bis zu 2,7x
- Als Schritt hin zur Vision „interaktiver visueller Intelligenz“, die auf Echtzeitgenerierung und Interaktion abzielt, ist es für Echtzeit-Design- und Content-Erstellungstools nutzbar
Überblick über FLUX.2 [klein]
- FLUX.2 [klein] ist die von Black Forest Labs veröffentlichte schnellste Bildgenerierungs-Modellfamilie und vereint Generierung und Bearbeitung in einer Struktur
- Die End-to-End-Inferenzgeschwindigkeit liegt bei unter 1 Sekunde, hochwertige Bilder werden in Echtzeit erzeugt
- Es kann mit nur 13 GB VRAM betrieben werden und läuft damit auch auf GPUs der Klasse RTX 3090/4070
- Der Modellname „klein“ bedeutet auf Deutsch klein und steht für die kompakte Struktur und niedrige Latenz
- Die Leistung ist dennoch mit großen Modellen vergleichbar und unterstützt Text-zu-Bild-Generierung, Bearbeitung und Multi-Reference-Generierung
Hauptmerkmale
- Bildgenerierung oder -bearbeitung mit unter 0,5 Sekunden Inferenz
- Fotorealistische Qualität und hohe Vielfalt
- Integrierte Modellarchitektur: Text-zu-Bild-, Bild-zu-Bild- und Multi-Reference-Aufgaben in einem einzigen Modell
- Kompatibel mit Consumer-GPUs: Das 4B-Modell läuft mit etwa 13 GB VRAM
- Entwicklerfreundlich: Das 4B-Modell ist unter Apache 2.0 verfügbar, das 9B-Modell unter FLUX NCL
- Mit API und offenen Gewichten sind sowohl lokale Ausführung als auch produktiver Einsatz möglich
Modellaufbau
FLUX.2 [klein] 9B
- Flaggschiffmodell, das das Gleichgewicht zwischen Qualität und Latenz definiert
- Bei Text-zu-Bild, Single-Reference-Editing und Multi-Reference-Generierung gleichwertige oder bessere Leistung als 5x größere Modelle
- Unter 0,5 Sekunden Inferenzgeschwindigkeit
- Basierend auf einem 9B-Flow-Modell und einem 8B-Qwen3-Text-Embedder
- 4-Schritt-Inferenzarchitektur (step-distilled) zur Maximierung der Effizienz
- Lizenz: FLUX NCL
FLUX.2 [klein] 4B
- Ein unter der Apache-2.0-Lizenz vollständig offengelegtes Modell
- Lauffähig auf Consumer-GPUs wie RTX 3090/4070
- Unterstützt Text-to-Image (T2I), Image-to-Image (I2I) und Multi-Reference-Generierung
- Trotz kompakter Größe hohe Qualität im Verhältnis zur Modellgröße
- Geeignet für lokale Entwicklung und Edge-Deployment
FLUX.2 [klein] Base 9B / 4B
- Nicht destillierte (full-capacity) Versionen, die das Trainingssignal vollständig bewahren
- Geeignet für Finetuning, LoRA-Training und Forschungs-Pipelines
- Höhere Ausgabevielfalt als destillierte Modelle
- Lizenz: 4B Base unter Apache 2.0, 9B Base unter FLUX NCL
Quantisierte Versionen
- In Zusammenarbeit mit NVIDIA wurden FP8- und NVFP4-Versionen veröffentlicht
- FP8: bis zu 1,6x schneller und 40 % weniger VRAM
- NVFP4: bis zu 2,7x schneller und 55 % weniger VRAM
- 1024×1024-T2I-Benchmark auf RTX 5080/5090 durchgeführt
- Gleiches Lizenzmodell bleibt bestehen: 4B unter Apache 2.0, 9B unter FLUX NCL
Leistungsanalyse
- FLUX.2 [klein] erreicht gleichwertige oder bessere Qualität bei geringerer Latenz und geringerem VRAM-Verbrauch als Qwen
- Zeigt bessere Leistung als Z-Image und unterstützt Text-zu-Bild sowie Multi-Reference-Editing in einem einzigen Modell
- Die Base-Versionen sind etwas langsamer, bieten aber höhere Anpassbarkeit und Forschungstauglichkeit
- Die Geschwindigkeitsmessungen wurden in einer GB200-(bf16)-Umgebung durchgeführt
Vision interaktiver visueller Intelligenz
- FLUX.2 [klein] ist mehr als nur eine Geschwindigkeitssteigerung und markiert einen Fortschritt hin zu visueller Intelligenz mit Echtzeitinteraktion
- Ziel ist ein System, das sehen, erschaffen und iterieren kann
- Dadurch werden neue Anwendungsfelder wie Echtzeit-Designtools, visuelles Schlussfolgern und interaktive Content-Erstellung möglich
Ressourcen und Zugangswege
- Ausprobieren: Demo, Playground
- Hugging Face Space: klein 9B, klein 4B
- Entwicklerressourcen: Dokumentation, GitHub, Modellgewichte
- Weitere Informationen: Offizielle Modellseite
2 Kommentare
Ah, auf dem Mac wird das wohl nichts. Es heißt
No GPU or XPU found, haha,,Hacker-News-Kommentare
Ich habe Klein noch nicht zu meiner GenAI Showdown-Seite hinzugefügt
Aber wenn es Z-Image Turbo ähnelt, dürfte die Leistung sehr stark sein
Z-Image Turbo bekam übrigens 4 von 15 Punkten, was ziemlich beeindruckend ist, wenn man bedenkt, dass das deutlich größere Modell Flux.2 (32b) nur einen Punkt mehr bekam
Den Vergleich lokaler Modelle gibt es hier
Ein Test auf Basis strukturierter Daten kann falsches Vertrauen erzeugen. Einfaches Text-zu-Bild ist inzwischen kein guter Benchmark mehr
Es ist erstaunlich, dass die Modelle immer kleiner werden und gleichzeitig Qualität und Effizienz steigen
Z-Image Turbo ist wirklich beeindruckend, und ich möchte dieses Modell auch so schnell wie möglich ausprobieren
Einen älteren zugehörigen Thread gibt es hier
Ein 100-GB-Modell ist schwer herunterzuladen und auszuführen, aber ein 4-GB-Modell können die meisten Entwickler sofort ausprobieren
Besonders bei Personen, Künstlern und bestimmten Objekten ist der Unterschied groß
Nach GPT 3.5 wurde Deepseek mit viel geringeren Kosten trainiert, und inzwischen laufen auf Laptops Modelle, die 3.5 übertreffen. Ich frage mich, wie weit sich das noch reduzieren lässt
Dieses Modell kann keine Pogo-Stick-Bilder erzeugen
Ich habe versucht, ein Bild von einem „Tiger, der auf einem Pogo-Stick springt“ zu erzeugen, aber es konnte nicht einmal den Pogo-Stick selbst generieren
Solche physischen Manipulationen beherrschen die Modelle noch nicht, also sind entsprechende Berufe wohl vorerst sicher
Beispiele verschiedener Modelle gibt es hier
Kleine Modelle brauchen für die Darstellung eines konkreten Objekts wie eines Pogo-Sticks zusätzliche Prompts
Wenn das Modell genug Schlussfolgerungsvermögen hätte, könnte es sein Wissen durch externe Referenzbilder ergänzen, aber so weit ist es noch nicht
Tiger-Beispiel, das ist kein Pogo-Stick, Nano-Banana-Pro-Beispiel
FLUX.2 [klein] 4B ist die schnellste Version der Klein-Familie und soll für Echtzeitvorschau oder latenzkritische Produktionsumgebungen ausgelegt sein
Ich frage mich, welche Situationen genau damit gemeint sind
Gerade bei Bildbearbeitungs-Workflows ist Geschwindigkeit wichtig
Zuerst dachte ich, es gehe um die F.lux-App, die nachts den Bildschirm orange färbt
Inzwischen ist diese Funktion standardmäßig in jedem OS enthalten, daher braucht man sie nicht mehr
Wenn man GenAI-Modelle als komprimierte Implementierungen betrachtet, wird Text gut komprimiert, Bilder und Videos aber nicht
Trotzdem sind aktuelle Text-zu-Bild- und Text-zu-Video-Modelle viel kleiner als LLMs wie Llama-3
Das könnte daran liegen, dass wir nur einen engen menschenzentrierten Bereich der visuellen Welt trainiert haben. Es gibt noch viele unerforschte visuelle Kombinationsräume
Wenn verlustbehaftete Kompression auf einem Niveau erfolgt, das Menschen nicht unterscheiden können, könnten Bilder sogar effizienter sein
Text liegt eher bei 4:1 bis 6:1, während Bilder selbst bei über 10:1 visuell verlustfrei wirken, und Videos sind dank zeitlicher Konsistenz noch effizienter
Gleichzeitig sollte man die Menge an implizitem Meta-Wissen, die in LLMs steckt, nicht unterschätzen
Ich frage mich, ob jemand Flux 2 Klein schon ausprobiert hat
Ich jage neuen Modellen inzwischen nicht mehr hinterher und baue meine ganze App nur mit Nano Banana Pro
Die Ergebnisse sind für mich vollkommen zufriedenstellend
picxstudio.com
Mit Flux 1 hatte ich wirklich viel Spaß, und gerade spiele ich mit Z-Image Turbo herum
Wenn Flux2 Klein zu Invoke hinzugefügt wird, werde ich es ausprobieren
Ich frage mich, wie die Interaktionsfähigkeit im Vergleich zu den GPT-Versionen ist
Mir gefällt, dass selbst diese kleine Version als Open Source veröffentlicht wurde
Dadurch gibt es viele Möglichkeiten, weil man sie auch ohne riesiges Budget ausführen kann
Auch die Geschwindigkeitsverbesserung ist ziemlich beeindruckend