- FLUX.2 [klein] ist eine ultraschnelle visuelle Modellfamilie, die Bildgenerierung und -bearbeitung integriert und Inferenzgeschwindigkeiten von unter 1 Sekunde sowie Kompatibilität mit Consumer-GPUs bietet
- Unterstützt Text-zu-Bild, Bildbearbeitung und Multi-Reference-Generierung in einer einheitlichen Architektur, bei einer Qualität auf dem Niveau großer Modelle
- Das 9B-Modell wird unter der FLUX NCL-Lizenz, das 4B-Modell unter der Apache-2.0-Lizenz veröffentlicht, was Entwicklerzugang und Anpassbarkeit erleichtert
- Die FP8- und NVFP4-quantisierten Versionen wurden in Zusammenarbeit mit NVIDIA erstellt und senken den VRAM-Bedarf um bis zu 55 % sowie steigern die Geschwindigkeit um bis zu 2,7x
- Als Schritt hin zur Vision „interaktiver visueller Intelligenz“, die auf Echtzeitgenerierung und Interaktion abzielt, ist es für Echtzeit-Design- und Content-Erstellungstools nutzbar
Überblick über FLUX.2 [klein]
- FLUX.2 [klein] ist die von Black Forest Labs veröffentlichte schnellste Bildgenerierungs-Modellfamilie und vereint Generierung und Bearbeitung in einer Struktur
- Die End-to-End-Inferenzgeschwindigkeit liegt bei unter 1 Sekunde, hochwertige Bilder werden in Echtzeit erzeugt
- Es kann mit nur 13 GB VRAM betrieben werden und läuft damit auch auf GPUs der Klasse RTX 3090/4070
- Der Modellname „klein“ bedeutet auf Deutsch klein und steht für die kompakte Struktur und niedrige Latenz
- Die Leistung ist dennoch mit großen Modellen vergleichbar und unterstützt Text-zu-Bild-Generierung, Bearbeitung und Multi-Reference-Generierung
Hauptmerkmale
- Bildgenerierung oder -bearbeitung mit unter 0,5 Sekunden Inferenz
- Fotorealistische Qualität und hohe Vielfalt
- Integrierte Modellarchitektur: Text-zu-Bild-, Bild-zu-Bild- und Multi-Reference-Aufgaben in einem einzigen Modell
- Kompatibel mit Consumer-GPUs: Das 4B-Modell läuft mit etwa 13 GB VRAM
- Entwicklerfreundlich: Das 4B-Modell ist unter Apache 2.0 verfügbar, das 9B-Modell unter FLUX NCL
- Mit API und offenen Gewichten sind sowohl lokale Ausführung als auch produktiver Einsatz möglich
Modellaufbau
FLUX.2 [klein] 9B
- Flaggschiffmodell, das das Gleichgewicht zwischen Qualität und Latenz definiert
- Bei Text-zu-Bild, Single-Reference-Editing und Multi-Reference-Generierung gleichwertige oder bessere Leistung als 5x größere Modelle
- Unter 0,5 Sekunden Inferenzgeschwindigkeit
- Basierend auf einem 9B-Flow-Modell und einem 8B-Qwen3-Text-Embedder
- 4-Schritt-Inferenzarchitektur (step-distilled) zur Maximierung der Effizienz
- Lizenz: FLUX NCL
FLUX.2 [klein] 4B
- Ein unter der Apache-2.0-Lizenz vollständig offengelegtes Modell
- Lauffähig auf Consumer-GPUs wie RTX 3090/4070
- Unterstützt Text-to-Image (T2I), Image-to-Image (I2I) und Multi-Reference-Generierung
- Trotz kompakter Größe hohe Qualität im Verhältnis zur Modellgröße
- Geeignet für lokale Entwicklung und Edge-Deployment
FLUX.2 [klein] Base 9B / 4B
- Nicht destillierte (full-capacity) Versionen, die das Trainingssignal vollständig bewahren
- Geeignet für Finetuning, LoRA-Training und Forschungs-Pipelines
- Höhere Ausgabevielfalt als destillierte Modelle
- Lizenz: 4B Base unter Apache 2.0, 9B Base unter FLUX NCL
Quantisierte Versionen
- In Zusammenarbeit mit NVIDIA wurden FP8- und NVFP4-Versionen veröffentlicht
- FP8: bis zu 1,6x schneller und 40 % weniger VRAM
- NVFP4: bis zu 2,7x schneller und 55 % weniger VRAM
- 1024×1024-T2I-Benchmark auf RTX 5080/5090 durchgeführt
- Gleiches Lizenzmodell bleibt bestehen: 4B unter Apache 2.0, 9B unter FLUX NCL
Leistungsanalyse
- FLUX.2 [klein] erreicht gleichwertige oder bessere Qualität bei geringerer Latenz und geringerem VRAM-Verbrauch als Qwen
- Zeigt bessere Leistung als Z-Image und unterstützt Text-zu-Bild sowie Multi-Reference-Editing in einem einzigen Modell
- Die Base-Versionen sind etwas langsamer, bieten aber höhere Anpassbarkeit und Forschungstauglichkeit
- Die Geschwindigkeitsmessungen wurden in einer GB200-(bf16)-Umgebung durchgeführt
Vision interaktiver visueller Intelligenz
- FLUX.2 [klein] ist mehr als nur eine Geschwindigkeitssteigerung und markiert einen Fortschritt hin zu visueller Intelligenz mit Echtzeitinteraktion
- Ziel ist ein System, das sehen, erschaffen und iterieren kann
- Dadurch werden neue Anwendungsfelder wie Echtzeit-Designtools, visuelles Schlussfolgern und interaktive Content-Erstellung möglich
Ressourcen und Zugangswege
Noch keine Kommentare.