5 Punkte von GN⁺ 2026-01-19 | 2 Kommentare | Auf WhatsApp teilen
  • FLUX.2 [klein] ist eine ultraschnelle visuelle Modellfamilie, die Bildgenerierung und -bearbeitung integriert und Inferenzgeschwindigkeiten von unter 1 Sekunde sowie Kompatibilität mit Consumer-GPUs bietet
  • Unterstützt Text-zu-Bild, Bildbearbeitung und Multi-Reference-Generierung in einer einheitlichen Architektur, bei einer Qualität auf dem Niveau großer Modelle
  • Das 9B-Modell wird unter der FLUX NCL-Lizenz, das 4B-Modell unter der Apache-2.0-Lizenz veröffentlicht, was Entwicklerzugang und Anpassbarkeit erleichtert
  • Die FP8- und NVFP4-quantisierten Versionen wurden in Zusammenarbeit mit NVIDIA erstellt und senken den VRAM-Bedarf um bis zu 55 % sowie steigern die Geschwindigkeit um bis zu 2,7x
  • Als Schritt hin zur Vision „interaktiver visueller Intelligenz“, die auf Echtzeitgenerierung und Interaktion abzielt, ist es für Echtzeit-Design- und Content-Erstellungstools nutzbar

Überblick über FLUX.2 [klein]

  • FLUX.2 [klein] ist die von Black Forest Labs veröffentlichte schnellste Bildgenerierungs-Modellfamilie und vereint Generierung und Bearbeitung in einer Struktur
    • Die End-to-End-Inferenzgeschwindigkeit liegt bei unter 1 Sekunde, hochwertige Bilder werden in Echtzeit erzeugt
    • Es kann mit nur 13 GB VRAM betrieben werden und läuft damit auch auf GPUs der Klasse RTX 3090/4070
  • Der Modellname „klein“ bedeutet auf Deutsch klein und steht für die kompakte Struktur und niedrige Latenz
    • Die Leistung ist dennoch mit großen Modellen vergleichbar und unterstützt Text-zu-Bild-Generierung, Bearbeitung und Multi-Reference-Generierung

Hauptmerkmale

  • Bildgenerierung oder -bearbeitung mit unter 0,5 Sekunden Inferenz
  • Fotorealistische Qualität und hohe Vielfalt
  • Integrierte Modellarchitektur: Text-zu-Bild-, Bild-zu-Bild- und Multi-Reference-Aufgaben in einem einzigen Modell
  • Kompatibel mit Consumer-GPUs: Das 4B-Modell läuft mit etwa 13 GB VRAM
  • Entwicklerfreundlich: Das 4B-Modell ist unter Apache 2.0 verfügbar, das 9B-Modell unter FLUX NCL
  • Mit API und offenen Gewichten sind sowohl lokale Ausführung als auch produktiver Einsatz möglich

Modellaufbau

FLUX.2 [klein] 9B

  • Flaggschiffmodell, das das Gleichgewicht zwischen Qualität und Latenz definiert
    • Bei Text-zu-Bild, Single-Reference-Editing und Multi-Reference-Generierung gleichwertige oder bessere Leistung als 5x größere Modelle
    • Unter 0,5 Sekunden Inferenzgeschwindigkeit
    • Basierend auf einem 9B-Flow-Modell und einem 8B-Qwen3-Text-Embedder
    • 4-Schritt-Inferenzarchitektur (step-distilled) zur Maximierung der Effizienz
  • Lizenz: FLUX NCL

FLUX.2 [klein] 4B

  • Ein unter der Apache-2.0-Lizenz vollständig offengelegtes Modell
    • Lauffähig auf Consumer-GPUs wie RTX 3090/4070
    • Unterstützt Text-to-Image (T2I), Image-to-Image (I2I) und Multi-Reference-Generierung
    • Trotz kompakter Größe hohe Qualität im Verhältnis zur Modellgröße
    • Geeignet für lokale Entwicklung und Edge-Deployment

FLUX.2 [klein] Base 9B / 4B

  • Nicht destillierte (full-capacity) Versionen, die das Trainingssignal vollständig bewahren
    • Geeignet für Finetuning, LoRA-Training und Forschungs-Pipelines
    • Höhere Ausgabevielfalt als destillierte Modelle
  • Lizenz: 4B Base unter Apache 2.0, 9B Base unter FLUX NCL

Quantisierte Versionen

  • In Zusammenarbeit mit NVIDIA wurden FP8- und NVFP4-Versionen veröffentlicht
    • FP8: bis zu 1,6x schneller und 40 % weniger VRAM
    • NVFP4: bis zu 2,7x schneller und 55 % weniger VRAM
    • 1024×1024-T2I-Benchmark auf RTX 5080/5090 durchgeführt
  • Gleiches Lizenzmodell bleibt bestehen: 4B unter Apache 2.0, 9B unter FLUX NCL

Leistungsanalyse

  • FLUX.2 [klein] erreicht gleichwertige oder bessere Qualität bei geringerer Latenz und geringerem VRAM-Verbrauch als Qwen
  • Zeigt bessere Leistung als Z-Image und unterstützt Text-zu-Bild sowie Multi-Reference-Editing in einem einzigen Modell
  • Die Base-Versionen sind etwas langsamer, bieten aber höhere Anpassbarkeit und Forschungstauglichkeit
  • Die Geschwindigkeitsmessungen wurden in einer GB200-(bf16)-Umgebung durchgeführt

Vision interaktiver visueller Intelligenz

  • FLUX.2 [klein] ist mehr als nur eine Geschwindigkeitssteigerung und markiert einen Fortschritt hin zu visueller Intelligenz mit Echtzeitinteraktion
  • Ziel ist ein System, das sehen, erschaffen und iterieren kann
  • Dadurch werden neue Anwendungsfelder wie Echtzeit-Designtools, visuelles Schlussfolgern und interaktive Content-Erstellung möglich

Ressourcen und Zugangswege


2 Kommentare

 
yangeok 2026-01-19

Ah, auf dem Mac wird das wohl nichts. Es heißt No GPU or XPU found, haha,,

 
GN⁺ 2026-01-19
Hacker-News-Kommentare
  • Ich habe Klein noch nicht zu meiner GenAI Showdown-Seite hinzugefügt
    Aber wenn es Z-Image Turbo ähnelt, dürfte die Leistung sehr stark sein
    Z-Image Turbo bekam übrigens 4 von 15 Punkten, was ziemlich beeindruckend ist, wenn man bedenkt, dass das deutlich größere Modell Flux.2 (32b) nur einen Punkt mehr bekam
    Den Vergleich lokaler Modelle gibt es hier

    • Auf Mobilgeräten gibt es ein Problem, bei dem die Info-Bubble sofort verschwindet, wenn man sie antippt. Ich habe um eine Korrektur gebeten
    • Ich denke, mit der Testmethode gibt es ein Problem. Große Modelle haben deutlich bessere feingranulare Lernfähigkeiten und ein besseres Verständnis für CGI-Rendering
      Ein Test auf Basis strukturierter Daten kann falsches Vertrauen erzeugen. Einfaches Text-zu-Bild ist inzwischen kein guter Benchmark mehr
  • Es ist erstaunlich, dass die Modelle immer kleiner werden und gleichzeitig Qualität und Effizienz steigen
    Z-Image Turbo ist wirklich beeindruckend, und ich möchte dieses Modell auch so schnell wie möglich ausprobieren
    Einen älteren zugehörigen Thread gibt es hier

    • Es scheint, als gäbe es auch bei kleinen Modellen Momente, in denen ein Schwellenwert erreicht wird
      Ein 100-GB-Modell ist schwer herunterzuladen und auszuführen, aber ein 4-GB-Modell können die meisten Entwickler sofort ausprobieren
    • Die Qualität wird besser, aber kleinen Modellen fehlt im Vergleich zu großen Modellen wie Qwen Image oder Flux 2 Full noch immer Wissensumfang
      Besonders bei Personen, Künstlern und bestimmten Objekten ist der Unterschied groß
    • Ich frage mich, ob es eine Mindestanzahl an Parametern gibt, die für eine bestimmte Ausgabequalität nötig ist
      Nach GPT 3.5 wurde Deepseek mit viel geringeren Kosten trainiert, und inzwischen laufen auf Laptops Modelle, die 3.5 übertreffen. Ich frage mich, wie weit sich das noch reduzieren lässt
  • Dieses Modell kann keine Pogo-Stick-Bilder erzeugen
    Ich habe versucht, ein Bild von einem „Tiger, der auf einem Pogo-Stick springt“ zu erzeugen, aber es konnte nicht einmal den Pogo-Stick selbst generieren

    • Selbst wenn man ein Bild eines leeren Weinglases gibt und es auffordert, es mit Wein zu füllen, scheitert es
      Solche physischen Manipulationen beherrschen die Modelle noch nicht, also sind entsprechende Berufe wohl vorerst sicher
    • Für lokale Modelle ist das ein schwieriger Test. gpt-image und NB hatten damit kein Problem, aber nur Qwen-Image lieferte ein annäherndes Ergebnis
      Beispiele verschiedener Modelle gibt es hier
      Kleine Modelle brauchen für die Darstellung eines konkreten Objekts wie eines Pogo-Sticks zusätzliche Prompts
    • Selbst mit einem Referenzbild scheitert es noch.
      Wenn das Modell genug Schlussfolgerungsvermögen hätte, könnte es sein Wissen durch externe Referenzbilder ergänzen, aber so weit ist es noch nicht
    • Das ist ein guter Benchmark-Prompt. Auch Z-Image Turbo zeichnet Pogo-Sticks nicht gut
      Tiger-Beispiel, das ist kein Pogo-Stick, Nano-Banana-Pro-Beispiel
  • FLUX.2 [klein] 4B ist die schnellste Version der Klein-Familie und soll für Echtzeitvorschau oder latenzkritische Produktionsumgebungen ausgelegt sein
    Ich frage mich, welche Situationen genau damit gemeint sind

    • Wenn ich lokale Modelle nutze, möchte ich nicht 10 Minuten auf die Erzeugung eines einzelnen Bildes warten
      Gerade bei Bildbearbeitungs-Workflows ist Geschwindigkeit wichtig
    • Vermutlich eignet es sich gut für schnelle Bildbearbeitung
  • Zuerst dachte ich, es gehe um die F.lux-App, die nachts den Bildschirm orange färbt
    Inzwischen ist diese Funktion standardmäßig in jedem OS enthalten, daher braucht man sie nicht mehr

  • Wenn man GenAI-Modelle als komprimierte Implementierungen betrachtet, wird Text gut komprimiert, Bilder und Videos aber nicht
    Trotzdem sind aktuelle Text-zu-Bild- und Text-zu-Video-Modelle viel kleiner als LLMs wie Llama-3
    Das könnte daran liegen, dass wir nur einen engen menschenzentrierten Bereich der visuellen Welt trainiert haben. Es gibt noch viele unerforschte visuelle Kombinationsräume

    • Text lässt sich verlustfrei komprimieren, aber Bilder und Videos enthalten viel Rauschen, daher ist ein direkter Vergleich unfair
      Wenn verlustbehaftete Kompression auf einem Niveau erfolgt, das Menschen nicht unterscheiden können, könnten Bilder sogar effizienter sein
    • Tatsächlich lassen sich Bilder und Videos viel besser komprimieren als Text
      Text liegt eher bei 4:1 bis 6:1, während Bilder selbst bei über 10:1 visuell verlustfrei wirken, und Videos sind dank zeitlicher Konsistenz noch effizienter
    • Ich denke, bei LLMs gibt es noch viel Spielraum für Effizienzverbesserungen
      Gleichzeitig sollte man die Menge an implizitem Meta-Wissen, die in LLMs steckt, nicht unterschätzen
  • Ich frage mich, ob jemand Flux 2 Klein schon ausprobiert hat
    Ich jage neuen Modellen inzwischen nicht mehr hinterher und baue meine ganze App nur mit Nano Banana Pro
    Die Ergebnisse sind für mich vollkommen zufriedenstellend
    picxstudio.com

  • Mit Flux 1 hatte ich wirklich viel Spaß, und gerade spiele ich mit Z-Image Turbo herum
    Wenn Flux2 Klein zu Invoke hinzugefügt wird, werde ich es ausprobieren

    • Stimme zu. Die Erfahrung mit ZIT in Invoke war großartig
  • Ich frage mich, wie die Interaktionsfähigkeit im Vergleich zu den GPT-Versionen ist

  • Mir gefällt, dass selbst diese kleine Version als Open Source veröffentlicht wurde
    Dadurch gibt es viele Möglichkeiten, weil man sie auch ohne riesiges Budget ausführen kann
    Auch die Geschwindigkeitsverbesserung ist ziemlich beeindruckend