Qwen-Image-2.0: Infografiken auf Expertenniveau, ausgefeilter Fotorealismus

(qwen.ai)

10 Punkte von GN⁺ 2026-02-11 | 1 Kommentare | Auf WhatsApp teilen

Ein Bildgenerierungsmodell der nächsten Generation, das eine einheitliche Architektur zur Integration von Text- und Bildgenerierung sowie -bearbeitung umsetzt
Unterstützt 1k-Token-Anweisungen und kann dadurch komplexe Infografiken wie PPTs, Poster und Comics direkt erzeugen
Vereint 2K-Auflösung für detaillierte realistische Darstellungen mit präzisem Text-Rendering
Durch Modellverschlankung wurde die Inferenzgeschwindigkeit erhöht; zugleich erzielt es starke Ergebnisse in Benchmarks für Text-zu-Bild und Bild-zu-Bild
Mit fünf Kerneigenschaften – Präzision (准), Komplexität (多), Ästhetik (美), Realismus (真) und Ausrichtung (齐) – wird die Effizienz bei der Erstellung professioneller visueller Inhalte maximiert

Überblick über Qwen-Image-2.0

Qwen-Image-2.0 ist ein grundlegendes Bildgenerierungsmodell der nächsten Generation, das eine einheitliche Architektur nutzt, welche Text-Rendering und Bildbearbeitung integriert
- Verarbeitet 1k-Token-Anweisungen und erzeugt direkt professionelle Infografiken wie PPTs, Poster und Comics
- Stellt mit 2K-Auflösung detaillierte realistische Szenen mit Menschen, Natur und Architektur dar
- Führt dank integriertem Textverständnis und integrierter Textgenerierung Bildgenerierung und Bearbeitung in einem einzigen Modus aus
- Sichert mit einer verschlankten Modellarchitektur hohe Inferenzgeschwindigkeit
Im Blindtest von AI Arena erzielte es starke Leistungen sowohl bei Text-zu-Bild- als auch bei Bild-zu-Bild-Aufgaben

Entwicklung des Modells

Die Qwen-Image-Serie wurde entlang eines Generierungs- und eines Bearbeitungs-Tracks parallel weiterentwickelt
- Im August 2025 verbesserte Qwen-Image die Präzision beim Text-Rendering
- Im Dezember 2025 steigerte Qwen-Image-2512 Detailgrad und Fotorealismus
- Im Bearbeitungs-Track erfolgte die Erweiterung von Einzelbildbearbeitung (August) → Mehrbildbearbeitung (September) → verbesserter Konsistenz (Dezember)
Qwen-Image-2.0 verbindet beide Tracks zu einem integrierten Modell und erzielt sowohl bei Generierung als auch Bearbeitung herausragende Ergebnisse

Präzision (准) und Komplexität (多)

Das Modell setzt komplexe „Bild-im-Bild“-Kompositionen präzise um und erhöht damit die Effizienz bei der Erstellung von PPTs
- Als Beispiel erzeugt es eine zusammengesetzte Szene mit zwei Bildern derselben Person, oben und unten angeordnet, bei gleichbleibender visueller Konsistenz
Mit 1k-Token-Anweisungen rendert es mehrstufige Infografiken (z. B. A/B-Test-Berichte) vollständig
- Dadurch lassen sich visuelle Materialien auf dem Niveau professioneller Reports erzeugen, einschließlich Tabellen, Diagrammen, Kennzahlen und Anmerkungen
Durch Nutzung des Weltwissens eines LLM können einfache Anfragen automatisch zu detaillierten Beschreibungs-Prompts erweitert werden
- Beispiel: Die Anfrage „Reiseplakat für zwei Tage in Hangzhou“ wird in eine detaillierte Vorgabe für Stil, Hintergrund und Textaufbau umgewandelt

Ästhetik (美)

Realisiert eine gestalterische Harmonie zwischen Text und Bild
- Reproduziert den traditionellen chinesischen Stil von Kalligrafie und Malerei mit vereinter Bild- und Dichtkomposition präzise
- Stellt verschiedene Schriftstile (z. B. 瘦金体, Xiaozhuan) präzise dar
Als Beispiele werden Tuschemalereien mit Gedichten aus der Song-Zeit oder Wang Xizhis „兰亭序“ nahezu perfekt in Xiaozhuan reproduziert

Realismus (真)

Verstärkt die Wirklichkeitsnähe durch präzise Darstellung von optischen Reflexionen, Materialien und Perspektive
- Beispiel: Text auf unterschiedlichen Materialien wie Glas-Whiteboards, Kleidung und Magazincovern wird präzise gerendert
Setzt eine integrierte Darstellung von Beleuchtung, Textur und Materialität auf Filmplakat-Niveau um
- Beispiel: Im Poster zu „千灯问心“ verschmelzen Metall, Regen und Stofftexturen natürlich miteinander

Ausrichtung (齐)

Passt bei Kalendern, Comics und Infografiken mit mehrteiligen Textstrukturen Ausrichtung und Layout automatisch an
- Beispiel: In einem Kalender für Februar 2026 werden Datum, Mondkalender und Anmerkungen präzise innerhalb des Rasters ausgerichtet
- Sprechblasentexte in Comics werden zentriert, wodurch ein natürlicher Gesprächsfluss entsteht
- In einer OKR-Infografik werden Textblöcke und Pfeile automatisch ausgerichtet und farblich unterschieden

Verbesserter Fotorealismus

Unterscheidet mehr als 23 Grüntöne und stellt so die ökologische Realitätsnähe eines sommerlichen Waldes dar
- Blatttexturen, reflektiertes Licht, Feuchtigkeit und sogar Partikel in der Luft werden detailliert beschrieben
Reproduziert Muskulatur, Mimik und Texturen von Menschen und Tieren präzise
- Beispiel: In einer Szene, in der ein Pferd auf einen Menschen tritt, werden Muskelspannung, Hauttextur und Staubpartikel dargestellt

Bildbearbeitungsfunktionen

Als Omni-Modell, das Generierung und Bearbeitung integriert, fließen Verbesserungen auf der Generierungsseite direkt in die Bearbeitung ein
- Gedichte und Text können in bestehende Bilder eingefügt werden
- Personen aus zwei Bildern können kombiniert werden, wobei natürliche Übereinstimmung von Licht und Schatten erhalten bleibt
- Auch gemischte Bearbeitung aus Realfoto und Cartoon-Charakter ist möglich
Beispiele wie zusammengesetzte Fotos zweier Personen oder das Einfügen von Charakteren in Stadtfotos liefern natürlich integrierte Ergebnisse

Blog-Header-Bild „Qwen Street“

Vor dem Hintergrund einer winterlichen Straßenszene in Peking symbolisieren zwei Geschäfte die Kernfunktionen von Qwen-Image-2.0
- Schild des Kalligrafieladens links: „文字渲染“, innen „专业幻灯片中英文海报高级信息图“
- Schild des Blumenladens rechts: „真实质感“, Kennzeichnung über der Tür „2k resolution“
- Tafel des Schneemanns in der Mitte: „Qwen-Image-2.0 正式发布“
- Auf der Straße erscheint ein Lieferfahrer mit dem Slogan „更小模型，更快速度“

Fazit

Qwen-Image-2.0 ist ein integriertes Bildgenerierungsmodell mit Präzision, Komplexität, Ästhetik, Realismus und Ausrichtung
Es verwischt die Grenzen zwischen Text und Bild und verbessert den Automatisierungsgrad bei der Erstellung professioneller Infografiken und visueller Inhalte deutlich
Für die Nutzung in Forschung oder Kreativarbeit wird die Zitierung des Qwen-Image Technical Report (arXiv:2508.02324) empfohlen

1 Kommentare

GN⁺ 2026-02-11

Hacker-News-Kommentare

Es gab viele Stimmen, die meinten, das Beispiel „horse riding man“ sei zu bizarr, deshalb möchte ich den Hintergrund erklären
Dieses Meme geht auf einen Vorfall zurück, bei dem der bekannte chinesische Moderator Tsai Kang-yung (蔡康永) bei einer Preisverleihung ein Kostüm trug, bei dem ein Pferd an seinem Rücken befestigt war
Damals geriet er wegen eines Gerüchts um einen Mann namens „Ma Qiren (马启仁)“ in die Schlagzeilen, und dieser Name klingt im Chinesischen genauso wie „jemand, der auf einem Pferd reitet (马骑人)“
Der Vorfall verbreitete sich im Internet und wurde zu einem Meme, daher ist das Beispiel „horse riding man“ nicht völlig aus der Luft gegriffen
Das Bild selbst vermittelt allerdings weiterhin eine unheilvolle und bizarre Stimmung
Link zum Foto
- Interessanter Hintergrund. Solche Prompts testen auch den latenten Raum (latent space) von Bildgeneratoren
  Normalerweise ist umgekehrt „eine Person reitet ein Pferd“ die leichtere Variante, während „ein Pferd reitet eine Person“ ein schwierigeres Embedding ist
  Im übersetzten Prompt steckte anscheinend auch eine satirische Nuance wie „Das Jahr des Pferdes unterwirft einen weißen Ingenieur“
  Ich möchte lieber nicht sehen, wie SD1.5 das zeichnen würde
- Dem Artikel zufolge lautet der tatsächliche Name 马启仁 und nicht 马骑人
  Der Name klingt also wie „jemand, der auf einem Pferd reitet“, ist aber keine wörtliche Übersetzung
- In der Bildgenerierung gibt es auch das Problem „astronaut riding a horse“
  Zugehöriger Artikel: Horse Rides Astronaut Redux
- Ich frage mich, ob es in China wie in den USA ebenfalls Ablehnung gegenüber KI-Bildgenerierung gibt
  Zum Beispiel würden US-Unternehmen vermutlich mit Gegenwind rechnen, wenn sie solche Bilder in Zeitplänen oder Werbematerial verwenden
  Beispielbild
- Ein weiterer Einfluss könnte das bekannte Problem von DALL‑E 2 gewesen sein
  Bilder von „einem Astronauten, der auf einem Pferd reitet“ gelangen gut, aber „ein Pferd, das auf einem Astronauten reitet“ scheiterte am Ende immer
  Dieses Problem bestand auch bei neueren Modellen weiter, und das Qwen-Image-Team dürfte sich dieses schwierigen Benchmarks bewusst gewesen sein
  Letztlich ist „Astronaut = Mensch“, wodurch dieser Test mit dem chinesischen Meme verknüpft wird
Ein paar Gedanken dazu
1️⃣ Wenn man sich frühere Release-Muster ansieht, ist Open-Weight innerhalb von 3–4 Wochen sehr wahrscheinlich
2️⃣ Es wirkt so, als ob Modelle angestrebt werden, die auch auf schwächeren GPUs laufen, ähnlich wie Z‑Image Turbo (6B) und Flux.2 Klein (9B)
3️⃣ Es ist ein einzelnes Modell, das Bildgenerierung und Bearbeitung integriert, sodass man Qwen‑Image und Qwen‑Edit nicht getrennt halten muss
4️⃣ In meinem GenAI Showdown lag Qwen‑Image bei lokalen Modellen auf Platz 1 bei der Bearbeitung und auch bei der Generierung weit oben
Sobald eine lokale Version erscheint, werde ich sie auf der Website ergänzen
- Für Menschen ohne tieferen Technikbezug: Wenn man Quantisierung (quantization) gut umsetzt, kann ein LLM mit ungefähr 1 Byte pro Parameter laufen
  Bei einem 20B-Modell reichen also 20 GB RAM, und in dieser Größenordnung geht es sogar mit einer iGPU
  Eine Konfiguration mit 128 GB Unified RAM ist schon für etwa 2200 Dollar machbar
  Das ist ein deutlich günstigeres Setup, als eine separate GPU zu kaufen
- Technisch betrachtet hatte Qwen 2512 19B Parameter und brauchte in FP16 40 GB, in FP8 passte es auf eine 3090
  Es nutzte ein eigenes VAE, hatte aber Probleme mit hochfrequenten Artefakten
  Das neue Qwen 2 ist mit 7B Parametern deutlich leichter geworden und wurde auf Qwen 3 VL aktualisiert
  Es hat sich inzwischen zu einem Omni-Modell entwickelt, das Image und Edit zusammenführt
  Z‑Image, Klein und Qwen konkurrieren derzeit gleichzeitig um den Platz von „SDXL2“
  Wenn Open-Weight veröffentlicht wird, wird das wirklich spannend
Es gab eine kurze Phase, in der Midjourney wie der Gipfel der Bildgenerierung wirkte
- Ist das nicht immer noch so? Viele Kreative, die ich kenne, bevorzugen Midjourney weiterhin wegen seiner subjektiven Ästhetik
- Ich frage mich, was eigentlich gerade mit Midjourney passiert
- Die Kommodifizierung der Bildgenerierung verläuft extrem schnell
  Alle 3–4 Monate wechselt das SOTA, und die Innovation des letzten Quartals wird zum API-Produkt
  Der Engpass ist inzwischen nicht mehr das Modell, sondern die Person, die mit Prompts umgeht
  Dasselbe Muster sieht man auch bei Codegenerierung
Der Prompt „horse riding man“ ist inhaltlich wirklich heftig
Er besteht aus extrem realistischer Beschreibung einer Szene mit trostloser Steppe, Staub und einem braunen Pferd, das einen Mann niederdrückt
Insgesamt zeigt das Bild eine rohe Spannung und den Zusammenprall biologischer Kraft
- Als Referenz für Verwirrte gibt es aus der Han-Dynastie die „Skulptur eines Pferdes, das einen Xiongnu zertrampelt“
  Passender Link
Ich habe kürzlich unter Linux mit LMStudio lokale Modelle ausprobiert, und das war wirklich einfach
Bildgenerierung wird dort allerdings nicht unterstützt, daher frage ich mich, welche Tools man unter Linux verwendet, um Diffusion-Modelle wie Qwen auszuführen
- Die meisten, die diese Modellklasse tatsächlich nutzen, verwenden ComfyUI
  Die Community kümmert sich dort um Quantisierung, Konvertierung ins GGUF-Format und Geschwindigkeitsoptimierungen
- Die Veränderungen sind so schnell, dass ich selbst einfach einen Python-HTTP-Server gebaut habe, der per JSON-Interface die jeweiligen Implementierungen weiterleitet
  Ich nutze meist diffusers; das ist zwar langsamer, unterstützt aber neue Architekturen sehr schnell
- ComfyUI ist für Stable Diffusion die beste Wahl
- Ich würde es auf jeden Fall einmal ausprobieren. In letzter Zeit ist es dank der Template-Funktion deutlich zugänglicher geworden
- Auf der AMD-Plattform unterstützt Lemonade seit Version 9.2 ebenfalls Bildgenerierung
  Website / Release Notes
Die chinesische Vertikalschrift (Vertical Typography) wirkte etwas unnatürlich
Mit vertikalen Satzzeichen (z. B. ︒) würde es natürlicher aussehen
Ich erstelle täglich Infografiken mit generativer KI, aber ehrlich gesagt sind 99 % davon miserabel
LinkedIn ist voll von solchen Bildern
- Andererseits war LinkedIn schon vorher schlecht, also ist es dadurch nicht wirklich schlimmer geworden
- Infografiken und Präsentationen sind bisher noch NanoBananaPro-exklusive Features
- Die Qualität von Infografiken hängt letztlich von den Fähigkeiten der Erstellerin oder des Erstellers ab
  Es gibt kaum Menschen, die gute Infografiken erstellen oder überhaupt erklären können, was eine gute Infografik ausmacht
- Wie die nutzlosen ASCII-Diagramme auf GitHub sind solche Visualisierungen oft nur kognitives Rauschen
  Ein weiteres Beispiel findet sich im Gas-Town-Thread
Leider sieht es diesmal so aus, als gäbe es keine Open-Weight-Veröffentlichung
- Allerdings wurde erst vor etwa einem Monat ein Open-Weight-Bildmodell veröffentlicht, also besteht auch diesmal noch eine Möglichkeit
  Die letzte Veröffentlichung war wohl etwa im Dezember 2025
Mir gefiel ihr Comic-Panel-Beispiel, deshalb habe ich es direkt in Qwen Chat ausprobiert
Mit demselben Prompt wie im Blog funktioniert es gut, aber sobald man die Eingabe nur leicht verändert, stimmt die Zahl der Panels nicht mehr oder englische Dialoge werden zu Chinesisch
Das ist also noch eine Funktion mit mangelnder Konsistenz
Die „Reit-Anwendungsbilder“ waren interessant
- Aber dass als Demo ausgerechnet „eine Szene, in der ein Pferd einen Menschen überwältigt“ verwendet wurde, fand ich etwas überraschend
  Aber nun ja, jedem das Seine

Qwen-Image-2.0: Infografiken auf Expertenniveau, ausgefeilter Fotorealismus

Überblick über Qwen-Image-2.0

Entwicklung des Modells

Präzision (准) und Komplexität (多)

Ästhetik (美)

Realismus (真)

Ausrichtung (齐)

Verbesserter Fotorealismus

Bildbearbeitungsfunktionen

Blog-Header-Bild „Qwen Street“

Fazit

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare