1 Punkte von GN⁺ 2025-08-05 | 1 Kommentare | Auf WhatsApp teilen
  • Qwen-Image ist ein 20B-Parameter-MMDiT-Bildgenerierungsmodell mit Fokus auf native Textdarstellung und präzise Bildbearbeitung
  • Bei der komplexen Zeichendarstellung in verschiedenen Sprachen wie Alphabet- und Han-Schriften erreicht es hohe Genauigkeit und visuelle Vollständigkeit
  • In verschiedenen öffentlichen Benchmarks (GenEval, DPG, OneIG-Bench usw.) erzielt es Spitzenleistungen in seiner Klasse; die Textgenerierung ist ebenfalls stark
  • In Demos werden mehrsprachige Inhalte, Poster, PPTs und Illustrationen sowie komplexe Layouts und verschiedene Stile präzise umgesetzt
  • Funktionen wie Stiltransfer, Objekt hinzufügen/entfernen, Detailverbesserung, Posenänderung werden unterstützt, mit Fokus auf den Ausbau eines Open-Source-Ökosystems

Einführung und Hauptmerkmale

  • Qwen-Image ist ein 20B-Parameter-basiertes MMDiT-Bildgenerierungs-Basismodell, das auf komplexe Textdarstellung und präzise Bildbearbeitung spezialisiert ist
  • Die neueste Modellversion kann in Qwen Chat getestet werden

Hauptfunktionen

  • Hervorragende Textdarstellung: Mehrzeilige Layouts, absatzweises semantisches Verständnis und feine Ausdrücke sind möglich
    • Unterstützung mit hoher Treue für alphabetbasierte und logografische Schriftsysteme wie Englisch und Chinesisch
  • Konsistente Bildbearbeitung: Durch verbessertes Multi-Task-Training bleiben semantische Genauigkeit und visuelle Realitätsnähe erhalten
  • Starke Benchmark-Performance: In diversen öffentlichen Benchmarks werden sowohl Generierungs- als auch Bearbeitungsaufgaben auf Spitzenniveau der Klasse erreicht
  • Im Bereich der Textgenerierung und -bearbeitung werden sehr gute Ergebnisse bei LongText-Bench, ChineseWord, TextCraft erzielt
  • Es kann breit für kreative Zwecke wie Kreation, Design und Storytelling eingesetzt werden

Leistung und Benchmarks

  • Qwen-Image erreicht in GenEval, DPG, OneIG-Bench (allgemeine Bildgenerierung), GEdit, ImgEdit, GSO (Bearbeitung) insgesamt den neuesten SOTA-Stand (State-of-the-Art)
  • Besonders bei der chinesischen Textgenerierung übertrifft es frühere Topmodelle deutlich
  • Durch die Kombination aus breiter allgemeiner Fähigkeit und präziser Textdarstellung positioniert es sich als führendes Modell für die Bildgenerierung

Demo-Beispiele

Chinesische Textdarstellung

  • Auf Basis von Beispiel-Prompts werden die Begriffe “云存储”, “云计算”, “云模型” sowie ungewöhnliche Han-Zeichen wie “千问” im Miyazaki-Animationsstil exakt dargestellt
  • Auch Posen, Gesichtsausdrücke und räumliche Tiefe in der Szene werden natürlich umgesetzt

Komplexe parallele Han-Zeichen-Darstellung

  • Anspruchsvolle Dui-Lian-Kalligraphie-Elemente sowie Qinghua-Details werden feinfühlig wiedergegeben
  • Schriftart, Layout und die Illustration (z. B. 岳阳楼) werden nahezu realitätsnah erzeugt

Englischer Text & Mehrzeiliger Text

  • Texte an mehreren Positionen wie Bücherregal, Hinweisschildern und Postern werden detailliert abgebildet
  • Von “New Arrivals This Week” bis zu kurzen Sätzen auf Buchcovern werden realistische Schriftarten und Layouts umgesetzt

Komplexe englische Infografik

  • Jedes Untermodul wird präzise mit Icon, Titel und Absatz der Beschreibung getrennt positioniert
  • Selbst komplexe Infografiken rund um “Habits for Emotional Wellbeing” werden mit natürlicher Artworks-Qualität und ausgewogener Komposition umgesetzt

Kleiner/ Langer Text

  • Selbst in Bereichen unter einem Zehntel der Bildfläche werden lange handschriftliche Texte im Detail umgesetzt
  • Viele Sätze werden in Handschrift, Layout und Zeilenumbrüchen exakt reproduziert

Mehrsprachige Mischtexte

  • Englisch und Chinesisch werden in einem Bild gleichzeitig als Handschrift umgesetzt
  • Je nach Sprachwechsel im Prompt werden Texte natürlich erzeugt

Poster-Generierung

  • Filmploter, Untertitel, Besetzungs- und Regisseurinformationen, Launch-Daten sowie andere Textelemente werden in verschiedenen Stilen wie Sci-Fi oder Grafikdesign flexibel kombiniert

Koreanisches PPT-Beispiel

  • Aktuelle AI-/Enterprise-PPT-Styles (Alibaba-Logo, Hauptüberschrift, Untertitel, Platzierung von Kunstwerkbildern, Kalligrafie-Schriftarten, Detailerklärungen) werden konsistent generiert

Allgemeine Bildgenerierung und Bearbeitung

  • Unterstützt verschiedene Kunststile wie Photorealismus, Impressionismus, Anime und Minimalismus und bietet breite kreative Einsatzmöglichkeiten
  • Stiltransfer, Objekte hinzufügen/entfernen, Detailverbesserung, Textbearbeitung, Korrektur menschlicher Posen und weitere praxisnahe Bildbearbeitungsbefehle werden unterstützt

Fazit

  • Qwen-Image zielt darauf ab, den Horizont der Bildgenerierung zu erweitern, die technische Eintrittsschwelle für die Erstellung visueller Inhalte zu senken und kreative Nutzung zu fördern
  • Es legt den Fokus auf Zusammenarbeit mit der Community, Offenheit und den Aufbau eines nachhaltigen generativen KI-Ökosystems
  • Funktionsverbesserungen und die Erweiterung des offenen Ökosystems sind für reale Nutzungsfälle und Nutzerfeedback vorgesehen

1 Kommentare

 
GN⁺ 2025-08-05
Hacker News Kommentar
  • Ich verstehe nicht, warum das kein größeres Thema ist —– Das ist nicht nur das erste Open-Source-Modell, das gpt-image-1 in jeder Hinsicht schlägt, sondern auch eines, das Flux Kontext in den Bearbeitungsmöglichkeiten übertrifft. Das ist ziemlich bemerkenswert.
    • Ich habe das Modell ungefähr eine Stunde lang ausprobiert. Insgesamt ist es wirklich stark, aber in meinen frühen Tests ist die Leistung bei ziemlich komplexer Prompt-Treue eindeutig unter der von gpt-image-1 (oder Imagen 3/4) gelegen. Die Erfolgsquote lag bei etwa ~50 %, während gpt-image-1 bei ca. 75 % liegt. Labyrinthe, die Schrödinger-Gleichung usw. wurden nicht richtig gelöst. Getestet auf der GenAI-Showdown-Seite.
    • Von deren Seite allein ist nicht eindeutig zu erkennen, aber das Editing-Modell ist noch nicht offiziell veröffentlicht. Siehe GitHub-Issue-Kommentar-Link.
    • Meiner Meinung nach kann es deutlich mehr als gpt-image-1. Neben Stiltransfer, Objekt hinzufügen/entfernen, Textbearbeitung und Pose-Manipulation von Menschen sind auch Objekterkennung, semantische Segmentierung, Tiefen-/Kantenschätzung, Super-Resolution und neue-Ansicht-Synthese (NVS), also das Erzeugen neuer Ansichten aus einem Basisbild, enthalten. Es ist wirklich ein Feuerwerk an Funktionen. In den ersten Ergebnissen wirkt gpt-image-1 in Schärfe und Auflösung etwas überlegen. Ehrlich gesagt wirkt es fast wie eine einfache Nachbearbeitung mit einer Unscharf-Maske seitens OpenAI. Es zeigt sogar eine seltsam gleichmäßige Schärfe in unscharfen Bereichen und wirkt manchmal übertrieben. Trotzdem liegt dieses Modell insgesamt fast auf einem ähnlichen Niveau. Ich hätte geglaubt, OpenAIs einzigartige Bilderzeugungstechnologie würde sich dieses Jahr als klarer Vorteil behaupten – diese Leistung ist dennoch überraschend. Zur Einordnung: Seit der Veröffentlichung von Flux Krea sind erst 4 Tage vergangen! Wenn dieses Modell tatsächlich eine ähnliche Qualität wie gpt-image-1 erreicht, wäre das ein gewaltiger Umbruch.
    • Soweit ich weiß, scheint der Umstand, dass 40 GB VRAM erforderlich sind, die große Begeisterung etwas auszubremsen. Wie gesagt, bei LLMs ist die Verteilung auf mehrere GPUs bereits recht ausgereift; bei Bildmodellen scheint es trotz GGUF-Formatentwicklung noch langsamer zu gehen. Ich glaube, je größer diese Modelle werden, desto häufiger wird verteilte Ausführung implementiert werden müssen.
    • Es ist erst wenige Stunden her, und die Demo hat weiterhin Fehler, daher denke ich, dass noch etwas mehr Zeit nötig ist, damit Menschen sie wirklich ausgiebig testen können. Ich erwarte, dass quantisierte GGUFs und verschiedene Comfy-Workflows ein sehr wichtiger Faktor werden, weil die meisten Nutzer das lokal betreiben möchten. Die Größe ist aber im Vergleich zu anderen Modellen bereits recht groß. Interessanterweise ist der größte Vergleichspunkt hier eher zwischen Alibaba-Modellen als mit Flux. Beispielhaft ist Wan 2.2, das in der Bildgenerierung bereits extrem populär ist; daher interessiert mich eher, wie groß der Sprung von Qwen-Image gegenüber Wan 2.2 ist. Der reale Bewertungstermin für neue Bildmodelle scheint meist etwa eine Woche nach dem Start zu sein. Dann testen viele Nutzer direkt selbst und fassen aus externer Perspektive die Vor- und Nachteile zusammen. Auch auf dieses Modell freue ich mich auf sehr gespannt.
  • Gute Veröffentlichung! Ich habe es auf die GenAI-Showdown-Seite hinzugefügt. Insgesamt erreicht es ungefähr 40 % und ist ein ziemlich gutes Modell, insbesondere ein SOTA-Modell, das auf Consumer-GPUs läuft (bei quantisierter Version noch stärker). Allerdings liegt es bei exakter Einhaltung von txt2img-Prompts deutlich hinter OpenAIs gpt-image-1. Wie auch in diesem Thread erwähnt, liegt der Vorteil des Modells jedoch in der Vielzahl möglicher Editieraufgaben. Das ist auch auf genai showdown sichtbar.
    • Zur Erinnerung: Imagen 3 und 4 sind ganz klar unterschiedliche Modelle, daher ist ein Vergleich zwischen ihnen unangemessen.
  • Für diejenigen, die so etwas oft ausprobieren, ist das vielleicht selbstverständlich, aber ich frage mich, welche Hardware-Spezifikationen nötig sind, um es überhaupt betreiben zu können. Ich habe es unter Linux auf einer Maschine mit 16 GB GPU und 64 GB RAM ausprobiert. Auf diesem PC läuft SD ohne Probleme. Bei Qwen-Image bekam ich jedoch bei GPU- und CPU-Ausführung OOM-Fehler. Ich frage mich, ob das deutlich zu wenig ist, ob die doppelte Menge reicht, ob es ein Vielfaches mehr braucht, oder ob tatsächlich extrem starke Hardware nötig ist.
    • Für Leute, die sowas oft tun, ist das vielleicht selbstverständlich, aber es ist es nicht wirklich. Die VRAM-Kalkulation für VLM/LLM ist fast ein magisches Feld. Es gibt online so etwa 10 Rechner, aber keiner liefert verlässliche Werte. Faktoren wie Quantisierung, KV-Caching, Aktivierung, Layer usw. spielen hinein. Sehr nervig. Für dieses Modell werden auf jeden Fall mehr als 40 GB VRAM benötigt. Herkömmlicher System-RAM reicht nicht (außer bei Unified RAM auf Apple Silicon, wo es nicht gilt). Selbst auf Apple Silicon ist die Speicherbandbreite zu niedrig, sodass die Inferenz im Vergleich zu GPU/TPU deutlich langsamer ist.

    • Ich glaube, es liegt ungefähr in der gleichen Größenordnung wie die Modelldateien. In dem transformers-Ordner sind ungefähr 9 Dateien à 5 GB; ich würde für die GPU mit rund 45 GB VRAM rechnen. Normalerweise wird bald eine quantisierte, leichtere Version (bei Qualitätsverlust) veröffentlicht werden.
    • Qwen-Image benötigt im Vollmodell mindestens 24 GB VRAM. Die 4-Bit-Quantisierungsversion sollte sich aber mit Bibliotheken wie AutoGPTQ bereits bei etwa 8 GB VRAM betreiben lassen.
    • Ich denke, man muss noch ein paar Tage auf die Veröffentlichung der 4-Bit-Quantisierungsversion warten. Die Parameterzahl liegt bei 20B.
    • In Produktionsinferenz-Umgebungen läuft es auf 1xH100 gut.
  • Anders als bei anderen Bildmodellen ist es spannend, dass es wie bei 4o image gen nicht das gesamte Bild unnötig verändert. Bei 4o wird oft auch das Gesicht geändert, wenn man nur das Kleidungsstück bearbeiten will; bei diesem Modell scheint es eher KI-Artefakte nur dort einzusetzen, wo tatsächlich eine Änderung nötig ist.
    • Genau deshalb war Flux Kontext so ein großes Thema – die Bereitstellung von img2img-Inpainting-Kraft ohne manuelles Maskieren war wirklich bahnbrechend. Siehe den Blogartikel zum Editieren.
    • Auch bei 4o kann man nur den Bereich auswählen, den man bearbeiten möchte, während der Rest unverändert bleibt.
  • In letzter Zeit werden die chinesischen Open-Source-Modelle immer wahnsinnig gut. Diese Nachrichten geben mir jedes Mal echte Hoffnung.
  • Weiß jemand, wie man das Text-Rendering bei solchen Modellen wirklich trainiert? In allen Modellen, die ich ausprobiert habe (einschließlich OpenAI und Flux), ist das gleiche Problem vorhanden: Der Text wirkt unnatürlich, und Schatten oder Reflexionen im Bild sind im Vergleich zum Originalbild oft unbeholfen. Vielleicht nutzen alle einen ähnlichen Trick?
    • Das wird auf Seite 14 des technischen Berichts beschrieben. Dort heißt es, dass synthetische Daten durch das Auflegen von Text auf Bilder erzeugt wurden. Offenbar wurde dafür einfach übereinandergelegt, ohne die ursprünglichen Lichtbedingungen zu berücksichtigen. Garbage in, garbage out. Vielleicht kommt in Zukunft eine realistischere Methode zur Textsynthese, und danach kann ein Modell entstehen, das Text auch natürlicher rendern kann.
  • Ich würde außerdem empfehlen, den Abschnitt 3.2 „Data Filtering“ im Paper anzuschauen. Siehe das Original-PDF der Veröffentlichung.
    • Ein interessanter Punkt ist, dass nur Englisch und Chinesisch als Sprachen genannt oder als Beispiele gezeigt werden.
  • Mich interessiert, was die kleinste GPU-Spezifikation ist, die noch sinnvolle Ergebnisse bei eigenem Hosting liefert.
  • Die Canvas ist kurz.
  • Ich frage mich, wie stark die Zensur ist.
    • Bei jedem neuen Modell ist das etwas, das die Community am meisten wissen will, und tatsächlich möchte keine Organisation die unangenehme Realität der menschlichen Natur wirklich konfrontieren. Gleichzeitig scheint es in der US-Gesellschaft und in Unternehmen eine gewisse Vorsicht und Askese zu geben.