1 Punkte von GN⁺ 2025-08-05 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Qwen-Image ist ein 20B-Parameter-MMDiT-Bildgenerierungsmodell mit Fokus auf native Textdarstellung und präzise Bildbearbeitung
  • Bei der komplexen Zeichendarstellung in verschiedenen Sprachen wie Alphabet- und Han-Schriften erreicht es hohe Genauigkeit und visuelle Vollständigkeit
  • In verschiedenen öffentlichen Benchmarks (GenEval, DPG, OneIG-Bench usw.) erzielt es Spitzenleistungen in seiner Klasse; die Textgenerierung ist ebenfalls stark
  • In Demos werden mehrsprachige Inhalte, Poster, PPTs und Illustrationen sowie komplexe Layouts und verschiedene Stile präzise umgesetzt
  • Funktionen wie Stiltransfer, Objekt hinzufügen/entfernen, Detailverbesserung, Posenänderung werden unterstützt, mit Fokus auf den Ausbau eines Open-Source-Ökosystems

Einführung und Hauptmerkmale

  • Qwen-Image ist ein 20B-Parameter-basiertes MMDiT-Bildgenerierungs-Basismodell, das auf komplexe Textdarstellung und präzise Bildbearbeitung spezialisiert ist
  • Die neueste Modellversion kann in Qwen Chat getestet werden

Hauptfunktionen

  • Hervorragende Textdarstellung: Mehrzeilige Layouts, absatzweises semantisches Verständnis und feine Ausdrücke sind möglich
    • Unterstützung mit hoher Treue für alphabetbasierte und logografische Schriftsysteme wie Englisch und Chinesisch
  • Konsistente Bildbearbeitung: Durch verbessertes Multi-Task-Training bleiben semantische Genauigkeit und visuelle Realitätsnähe erhalten
  • Starke Benchmark-Performance: In diversen öffentlichen Benchmarks werden sowohl Generierungs- als auch Bearbeitungsaufgaben auf Spitzenniveau der Klasse erreicht
  • Im Bereich der Textgenerierung und -bearbeitung werden sehr gute Ergebnisse bei LongText-Bench, ChineseWord, TextCraft erzielt
  • Es kann breit für kreative Zwecke wie Kreation, Design und Storytelling eingesetzt werden

Leistung und Benchmarks

  • Qwen-Image erreicht in GenEval, DPG, OneIG-Bench (allgemeine Bildgenerierung), GEdit, ImgEdit, GSO (Bearbeitung) insgesamt den neuesten SOTA-Stand (State-of-the-Art)
  • Besonders bei der chinesischen Textgenerierung übertrifft es frühere Topmodelle deutlich
  • Durch die Kombination aus breiter allgemeiner Fähigkeit und präziser Textdarstellung positioniert es sich als führendes Modell für die Bildgenerierung

Demo-Beispiele

Chinesische Textdarstellung

  • Auf Basis von Beispiel-Prompts werden die Begriffe “云存储”, “云计算”, “云模型” sowie ungewöhnliche Han-Zeichen wie “千问” im Miyazaki-Animationsstil exakt dargestellt
  • Auch Posen, Gesichtsausdrücke und räumliche Tiefe in der Szene werden natürlich umgesetzt

Komplexe parallele Han-Zeichen-Darstellung

  • Anspruchsvolle Dui-Lian-Kalligraphie-Elemente sowie Qinghua-Details werden feinfühlig wiedergegeben
  • Schriftart, Layout und die Illustration (z. B. 岳阳楼) werden nahezu realitätsnah erzeugt

Englischer Text & Mehrzeiliger Text

  • Texte an mehreren Positionen wie Bücherregal, Hinweisschildern und Postern werden detailliert abgebildet
  • Von “New Arrivals This Week” bis zu kurzen Sätzen auf Buchcovern werden realistische Schriftarten und Layouts umgesetzt

Komplexe englische Infografik

  • Jedes Untermodul wird präzise mit Icon, Titel und Absatz der Beschreibung getrennt positioniert
  • Selbst komplexe Infografiken rund um “Habits for Emotional Wellbeing” werden mit natürlicher Artworks-Qualität und ausgewogener Komposition umgesetzt

Kleiner/ Langer Text

  • Selbst in Bereichen unter einem Zehntel der Bildfläche werden lange handschriftliche Texte im Detail umgesetzt
  • Viele Sätze werden in Handschrift, Layout und Zeilenumbrüchen exakt reproduziert

Mehrsprachige Mischtexte

  • Englisch und Chinesisch werden in einem Bild gleichzeitig als Handschrift umgesetzt
  • Je nach Sprachwechsel im Prompt werden Texte natürlich erzeugt

Poster-Generierung

  • Filmploter, Untertitel, Besetzungs- und Regisseurinformationen, Launch-Daten sowie andere Textelemente werden in verschiedenen Stilen wie Sci-Fi oder Grafikdesign flexibel kombiniert

Koreanisches PPT-Beispiel

  • Aktuelle AI-/Enterprise-PPT-Styles (Alibaba-Logo, Hauptüberschrift, Untertitel, Platzierung von Kunstwerkbildern, Kalligrafie-Schriftarten, Detailerklärungen) werden konsistent generiert

Allgemeine Bildgenerierung und Bearbeitung

  • Unterstützt verschiedene Kunststile wie Photorealismus, Impressionismus, Anime und Minimalismus und bietet breite kreative Einsatzmöglichkeiten
  • Stiltransfer, Objekte hinzufügen/entfernen, Detailverbesserung, Textbearbeitung, Korrektur menschlicher Posen und weitere praxisnahe Bildbearbeitungsbefehle werden unterstützt

Fazit

  • Qwen-Image zielt darauf ab, den Horizont der Bildgenerierung zu erweitern, die technische Eintrittsschwelle für die Erstellung visueller Inhalte zu senken und kreative Nutzung zu fördern
  • Es legt den Fokus auf Zusammenarbeit mit der Community, Offenheit und den Aufbau eines nachhaltigen generativen KI-Ökosystems
  • Funktionsverbesserungen und die Erweiterung des offenen Ökosystems sind für reale Nutzungsfälle und Nutzerfeedback vorgesehen

Noch keine Kommentare.

Noch keine Kommentare.