Qwen-Image-Edit – Modell speziell für die Bildbearbeitung veröffentlicht

(huggingface.co)

18 Punkte von GN⁺ 2025-08-21 | Noch keine Kommentare. | Auf WhatsApp teilen

Qwen-Image-Edit ist ein spezialisiertes Erweiterungsmodell für die Bildbearbeitung auf Basis des Qwen-Image-Modells
Es ist so aufgebaut, dass Eingabebilder gleichzeitig an Qwen2.5-VL und den VAE Encoder übergeben werden, wodurch sowohl semantische als auch visuelle Bearbeitungen unterstützt werden
Die Funktion zur Textbearbeitung ist besonders leistungsfähig und erlaubt direkte Änderungen in Chinesisch und Englisch bei Beibehaltung von Schriftart, Größe und Stil
In verschiedenen Benchmarks erreicht es State-of-the-Art-(SOTA)-Leistung und hat sich damit als starke Basismodell für die Bildbearbeitung etabliert
Es wird als Open Source unter der Apache-2.0-Lizenz veröffentlicht, sodass Entwickler und Forschende es frei nutzen können

Einführung

Qwen-Image-Edit ist ein Modell zur Unterstützung der Bildbearbeitung, das die Text-Rendering-Fähigkeiten von Qwen-Image erweitert
Die Architektur leitet Bildeingaben gleichzeitig an die semantische Steuerung (Qwen2.5-VL) und die visuelle Steuerung (VAE Encoder) weiter
Es zeichnet sich dadurch aus, dass es sowohl präzise Textbearbeitung als auch semantische und visuelle Bearbeitung unterstützt

Semantische & visuelle Bearbeitung: Unterstützt semantische Änderungen wie das Hinzufügen, Entfernen oder Drehen von Objekten sowie Stiltransformationen und außerdem visuelle Bearbeitungen, bei denen nur bestimmte Bereiche verändert werden
Präzise Textbearbeitung: Englisch und Chinesisch können direkt bearbeitet werden, wobei die ursprüngliche Schriftart und der Stil erhalten bleiben
Leistungsvorsprung: Erzielt in zahlreichen öffentlichen Benchmarks State-of-the-Art-Leistung

Kann über die Hugging Face-diffusers-Bibliothek verwendet werden
Im Beispielcode wird die Farbe eines Kaninchens in Lila geändert und der Hintergrund in Blitzlicht verwandelt
Durch CUDA-Beschleunigung und Unterstützung für torch.bfloat16 ist eine effiziente Ausführung möglich

Semantische Bearbeitung: Ermöglicht die Erstellung von Character-IP, das Drehen von Objekten (90 Grad, 180 Grad) und Stiltransformationen (z. B. im Ghibli-Stil)
Visuelle Bearbeitung: Führt präzise Arbeiten wie das Hinzufügen von Schildern, das Entfernen von Haaren, das Ändern bestimmter Textfarben, den Austausch von Hintergründen und das Ändern von Kleidung aus
Textbearbeitung: Kann große wie kleine Schrift in englischen und chinesischen Postern präzise ändern
Fortlaufende Bearbeitungskette: Demonstriert einen Fall, in dem Zeichenfehler in einem Kalligrafiewerk schrittweise korrigiert werden, bis schließlich eine vollständige Version entsteht

Erweiterung von Marken-IP: Vorgestellt wird ein Beispiel für die Erstellung von MBTI-Emoticons auf Basis eines Capybara-Charakters
Kunst und Kreativität: Durch verschiedene Stiltransformationen von Porträts wird das Potenzial zur Erstellung virtueller Avatare aufgezeigt
Industrieller Einsatz: Unterstützt detailreiche Bearbeitungen, etwa das natürliche Erzeugen von Reflexionseffekten beim Einfügen von Schildern

Veröffentlicht unter der Apache-2.0-Lizenz und frei nutzbar, veränderbar und weiterverteilbar