- Qwen-Image-Edit ist ein spezialisiertes Erweiterungsmodell für die Bildbearbeitung auf Basis des Qwen-Image-Modells
- Es ist so aufgebaut, dass Eingabebilder gleichzeitig an Qwen2.5-VL und den VAE Encoder übergeben werden, wodurch sowohl semantische als auch visuelle Bearbeitungen unterstützt werden
- Die Funktion zur Textbearbeitung ist besonders leistungsfähig und erlaubt direkte Änderungen in Chinesisch und Englisch bei Beibehaltung von Schriftart, Größe und Stil
- In verschiedenen Benchmarks erreicht es State-of-the-Art-(SOTA)-Leistung und hat sich damit als starke Basismodell für die Bildbearbeitung etabliert
- Es wird als Open Source unter der Apache-2.0-Lizenz veröffentlicht, sodass Entwickler und Forschende es frei nutzen können
Einführung
- Qwen-Image-Edit ist ein Modell zur Unterstützung der Bildbearbeitung, das die Text-Rendering-Fähigkeiten von Qwen-Image erweitert
- Die Architektur leitet Bildeingaben gleichzeitig an die semantische Steuerung (Qwen2.5-VL) und die visuelle Steuerung (VAE Encoder) weiter
- Es zeichnet sich dadurch aus, dass es sowohl präzise Textbearbeitung als auch semantische und visuelle Bearbeitung unterstützt
Hauptfunktionen
- Semantische & visuelle Bearbeitung: Unterstützt semantische Änderungen wie das Hinzufügen, Entfernen oder Drehen von Objekten sowie Stiltransformationen und außerdem visuelle Bearbeitungen, bei denen nur bestimmte Bereiche verändert werden
- Präzise Textbearbeitung: Englisch und Chinesisch können direkt bearbeitet werden, wobei die ursprüngliche Schriftart und der Stil erhalten bleiben
- Leistungsvorsprung: Erzielt in zahlreichen öffentlichen Benchmarks State-of-the-Art-Leistung
Schnellstart
- Kann über die Hugging Face-
diffusers-Bibliothek verwendet werden
- Im Beispielcode wird die Farbe eines Kaninchens in Lila geändert und der Hintergrund in Blitzlicht verwandelt
- Durch CUDA-Beschleunigung und Unterstützung für
torch.bfloat16 ist eine effiziente Ausführung möglich
Demo-Beispiele (Showcase)
- Semantische Bearbeitung: Ermöglicht die Erstellung von Character-IP, das Drehen von Objekten (90 Grad, 180 Grad) und Stiltransformationen (z. B. im Ghibli-Stil)
- Visuelle Bearbeitung: Führt präzise Arbeiten wie das Hinzufügen von Schildern, das Entfernen von Haaren, das Ändern bestimmter Textfarben, den Austausch von Hintergründen und das Ändern von Kleidung aus
- Textbearbeitung: Kann große wie kleine Schrift in englischen und chinesischen Postern präzise ändern
- Fortlaufende Bearbeitungskette: Demonstriert einen Fall, in dem Zeichenfehler in einem Kalligrafiewerk schrittweise korrigiert werden, bis schließlich eine vollständige Version entsteht
Anwendungsszenarien
- Erweiterung von Marken-IP: Vorgestellt wird ein Beispiel für die Erstellung von MBTI-Emoticons auf Basis eines Capybara-Charakters
- Kunst und Kreativität: Durch verschiedene Stiltransformationen von Porträts wird das Potenzial zur Erstellung virtueller Avatare aufgezeigt
- Industrieller Einsatz: Unterstützt detailreiche Bearbeitungen, etwa das natürliche Erzeugen von Reflexionseffekten beim Einfügen von Schildern
Lizenz
- Veröffentlicht unter der Apache-2.0-Lizenz und frei nutzbar, veränderbar und weiterverteilbar
Noch keine Kommentare.