18 Punkte von GN⁺ 2025-08-21 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Qwen-Image-Edit ist ein spezialisiertes Erweiterungsmodell für die Bildbearbeitung auf Basis des Qwen-Image-Modells
  • Es ist so aufgebaut, dass Eingabebilder gleichzeitig an Qwen2.5-VL und den VAE Encoder übergeben werden, wodurch sowohl semantische als auch visuelle Bearbeitungen unterstützt werden
  • Die Funktion zur Textbearbeitung ist besonders leistungsfähig und erlaubt direkte Änderungen in Chinesisch und Englisch bei Beibehaltung von Schriftart, Größe und Stil
  • In verschiedenen Benchmarks erreicht es State-of-the-Art-(SOTA)-Leistung und hat sich damit als starke Basismodell für die Bildbearbeitung etabliert
  • Es wird als Open Source unter der Apache-2.0-Lizenz veröffentlicht, sodass Entwickler und Forschende es frei nutzen können

Einführung

  • Qwen-Image-Edit ist ein Modell zur Unterstützung der Bildbearbeitung, das die Text-Rendering-Fähigkeiten von Qwen-Image erweitert
  • Die Architektur leitet Bildeingaben gleichzeitig an die semantische Steuerung (Qwen2.5-VL) und die visuelle Steuerung (VAE Encoder) weiter
  • Es zeichnet sich dadurch aus, dass es sowohl präzise Textbearbeitung als auch semantische und visuelle Bearbeitung unterstützt

Hauptfunktionen

  • Semantische & visuelle Bearbeitung: Unterstützt semantische Änderungen wie das Hinzufügen, Entfernen oder Drehen von Objekten sowie Stiltransformationen und außerdem visuelle Bearbeitungen, bei denen nur bestimmte Bereiche verändert werden
  • Präzise Textbearbeitung: Englisch und Chinesisch können direkt bearbeitet werden, wobei die ursprüngliche Schriftart und der Stil erhalten bleiben
  • Leistungsvorsprung: Erzielt in zahlreichen öffentlichen Benchmarks State-of-the-Art-Leistung

Schnellstart

  • Kann über die Hugging Face-diffusers-Bibliothek verwendet werden
  • Im Beispielcode wird die Farbe eines Kaninchens in Lila geändert und der Hintergrund in Blitzlicht verwandelt
  • Durch CUDA-Beschleunigung und Unterstützung für torch.bfloat16 ist eine effiziente Ausführung möglich

Demo-Beispiele (Showcase)

  • Semantische Bearbeitung: Ermöglicht die Erstellung von Character-IP, das Drehen von Objekten (90 Grad, 180 Grad) und Stiltransformationen (z. B. im Ghibli-Stil)
  • Visuelle Bearbeitung: Führt präzise Arbeiten wie das Hinzufügen von Schildern, das Entfernen von Haaren, das Ändern bestimmter Textfarben, den Austausch von Hintergründen und das Ändern von Kleidung aus
  • Textbearbeitung: Kann große wie kleine Schrift in englischen und chinesischen Postern präzise ändern
  • Fortlaufende Bearbeitungskette: Demonstriert einen Fall, in dem Zeichenfehler in einem Kalligrafiewerk schrittweise korrigiert werden, bis schließlich eine vollständige Version entsteht

Anwendungsszenarien

  • Erweiterung von Marken-IP: Vorgestellt wird ein Beispiel für die Erstellung von MBTI-Emoticons auf Basis eines Capybara-Charakters
  • Kunst und Kreativität: Durch verschiedene Stiltransformationen von Porträts wird das Potenzial zur Erstellung virtueller Avatare aufgezeigt
  • Industrieller Einsatz: Unterstützt detailreiche Bearbeitungen, etwa das natürliche Erzeugen von Reflexionseffekten beim Einfügen von Schildern

Lizenz

  • Veröffentlicht unter der Apache-2.0-Lizenz und frei nutzbar, veränderbar und weiterverteilbar

Noch keine Kommentare.

Noch keine Kommentare.