- Ein Open-Source-Bildgenerierungsmodell von Alibaba unter der Apache-2.0-Lizenz mit Leistung auf Nano-Banana-Pro-Niveau
- Ein effizientes Bildgenerierungsmodell mit 6B Parametern auf Basis eines Single-Stream Diffusion Transformer
- Es besteht aus drei Versionen; Z-Image-Turbo erreicht mit nur 8 Inferenzschritten eine Qualität auf dem Niveau konkurrierender Modelle und läuft auch in einer Umgebung mit 16 GB VRAM
- Z-Image-Edit bietet Bildbearbeitungsfunktionen auf Basis von Anweisungen in natürlicher Sprache, und Z-Image-Base soll als Basismodell für das Fine-Tuning durch die Community veröffentlicht werden
- Das Modell verwendet die S3-DiT-Architektur, die Text-, visuelle und VAE-Token in einer einzigen Sequenz integriert und so die Parametereffizienz maximiert
- Mit den Algorithmen Decoupled-DMD und DMDR erzeugt es auch mit wenigen Schritten hochwertige Bilder und erzielt Spitzenleistung unter Open-Source-Modellen
Überblick über Z-Image
- Z-Image ist ein grundlegendes Bildgenerierungsmodell, das sowohl Effizienz als auch Leistung bietet und eine Single-Stream-Diffusion-Transformer-Struktur verwendet
- Es basiert auf 6 Milliarden Parametern und bietet drei Modellvarianten: Z-Image-Turbo, Z-Image-Base und Z-Image-Edit
- Z-Image-Turbo: erzeugt hochwertige Bilder mit nur 8 Funktionsauswertungen (NFE) und erreicht auf einer H800 GPU eine Inferenzlatenz von unter 1 Sekunde
- Z-Image-Base: nicht destilliertes Basismodell zur Unterstützung von Community-basiertem Fine-Tuning und kundenspezifischer Entwicklung
- Z-Image-Edit: eine auf Bildbearbeitung spezialisierte Version mit bildbasierter Transformation auf Grundlage natürlicher Sprache
Hauptfunktionen und Leistung
- Z-Image-Turbo rendert fotorealistische Bilder sowie zweisprachigen Text in Englisch und Chinesisch präzise
- Die Funktion Prompt Enhancer verbessert die Fähigkeit zu schlussfolgerndem und weltwissensbasiertem Beschreiben
- Z-Image-Edit unterstützt kreative Bildtransformationen und ein präzises Verständnis von Anweisungen
- In der Elo-basierten Bewertung menschlicher Präferenzen der Alibaba AI Arena erreichte es Spitzenleistung unter Open-Source-Modellen
Modellarchitektur (S3-DiT)
- Verwendet die Struktur Scalable Single-Stream DiT (S3-DiT)
- Text-, visuelle semantische Token und Bild-VAE-Token werden zu einer einzigen Sequenz kombiniert
- Im Vergleich zu bestehenden Dual-Stream-Strukturen wird die Parametereffizienz maximiert
- Diese Struktur ermöglicht integriertes Repräsentationslernen für Text und Bild
Zentrale Algorithmen
-
Decoupled-DMD
- Decoupled-DMD ist der zentrale Destillationsalgorithmus, der die 8-Schritt-Inferenz von Z-Image ermöglicht
- Er trennt die bestehende DMD (Distribution Matching Distillation) in zwei Mechanismen: CFG Augmentation (CA) und Distribution Matching (DM)
- CA fungiert als Hauptantrieb des Destillationsprozesses
- DM übernimmt die Rolle der Regularisierung zur Stabilisierung der Ausgabe und Erhaltung der Qualität
- Durch die Trennung und Optimierung beider Mechanismen wird hochleistungsfähige Bildgenerierung auch mit wenigen Schritten erreicht
-
DMDR
- DMDR (Distribution Matching Distillation with Reinforcement Learning) ist ein Nachbearbeitungsverfahren, das DMD mit Reinforcement Learning (RL) kombiniert
- RL maximiert die Leistung von DMD, während DMD RL regularisiert – eine komplementäre Struktur
- Dadurch werden semantische Übereinstimmung, ästhetische Qualität und strukturelle Konsistenz verbessert und die Darstellung hochfrequenter Details gestärkt
Community- und Ökosystem-Unterstützung
- Cache-DiT: unterstützt beschleunigte Inferenz durch DBCache, Context Parallelism und Tensor Parallelism
- stable-diffusion.cpp: C++-basierte Engine, mit der Z-Image auch in Umgebungen mit 4 GB VRAM ausgeführt werden kann
- LeMiCa: bietet Inferenzbeschleunigung auf Timestep-Ebene ohne Training
- ComfyUI ZImageLatent: bietet eine einfache Latent-Schnittstelle für offizielle Auflösungen
Zusammenfassung
- Z-Image ist ein leistungsstarkes Open-Source-Bildgenerierungsmodell, das eine effiziente Architektur (S3-DiT) mit innovativen Destillationstechniken (Decoupled-DMD, DMDR) kombiniert
- Z-Image-Turbo erreicht zugleich schnelle Inferenz und hohe Qualität und kann auch auf Consumer-GPUs ausgeführt werden
- Z-Image-Edit unterstützt präzise Bildbearbeitung auf Basis natürlicher Sprache
- In der Alibaba AI Arena erzielte es unter Open-Source-Modellen Spitzenwerte bei menschlichen Präferenzbewertungen
- Das Z-Image-Ökosystem wird mit verschiedenen Community-Projekten integriert und entwickelt sich zu einer universellen Plattform für generative Modelle weiter
Noch keine Kommentare.