Z-Image – Leistungsstarkes und effizientes Bildgenerierungsmodell
(github.com/Tongyi-MAI)- Ein Open-Source-Bildgenerierungsmodell von Alibaba unter der Apache-2.0-Lizenz mit Leistung auf Nano-Banana-Pro-Niveau
- Ein effizientes Bildgenerierungsmodell mit 6B Parametern auf Basis eines Single-Stream Diffusion Transformer
- Es besteht aus drei Versionen; Z-Image-Turbo erreicht mit nur 8 Inferenzschritten eine Qualität auf dem Niveau konkurrierender Modelle und läuft auch in einer Umgebung mit 16 GB VRAM
- Z-Image-Edit bietet Bildbearbeitungsfunktionen auf Basis von Anweisungen in natürlicher Sprache, und Z-Image-Base soll als Basismodell für das Fine-Tuning durch die Community veröffentlicht werden
- Das Modell verwendet die S3-DiT-Architektur, die Text-, visuelle und VAE-Token in einer einzigen Sequenz integriert und so die Parametereffizienz maximiert
- Mit den Algorithmen Decoupled-DMD und DMDR erzeugt es auch mit wenigen Schritten hochwertige Bilder und erzielt Spitzenleistung unter Open-Source-Modellen
Überblick über Z-Image
- Z-Image ist ein grundlegendes Bildgenerierungsmodell, das sowohl Effizienz als auch Leistung bietet und eine Single-Stream-Diffusion-Transformer-Struktur verwendet
- Es basiert auf 6 Milliarden Parametern und bietet drei Modellvarianten: Z-Image-Turbo, Z-Image-Base und Z-Image-Edit
- Z-Image-Turbo: erzeugt hochwertige Bilder mit nur 8 Funktionsauswertungen (NFE) und erreicht auf einer H800 GPU eine Inferenzlatenz von unter 1 Sekunde
- Z-Image-Base: nicht destilliertes Basismodell zur Unterstützung von Community-basiertem Fine-Tuning und kundenspezifischer Entwicklung
- Z-Image-Edit: eine auf Bildbearbeitung spezialisierte Version mit bildbasierter Transformation auf Grundlage natürlicher Sprache
Hauptfunktionen und Leistung
- Z-Image-Turbo rendert fotorealistische Bilder sowie zweisprachigen Text in Englisch und Chinesisch präzise
- Die Funktion Prompt Enhancer verbessert die Fähigkeit zu schlussfolgerndem und weltwissensbasiertem Beschreiben
- Z-Image-Edit unterstützt kreative Bildtransformationen und ein präzises Verständnis von Anweisungen
- In der Elo-basierten Bewertung menschlicher Präferenzen der Alibaba AI Arena erreichte es Spitzenleistung unter Open-Source-Modellen
Modellarchitektur (S3-DiT)
- Verwendet die Struktur Scalable Single-Stream DiT (S3-DiT)
- Text-, visuelle semantische Token und Bild-VAE-Token werden zu einer einzigen Sequenz kombiniert
- Im Vergleich zu bestehenden Dual-Stream-Strukturen wird die Parametereffizienz maximiert
- Diese Struktur ermöglicht integriertes Repräsentationslernen für Text und Bild
Zentrale Algorithmen
-
Decoupled-DMD
- Decoupled-DMD ist der zentrale Destillationsalgorithmus, der die 8-Schritt-Inferenz von Z-Image ermöglicht
- Er trennt die bestehende DMD (Distribution Matching Distillation) in zwei Mechanismen: CFG Augmentation (CA) und Distribution Matching (DM)
- CA fungiert als Hauptantrieb des Destillationsprozesses
- DM übernimmt die Rolle der Regularisierung zur Stabilisierung der Ausgabe und Erhaltung der Qualität
- Durch die Trennung und Optimierung beider Mechanismen wird hochleistungsfähige Bildgenerierung auch mit wenigen Schritten erreicht
-
DMDR
- DMDR (Distribution Matching Distillation with Reinforcement Learning) ist ein Nachbearbeitungsverfahren, das DMD mit Reinforcement Learning (RL) kombiniert
- RL maximiert die Leistung von DMD, während DMD RL regularisiert – eine komplementäre Struktur
- Dadurch werden semantische Übereinstimmung, ästhetische Qualität und strukturelle Konsistenz verbessert und die Darstellung hochfrequenter Details gestärkt
Community- und Ökosystem-Unterstützung
- Cache-DiT: unterstützt beschleunigte Inferenz durch DBCache, Context Parallelism und Tensor Parallelism
- stable-diffusion.cpp: C++-basierte Engine, mit der Z-Image auch in Umgebungen mit 4 GB VRAM ausgeführt werden kann
- LeMiCa: bietet Inferenzbeschleunigung auf Timestep-Ebene ohne Training
- ComfyUI ZImageLatent: bietet eine einfache Latent-Schnittstelle für offizielle Auflösungen
Zusammenfassung
- Z-Image ist ein leistungsstarkes Open-Source-Bildgenerierungsmodell, das eine effiziente Architektur (S3-DiT) mit innovativen Destillationstechniken (Decoupled-DMD, DMDR) kombiniert
- Z-Image-Turbo erreicht zugleich schnelle Inferenz und hohe Qualität und kann auch auf Consumer-GPUs ausgeführt werden
- Z-Image-Edit unterstützt präzise Bildbearbeitung auf Basis natürlicher Sprache
- In der Alibaba AI Arena erzielte es unter Open-Source-Modellen Spitzenwerte bei menschlichen Präferenzbewertungen
- Das Z-Image-Ökosystem wird mit verschiedenen Community-Projekten integriert und entwickelt sich zu einer universellen Plattform für generative Modelle weiter
3 Kommentare
Lokale Bildgenerierung ist wirklich sehr lange bei SDXL stehen geblieben, daher bin ich gespannt, weil es so aussieht, als wäre endlich ein gutes Basismodell erschienen.
Vor allem ist Stable Diffusion, seit es so bekannt geworden ist, so stark zensiert worden, dass das Training kaum noch möglich war — umso beeindruckender ist es, dass es hier überhaupt keine Zensur gibt.
Ich habe es aus Neugier ausprobiert. Ohne Zensur könnte es zu einem scharfen Messer werden ...
Hacker-News-Kommentare
Ich habe letzte Woche Z-Image Turbo getestet
gitub), der auf eine bösartige Website führt; Vorsicht ist also gebotenDass mit 6B Parametern solche Ergebnisse herauskommen, ist ein erstaunlicher Fortschritt
Im Pretrained-Podcast wurde dieses Modell kürzlich behandelt
Im offiziellen Demo-PDF gibt es fast 50 Einzelbilder von Frauen, aber nur 2 von Männern
Meine eigenen Erfahrungen damit waren enttäuschend
Z-Image wird als der wahre Nachfolger von Stable Diffusion 1.5 bewertet
Ich habe es auf einem Framework Desktop getestet, aber ComfyUI verursachte bei etwa 40 Schritten einen amdgpu-Kernel-Fehler, sodass ich selbst einen Workaround schreiben musste
Es ist erstaunlich, dass in 16GiB so viel Weltwissen steckt
Allerdings ist auch dieses Modell von chinesischer Zensur betroffen
Als AI-Anfänger habe ich mich gefragt, ob es auf einem MacBook mit 24 GB ausführbar ist
http://localhost:5001/sdui) verwenden