Z-Image – Leistungsstarkes und effizientes Bildgenerierungsmodell

(github.com/Tongyi-MAI)

23 Punkte von GN⁺ 2025-12-08 | 3 Kommentare | Auf WhatsApp teilen

Ein Open-Source-Bildgenerierungsmodell von Alibaba unter der Apache-2.0-Lizenz mit Leistung auf Nano-Banana-Pro-Niveau
Ein effizientes Bildgenerierungsmodell mit 6B Parametern auf Basis eines Single-Stream Diffusion Transformer
Es besteht aus drei Versionen; Z-Image-Turbo erreicht mit nur 8 Inferenzschritten eine Qualität auf dem Niveau konkurrierender Modelle und läuft auch in einer Umgebung mit 16 GB VRAM
Z-Image-Edit bietet Bildbearbeitungsfunktionen auf Basis von Anweisungen in natürlicher Sprache, und Z-Image-Base soll als Basismodell für das Fine-Tuning durch die Community veröffentlicht werden
Das Modell verwendet die S3-DiT-Architektur, die Text-, visuelle und VAE-Token in einer einzigen Sequenz integriert und so die Parametereffizienz maximiert
Mit den Algorithmen Decoupled-DMD und DMDR erzeugt es auch mit wenigen Schritten hochwertige Bilder und erzielt Spitzenleistung unter Open-Source-Modellen

Überblick über Z-Image

Z-Image ist ein grundlegendes Bildgenerierungsmodell, das sowohl Effizienz als auch Leistung bietet und eine Single-Stream-Diffusion-Transformer-Struktur verwendet
Es basiert auf 6 Milliarden Parametern und bietet drei Modellvarianten: Z-Image-Turbo, Z-Image-Base und Z-Image-Edit
- Z-Image-Turbo: erzeugt hochwertige Bilder mit nur 8 Funktionsauswertungen (NFE) und erreicht auf einer H800 GPU eine Inferenzlatenz von unter 1 Sekunde
- Z-Image-Base: nicht destilliertes Basismodell zur Unterstützung von Community-basiertem Fine-Tuning und kundenspezifischer Entwicklung
- Z-Image-Edit: eine auf Bildbearbeitung spezialisierte Version mit bildbasierter Transformation auf Grundlage natürlicher Sprache

Hauptfunktionen und Leistung

Z-Image-Turbo rendert fotorealistische Bilder sowie zweisprachigen Text in Englisch und Chinesisch präzise
Die Funktion Prompt Enhancer verbessert die Fähigkeit zu schlussfolgerndem und weltwissensbasiertem Beschreiben
Z-Image-Edit unterstützt kreative Bildtransformationen und ein präzises Verständnis von Anweisungen
In der Elo-basierten Bewertung menschlicher Präferenzen der Alibaba AI Arena erreichte es Spitzenleistung unter Open-Source-Modellen

Modellarchitektur (S3-DiT)

Verwendet die Struktur Scalable Single-Stream DiT (S3-DiT)
- Text-, visuelle semantische Token und Bild-VAE-Token werden zu einer einzigen Sequenz kombiniert
- Im Vergleich zu bestehenden Dual-Stream-Strukturen wird die Parametereffizienz maximiert
Diese Struktur ermöglicht integriertes Repräsentationslernen für Text und Bild

Zentrale Algorithmen

Decoupled-DMD
- Decoupled-DMD ist der zentrale Destillationsalgorithmus, der die 8-Schritt-Inferenz von Z-Image ermöglicht
- Er trennt die bestehende DMD (Distribution Matching Distillation) in zwei Mechanismen: CFG Augmentation (CA) und Distribution Matching (DM)
  - CA fungiert als Hauptantrieb des Destillationsprozesses
  - DM übernimmt die Rolle der Regularisierung zur Stabilisierung der Ausgabe und Erhaltung der Qualität
- Durch die Trennung und Optimierung beider Mechanismen wird hochleistungsfähige Bildgenerierung auch mit wenigen Schritten erreicht
DMDR
- DMDR (Distribution Matching Distillation with Reinforcement Learning) ist ein Nachbearbeitungsverfahren, das DMD mit Reinforcement Learning (RL) kombiniert
- RL maximiert die Leistung von DMD, während DMD RL regularisiert – eine komplementäre Struktur
- Dadurch werden semantische Übereinstimmung, ästhetische Qualität und strukturelle Konsistenz verbessert und die Darstellung hochfrequenter Details gestärkt

Community- und Ökosystem-Unterstützung

Cache-DiT: unterstützt beschleunigte Inferenz durch DBCache, Context Parallelism und Tensor Parallelism
stable-diffusion.cpp: C++-basierte Engine, mit der Z-Image auch in Umgebungen mit 4 GB VRAM ausgeführt werden kann
LeMiCa: bietet Inferenzbeschleunigung auf Timestep-Ebene ohne Training
ComfyUI ZImageLatent: bietet eine einfache Latent-Schnittstelle für offizielle Auflösungen

Zusammenfassung

Z-Image ist ein leistungsstarkes Open-Source-Bildgenerierungsmodell, das eine effiziente Architektur (S3-DiT) mit innovativen Destillationstechniken (Decoupled-DMD, DMDR) kombiniert
Z-Image-Turbo erreicht zugleich schnelle Inferenz und hohe Qualität und kann auch auf Consumer-GPUs ausgeführt werden
Z-Image-Edit unterstützt präzise Bildbearbeitung auf Basis natürlicher Sprache
In der Alibaba AI Arena erzielte es unter Open-Source-Modellen Spitzenwerte bei menschlichen Präferenzbewertungen
Das Z-Image-Ökosystem wird mit verschiedenen Community-Projekten integriert und entwickelt sich zu einer universellen Plattform für generative Modelle weiter

3 Kommentare

crawler 2025-12-09

Lokale Bildgenerierung ist wirklich sehr lange bei SDXL stehen geblieben, daher bin ich gespannt, weil es so aussieht, als wäre endlich ein gutes Basismodell erschienen.
Vor allem ist Stable Diffusion, seit es so bekannt geworden ist, so stark zensiert worden, dass das Training kaum noch möglich war — umso beeindruckender ist es, dass es hier überhaupt keine Zensur gibt.

wedding 2025-12-08

Ich habe es aus Neugier ausprobiert. Ohne Zensur könnte es zu einem scharfen Messer werden ...

GN⁺ 2025-12-08

Hacker-News-Kommentare

Ich habe letzte Woche Z-Image Turbo getestet
- Auf einer RTX 4090 ist es mit etwa 3 Sekunden sehr schnell, und selbst bei Auflösungen von 1536x1024 bis 2048x2048 ist die Konsistenz der Bilder erstaunlich
- Für ein Modell mit 6B Parametern ist die Genauigkeit beeindruckend
- Besonders effektiv ist es beim Post-Processing (Refiner) der Ergebnisse von Qwen-Image 20b. Qwen versteht Prompts hervorragend, neigt aber dazu, Bilder weich zu verwischen
- Testbeispiele
- Auf der RTX 4090 dauert es 3 Sekunden, auf einem M1 Ultra dagegen 8 Sekunden pro Schritt; bei standardmäßig 9 Schritten sind das über 1 Minute
- Daran merkt man, wie weit Apple Silicon bei der Verarbeitung von Nicht-Sprachmodellen hinterherhinkt
- Auf fal.ai ist die Generierung in unter 1 Sekunde möglich. Mit LoRA lassen sich in unter 3 Sekunden personalisierte Bilder erzeugen
- Selbst im Vergleich mit seedream, nanobanana usw. gehört die Kombination aus Geschwindigkeit und Qualität stark genug für die Top 5
- Allerdings haben im Test nur 2 von 4 Fällen bestanden; zum Beispiel sah ein KitKat-Riegel in Form und Logo völlig anders aus, und DNA-Armor wurde einfach als Metallmaterial dargestellt
- Im GitHub-Link gibt es einen Tippfehler (gitub), der auf eine bösartige Website führt; Vorsicht ist also geboten
- China trägt das Open-Weights-AI-Ökosystem faktisch. Wenn es künftig noch einen Consumer-GPU-Markt gibt, dann wohl dank China
Dass mit 6B Parametern solche Ergebnisse herauskommen, ist ein erstaunlicher Fortschritt
- Die Community nimmt das Modell schnell an, und Flux(2) ist fast schon vergessen
- Z-Image gewinnt zusätzlich an Popularität, weil es ein unkontrolliertes Modell ist. Dagegen hat BFL, der Hersteller von Flux 2, einen großen Teil seiner Pressemitteilung auf „Sicherheit“ gelegt, also auf Zensur
- Diese „Sicherheit“ bezog sich jedoch eher auf Richtlinien des Online-Dienstes als auf das Modell selbst. Tatsächlich kann man ohne Einschränkungen generieren
- Die Erwähnung von „Sicherheit“ ist letztlich nur eine Botschaft an Investoren: „Wir bringen euch nicht in Schwierigkeiten“
- Der Ausdruck „lobotomizing“ ist interessant. Ich frage mich, was es bedeutet, das auf ein Bildgenerierungsmodell anzuwenden
- Wenn dieses Modell aber aus China stammt, kann es womöglich kein Bild von Xi Jinping erzeugen
Im Pretrained-Podcast wurde dieses Modell kürzlich behandelt
- Es hat eine effiziente Architektur, da bestehende Backbones für Text-Encoding und semantische Token wiederverwendet werden
- Es wurde mit synthetischen Caption-Daten unterschiedlicher Länge trainiert, was das Textverständnis verbessert
- OCR-Text innerhalb von Bildern wurde ins Training einbezogen, wodurch sich die Qualität der Textgenerierung verbessert hat. Nano Banana Pro hat sich auf ähnliche Weise weiterentwickelt
Im offiziellen Demo-PDF gibt es fast 50 Einzelbilder von Frauen, aber nur 2 von Männern
- Der von den Entwicklern angenommene Zielmarkt ist eindeutig
- Wenn man sich Seiten wie civitai ansieht, spiegeln die meisten nutzergenerierten Bilder und LoRAs genau diesen Markt wider
- Solche Technologien werden letztlich von den Wünschen junger Männer angetrieben
- Betrachtet man die Reaktionen in der r/stablediffusion-Community, scheint Flux 2 praktisch erledigt zu sein. Das Wissensniveau ist viel höher, aber Z-Image ist beliebter
- Interessanterweise ist einer der männlichen Modelle unverändert einfach Tony Leung
- Weil das Modell unzensiert ist, passt es wohl besser zu diesem Markt
Meine eigenen Erfahrungen damit waren enttäuschend
- Oberflächlich sieht es gut aus, aber tatsächlich war die Prompt-Befolgung schwach, und Formulierungen wie „most cultures“ wurden zu comicartigen Bildern
Z-Image wird als der wahre Nachfolger von Stable Diffusion 1.5 bewertet
- Qualität, Erweiterbarkeit und lokale Ausführbarkeit haben sich verbessert, und ein Ökosystem bildet sich schnell
- Ich würde aber gern fragen, ob SDXL vergessen wurde. Der Release ist gerade einmal zweieinhalb Jahre her
Ich habe es auf einem Framework Desktop getestet, aber ComfyUI verursachte bei etwa 40 Schritten einen amdgpu-Kernel-Fehler, sodass ich selbst einen Workaround schreiben musste
- Mit LoRA habe ich ordentliche Ergebnisse erzielt, und schon mit 8 Schritten (15–20 Sekunden) lassen sich ausreichend ansehnliche Bilder erzeugen
- Ich habe einen auf llama.cpp basierenden Prompt-Enhancement-Node gebaut, um die Qualität zu verbessern
Es ist erstaunlich, dass in 16GiB so viel Weltwissen steckt
- Es steht zwar noch am Anfang, aber künftig wird sich lokale AI wohl in Richtung stärkerer Personalisierung und Hackbarkeit entwickeln
- Ich denke, dass eine Zukunft kommt, die stärker von intelligenten Modellen wie Nano Banana geprägt ist
- Man muss in der Lage sein, direkt eine Steuerungsschicht in das Modell zu injizieren, um es wirklich sinnvoll zu nutzen
- Ich hoffe, dass irgendwann auch Modelle auf dem Niveau von Nano Banana Pro lokal laufen werden
Allerdings ist auch dieses Modell von chinesischer Zensur betroffen
- Wenn man nach „Tank Man“ oder „Lady Liberty Hong Kong“ fragt, gibt es nur die Ausgabe „Maybe Not Safe“
Als AI-Anfänger habe ich mich gefragt, ob es auf einem MacBook mit 24 GB ausführbar ist
- Auf einem M5 MacBook Pro dauerte die Generierung eines einzelnen Bildes tatsächlich 399 Sekunden, und in dieser Zeit fror das System ein
- Auf replicate.com kostet ein Bild 1,5 Sekunden und ungefähr 1 Dollar pro 1000 Bilder, was deutlich effizienter ist
- Das Fazit lautet: Lokale Ausführung auf dem Mac ist ineffizient
- Für Einsteiger ist ComfyUI für macOS am einfachsten. Wenn man den Z-Image-Workflow lädt, werden die Modelle automatisch installiert und ausgeführt
- Es gibt auch eine Möglichkeit, es unter Linux, Windows und Mac mit koboldcpp auszuführen. Man lädt die Konfigurationsdatei und kann es dann direkt auf dem lokalen Server (http://localhost:5001/sdui) verwenden