23 Punkte von GN⁺ 2025-12-08 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Ein Open-Source-Bildgenerierungsmodell von Alibaba unter der Apache-2.0-Lizenz mit Leistung auf Nano-Banana-Pro-Niveau
  • Ein effizientes Bildgenerierungsmodell mit 6B Parametern auf Basis eines Single-Stream Diffusion Transformer
  • Es besteht aus drei Versionen; Z-Image-Turbo erreicht mit nur 8 Inferenzschritten eine Qualität auf dem Niveau konkurrierender Modelle und läuft auch in einer Umgebung mit 16 GB VRAM
  • Z-Image-Edit bietet Bildbearbeitungsfunktionen auf Basis von Anweisungen in natürlicher Sprache, und Z-Image-Base soll als Basismodell für das Fine-Tuning durch die Community veröffentlicht werden
  • Das Modell verwendet die S3-DiT-Architektur, die Text-, visuelle und VAE-Token in einer einzigen Sequenz integriert und so die Parametereffizienz maximiert
  • Mit den Algorithmen Decoupled-DMD und DMDR erzeugt es auch mit wenigen Schritten hochwertige Bilder und erzielt Spitzenleistung unter Open-Source-Modellen

Überblick über Z-Image

  • Z-Image ist ein grundlegendes Bildgenerierungsmodell, das sowohl Effizienz als auch Leistung bietet und eine Single-Stream-Diffusion-Transformer-Struktur verwendet
  • Es basiert auf 6 Milliarden Parametern und bietet drei Modellvarianten: Z-Image-Turbo, Z-Image-Base und Z-Image-Edit
    • Z-Image-Turbo: erzeugt hochwertige Bilder mit nur 8 Funktionsauswertungen (NFE) und erreicht auf einer H800 GPU eine Inferenzlatenz von unter 1 Sekunde
    • Z-Image-Base: nicht destilliertes Basismodell zur Unterstützung von Community-basiertem Fine-Tuning und kundenspezifischer Entwicklung
    • Z-Image-Edit: eine auf Bildbearbeitung spezialisierte Version mit bildbasierter Transformation auf Grundlage natürlicher Sprache

Hauptfunktionen und Leistung

  • Z-Image-Turbo rendert fotorealistische Bilder sowie zweisprachigen Text in Englisch und Chinesisch präzise
  • Die Funktion Prompt Enhancer verbessert die Fähigkeit zu schlussfolgerndem und weltwissensbasiertem Beschreiben
  • Z-Image-Edit unterstützt kreative Bildtransformationen und ein präzises Verständnis von Anweisungen
  • In der Elo-basierten Bewertung menschlicher Präferenzen der Alibaba AI Arena erreichte es Spitzenleistung unter Open-Source-Modellen

Modellarchitektur (S3-DiT)

  • Verwendet die Struktur Scalable Single-Stream DiT (S3-DiT)
    • Text-, visuelle semantische Token und Bild-VAE-Token werden zu einer einzigen Sequenz kombiniert
    • Im Vergleich zu bestehenden Dual-Stream-Strukturen wird die Parametereffizienz maximiert
  • Diese Struktur ermöglicht integriertes Repräsentationslernen für Text und Bild

Zentrale Algorithmen

  • Decoupled-DMD

    • Decoupled-DMD ist der zentrale Destillationsalgorithmus, der die 8-Schritt-Inferenz von Z-Image ermöglicht
    • Er trennt die bestehende DMD (Distribution Matching Distillation) in zwei Mechanismen: CFG Augmentation (CA) und Distribution Matching (DM)
      • CA fungiert als Hauptantrieb des Destillationsprozesses
      • DM übernimmt die Rolle der Regularisierung zur Stabilisierung der Ausgabe und Erhaltung der Qualität
    • Durch die Trennung und Optimierung beider Mechanismen wird hochleistungsfähige Bildgenerierung auch mit wenigen Schritten erreicht
  • DMDR

    • DMDR (Distribution Matching Distillation with Reinforcement Learning) ist ein Nachbearbeitungsverfahren, das DMD mit Reinforcement Learning (RL) kombiniert
    • RL maximiert die Leistung von DMD, während DMD RL regularisiert – eine komplementäre Struktur
    • Dadurch werden semantische Übereinstimmung, ästhetische Qualität und strukturelle Konsistenz verbessert und die Darstellung hochfrequenter Details gestärkt

Community- und Ökosystem-Unterstützung

  • Cache-DiT: unterstützt beschleunigte Inferenz durch DBCache, Context Parallelism und Tensor Parallelism
  • stable-diffusion.cpp: C++-basierte Engine, mit der Z-Image auch in Umgebungen mit 4 GB VRAM ausgeführt werden kann
  • LeMiCa: bietet Inferenzbeschleunigung auf Timestep-Ebene ohne Training
  • ComfyUI ZImageLatent: bietet eine einfache Latent-Schnittstelle für offizielle Auflösungen

Zusammenfassung

  • Z-Image ist ein leistungsstarkes Open-Source-Bildgenerierungsmodell, das eine effiziente Architektur (S3-DiT) mit innovativen Destillationstechniken (Decoupled-DMD, DMDR) kombiniert
  • Z-Image-Turbo erreicht zugleich schnelle Inferenz und hohe Qualität und kann auch auf Consumer-GPUs ausgeführt werden
  • Z-Image-Edit unterstützt präzise Bildbearbeitung auf Basis natürlicher Sprache
  • In der Alibaba AI Arena erzielte es unter Open-Source-Modellen Spitzenwerte bei menschlichen Präferenzbewertungen
  • Das Z-Image-Ökosystem wird mit verschiedenen Community-Projekten integriert und entwickelt sich zu einer universellen Plattform für generative Modelle weiter

Noch keine Kommentare.

Noch keine Kommentare.