6 Punkte von newgrit1004 2026-04-05 | Noch keine Kommentare. | Auf WhatsApp teilen

Hallo zusammen. Angespornt durch das Interesse, das meinem letzten Projekt zur Optimierung des Qwen3-TTS-Triton-Kernels entgegengebracht wurde, teile ich nun mein zweites Open-Source-Projekt.

Es handelt sich um einen ComfyUI-Custom-Node, der die Inferenz von Z-Image S3-DiT (6.15B), einem beliebten Bildgenerierungsmodell mit mehr als 3,6 Millionen monatlichen Downloads auf HuggingFace, um 20–30 % beschleunigt.

1. Warum habe ich das gebaut? (Hintergrund und Merkmale)
Derzeit gibt es mit Nunchaku(SVDQuant) zwar bereits ein Tool zur Beschleunigung von Z-Image, dieses unterstützt jedoch nur das Z-Image-"Turbo"-Modell. Ich war der Ansicht, dass für das Base-Modell eine Beschleunigungslösung auf Kernel-Ebene nötig ist.

Außerdem ist es aus Sicht der Nutzer eine große Belastung, erneut quantisierte Modelle mit Dutzenden von GB (GGUF usw.) herunterzuladen. Deshalb habe ich es so umgesetzt, dass bereits verwendete BF16-safetensors-Modelle zur Laufzeit sofort quantisiert werden (On-the-fly Quantization) und unverändert weiterverwendet werden können.

  • Die Installation ist mit einem Klick über den ComfyUI Manager oder einfach per pip install möglich. (Kein Stress durch umständliche Custom-CUDA-Builds oder Versionsabgleich.)
  • Es genügt, dem bestehenden Workflow nur einen einzigen Node hinzuzufügen, und LoRA sowie ControlNet sind vollständig kompatibel.

2. Performance-Benchmarks (RTX 5090, 30 Schritte)

  • T2I Baseline: 18.9s → Triton + INT8: 15.3s (1.24x schneller)
  • LoRA Baseline: 19.0s → LoRA + Triton + INT8: 14.6s (1.30x schneller)
  • VRAM-Einsparung: insgesamt 23GB → 19.5GB (ca. 3.5GB weniger)

3. Sichtbar überprüfbarer Qualitätserhalt (kein Cherry-picking)
Beim letzten TTS-Projekt mussten Sie die Audiodateien noch direkt herunterladen und anhören, um die Ergebnisse zu prüfen; diesmal ist ein Qualitätsvergleich sofort im Web möglich.

Für den Performance-Vergleich wurde keinerlei Cherry-picking betrieben. Durch Kernel Fusion und die Eigenschaften der Quantisierung gibt es zwar minimale Änderungen auf Pixelebene, doch die Gesamtkomposition und die Detailqualität bleiben hervorragend erhalten. Über den folgenden Link können Sie die Original-Vergleichsbilder aller Szenarien direkt prüfen.

4. Engineering-Punkte
Auch bei diesem Kernel-Code habe ich aktiv die Hilfe von Claude Code genutzt; stattdessen habe ich meine gesamte Energie in gründliches Benchmarking und die Qualitätsvalidierung gesteckt.

  • Einsatz von 6 fusionierten Triton-Kernels (RMSNorm, SwiGLU, QK-Norm+RoPE, Norm+Gate+Residual, AdaLN, RoPE 3D)
  • W8A8 + Hadamard Rotation (auf Basis von NeurIPS 2024 QuaRot / ConvRot), um Ausreißer zu verteilen und die Quantisierungsqualität bestmöglich zu erhalten

5. Vorschau auf Updates für das vorherige Projekt
Ergänzend dazu plane ich, auch das zuvor veröffentlichte Projekt qwen3-tts-triton bald als ComfyUI-Custom-Node bereitzustellen. (v0.2.0-Update: weniger verwaschene Aussprache durch Triton+PyTorch-Hybrid, Anwendung von TurboQuant, Austausch des Cohere-Evaluierungstools usw.)

Der Test in meiner persönlichen Umgebung (RTX 5090) ist bereits abgeschlossen. Es wäre eine große Hilfe, wenn Sie es auf GPUs der 30er-/40er-Serie oder in anderen Umgebungen ausprobieren und Feedback über GitHub-Issues oder Kommentare geben könnten. Vielen Dank!

Noch keine Kommentare.

Noch keine Kommentare.