22 Punkte von newgrit1004 2026-03-23 | Noch keine Kommentare. | Auf WhatsApp teilen

Hallo, ich teile hier eine Triton-Kernel-Fusion-Bibliothek, die den Inferenz-Engpass des Qwen3-TTS-1.7B-Modells behebt und eine Beschleunigung um etwa das Fünffache erreicht.

1. Warum habe ich das gebaut? (Hintergrund)
Wer TTS-Audio schon in der Praxis eingesetzt hat, weiß: Probabilistische (stochastic) Modelle wie Qwen3-TTS liefern bei jedem Durchlauf unterschiedliche Ergebnisse bei Intonation, Tonfall usw.

In der Praxis ist deshalb eine Multi-Generation-Strategie unverzichtbar, bei der schnell mehrere Audio-Kandidaten erzeugt und anschließend die natürlichste Variante ausgewählt wird. Mit der bisherigen Geschwindigkeit war die Pipeline jedoch zu träge, daher habe ich die Optimierung selbst in die Hand genommen. Durch diese Optimierung lassen sich in der Zeit, in der zuvor ein Kandidat erzeugt wurde, jetzt fünf Kandidaten generieren.

2. Wie habe ich das gebaut? (Claude Code + harte Tests)
Offen gesagt wusste ich um die Leistungsfähigkeit von OpenAI Triton als Kernel-Optimierungsbibliothek, hatte aber noch nie selbst Kernel-Code geschrieben. Deshalb wurde der Kernel-Code in diesem Projekt größtenteils mit Hilfe von Claude Code erstellt.

Um meine fehlende Erfahrung mit Triton-Implementierungen auszugleichen und die Zuverlässigkeit des Modells zu 100 % sicherzustellen, habe ich meine gesamte Energie nicht ins Schreiben des Codes, sondern in extrem strenge Tests investiert.

  • Ich habe 90 Unit-Tests geschrieben, um mathematisch identische Ergebnisse zum Originalmodell zu garantieren.
  • Für alle wichtigen Checkpoint-Layer sowie die komplette finale Ausgabe wurde eine Cosine Similarity > 0.997 erreicht.

3. Technische Punkte und Ergebnisse
Inspiriert vom Liger Kernel von LinkedIn habe ich vier Operationen, die bei der Inferenz zum Flaschenhals werden (RMSNorm, M-RoPE, Norm+Residual, SwiGLU), in Triton-Kernels fusioniert.

[Performance-Benchmark – basierend auf RTX 5090]

  • Base (PyTorch): 3,902 ms
  • Hybrid (Faster+Triton): 919 ms (~4.7x schneller)
    (※ Der Hybrid-Modus kombiniert das CUDA-Graph-basierte faster-qwen3-tts mit dieser Triton-Kernel-Fusion.)

4. Abschluss
Bisher wurden die Tests nur auf meiner privaten RTX-5090-Umgebung abgeschlossen. Falls jemand andere Hardware wie Server-GPUs (A100, H100) oder eine RTX 4090 nutzt, wäre es eine große Hilfe, wenn ihr das ausprobiert und Feedback über GitHub oder in den Kommentaren gebt.

Vielen Dank fürs Lesen!

Noch keine Kommentare.

Noch keine Kommentare.