Pocket TTS: Hochwertiges TTS, das CPUs eine Stimme gibt

(kyutai.org)

18 Punkte von GN⁺ 2026-01-16 | Noch keine Kommentare. | Auf WhatsApp teilen

Pocket TTS mit 100 Millionen Parametern ist ein leichtgewichtiges Text-to-Speech-Modell mit Voice-Cloning-Funktion, das selbst auf gewöhnlichen Laptop-CPUs in Echtzeit laufen kann
Es verringert die Leistungslücke zwischen bestehenden großen LLM-basierten TTS-Systemen (mehr als 1 Milliarde Parameter) und kleinem Kokoro TTS (82 Millionen Parameter) und erreicht gleichzeitig hohe Qualität und Effizienz
Mit nur einem Sprachsample von etwa 5 Sekunden lassen sich Stimmfarbe, Emotion, Intonation und akustische Bedingungen eines Sprechers präzise nachbilden
Durch eine Architektur auf Basis eines Continuous Audio Language Model werden kontinuierliche latente Vektoren statt diskreter Tokens direkt vorhergesagt, wodurch die Modellgröße ohne Qualitätsverlust reduziert wird
Als Open Source unter MIT-Lizenz veröffentlicht, setzt es einen neuen Maßstab für leichtgewichtige TTS-Technologie, die hochwertige Sprachsynthese auch in CPU-Umgebungen ermöglicht

Überblick über Pocket TTS

Pocket TTS ist ein Text-to-Speech-Modell mit 100 Millionen Parametern, das Voice Cloning unterstützt
- Kann selbst auf Laptop-CPUs in Echtzeit ausgeführt werden
- Lokale Ausführung per Befehl uvx pocket-tts serve oder uvx pocket-tts generate
Entwickelt von Kyutai und als Open Source unter der MIT-Lizenz veröffentlicht
- Für das Training wurden ausschließlich öffentliche englische Sprachdatensätze verwendet
- Eine mögliche Erweiterung mit zusätzlichen nicht öffentlichen Daten wird erwähnt

Vergleich mit bestehenden TTS-Modellen

Die aktuelle TTS-Technologie lässt sich in zwei Kategorien einteilen
- Große LLM-basierte Modelle: z. B. Kyutai TTS 1.6B (ca. 1,6 Milliarden Parameter)
  - Können vielfältige Stimmen, Emotionen und akustische Bedingungen modellieren, benötigen jedoch eine GPU
- Kleine spezialisierte Modelle: z. B. Kokoro TTS (82 Millionen Parameter)
  - Arbeiten effizient mit einem festen Stimmenset und einer manuell aufgebauten Pipeline, sind aber in ihrer Flexibilität eingeschränkt
Pocket TTS besetzt die Mittelposition zwischen diesen beiden Ansätzen und ermöglicht hochwertige Sprachsynthese auf der CPU

Leistungsbewertung

Die Evaluierung wurde mit dem Librispeech test-clean set durchgeführt
- Die Audioeingaben wurden mit Adobe Enhance Speech aufbereitet, um 24-kHz-Qualität sicherzustellen
Vergleichsmodelle: F5-TTS, DSM, Chatterbox Turbo, Kokoro TTS
Bewertungsmetriken:
- Word Error Rate (WER)
- Audioqualität (ELO)
- Sprecherähnlichkeit (ELO)
Zusammenfassung der Ergebnisse:
- Pocket TTS erreicht mit WER 1,84 die niedrigste Fehlerrate
- Die Audioqualität ist besser als bei F5-TTS und DSM
- Die Sprecherähnlichkeit liegt auf dem Niveau der Referenzstimme
- Es ist das einzige Modell, das auf der CPU schneller als in Echtzeit läuft

Modell	Parameterzahl	WER ↓	Audioqualität (ELO) ↑	Sprecherähnlichkeit (ELO) ↑	CPU-Echtzeitbetrieb
F5-TTS	336M	2.21	1949 ± 27	1946 ± 26	✗
Kyutai TTS 1.6B	750M	1.84	1959 ± 25	2037 ± 21	✗
Chatterbox Turbo	350M	3.24	2055 ± 23	2012 ± 22	✗
Kokoro	82M	kein Voice Cloning	kein Voice Cloning	✓
Pocket TTS	100M	1.84	2016 ± 25	1898 ± 26	✓

Bei Tests auf Intel Core Ultra 7 165H und Apple M3 konnten nur Pocket TTS und Kokoro in Echtzeit synthetisieren

Architektur

Pocket TTS wurde auf Grundlage der Forschung zu Continuous Audio Language Models entworfen
- Während bisherige Ansätze diskrete Audio-Tokens vorhersagen, prognostiziert Pocket TTS direkt kontinuierliche latente Vektoren (latents)
- Dadurch werden RQ-Transformer-Engpässe beseitigt und ein leichtgewichtiges Modell ermöglicht

Neural Audio Codec

Entworfen auf Basis des Mimi-Codecs
- Mimi komprimiert in diskrete Tokens, Pocket TTS verwendet jedoch kontinuierliche latente Repräsentationen
- Eingesetzt wird ein VAE-Training mit Normalisierung auf eine Gauß-Verteilung
- WavLM wird per Kosinus-Ähnlichkeitsverlust in die interne Repräsentation destilliert
- Die RVQ-Stufe wird entfernt und der Destillationsverlust auf die gesamte latente Repräsentation angewendet

Generatives Modell

Basiert auf dem Masked Autoregressive (MAR)-Framework
- Besteht aus einem Causal-Transformer-Backbone und einem MLP-Sampler
- Verwendet Lagrangian Self-Distillation (LSD)-Loss für 1-Step-Sampling
- Während der Inferenz werden die vorhergesagten latenten Vektoren autoregressiv zurückgeführt

Konditionierung durch Sprache und Text

Die Modelleingabe kombiniert einen Sprachprompt (einige Sekunden) mit Text
- Sprache wird über den Codec-Encoder eingebettet, Text über einen SentencePiece-Tokenizer

Zusammensetzung der Modellgröße

Generatives Modell (Transformer + MLP): 90 Millionen Parameter
Codec-Decoder: 10 Millionen Parameter
Codec-Encoder: 18 Millionen Parameter (wird beim Kodieren des Sprachsamples nur einmal verwendet)

Trainingsdaten

Ausschließlich öffentliche englische Sprachdatensätze, insgesamt 88.000 Stunden
- AMI, EARNINGS22, GIGASpeech, SPGISpeech, TED-LIUM, VoxPopuli, LibriHeavy, Emilia

Wichtige technische Beiträge

Head Batch Multiplier

Zur Entschärfung des Rechenengpasses im Transformer wird der z-Vektor mehrfach wiederverwendet
- Für jede Eingabesequenz wird z einmal berechnet und für 8 Loss-Berechnungen wiederverwendet
- Dies verbessert Effizienz und Trainingsstabilität

Gaussian Temperature Sampling

Auch im kontinuierlichen Raum wird eine Sampling-Temperatursteuerung angewendet
- Durch die Reduzierung der Gaußschen Rauschvarianz wird die Qualität verbessert
- Gute Ergebnisse wurden bei Temperatur 0.7 bestätigt

Latent Classifier-Free Guidance (Latent CFG)

Das bestehende CFG wird auf der Ebene der latenten Variablen (z) angewendet
- Konditionierte und unkonditionierte Ausgaben werden linear kombiniert, um die Qualität zu verbessern
- Verwendet wird α=1.5
- Ein ähnliches Konzept taucht auch in der Forschung zu SoundReactor auf

Distillation

Ein CFG-Modell als Lehrermodell wird verwendet, um in ein leichtgewichtiges Schülermodell zu destillieren
- Der MLP-Head des Lehrermodells wird fixiert, und das Schülermodell lernt z mit L2-Loss
- Eine Verkleinerung von einem 24-Layer-Lehrermodell auf ein 6-Layer-Schülermodell ist möglich

Fazit

Pocket TTS ist ein leichtgewichtiges TTS-Modell, das hochwertige Sprachsynthese in Echtzeit auf der CPU ermöglicht
Es kombiniert eine Architektur auf Basis kontinuierlicher latenter Räume, effiziente Trainingsmethoden und Voice Cloning
Als Open Source unter MIT-Lizenz veröffentlicht, bietet es Entwicklern und Forschern Reproduzierbarkeit und Erweiterbarkeit

Pocket TTS: Hochwertiges TTS, das CPUs eine Stimme gibt

Überblick über Pocket TTS

Vergleich mit bestehenden TTS-Modellen

Leistungsbewertung

Architektur

Neural Audio Codec

Generatives Modell

Konditionierung durch Sprache und Text

Zusammensetzung der Modellgröße

Trainingsdaten

Wichtige technische Beiträge

Head Batch Multiplier

Gaussian Temperature Sampling

Latent Classifier-Free Guidance (Latent CFG)

Distillation

Fazit

Verwandte Beiträge

Noch keine Kommentare.