- Pocket TTS mit 100 Millionen Parametern ist ein leichtgewichtiges Text-to-Speech-Modell mit Voice-Cloning-Funktion, das selbst auf gewöhnlichen Laptop-CPUs in Echtzeit laufen kann
- Es verringert die Leistungslücke zwischen bestehenden großen LLM-basierten TTS-Systemen (mehr als 1 Milliarde Parameter) und kleinem Kokoro TTS (82 Millionen Parameter) und erreicht gleichzeitig hohe Qualität und Effizienz
- Mit nur einem Sprachsample von etwa 5 Sekunden lassen sich Stimmfarbe, Emotion, Intonation und akustische Bedingungen eines Sprechers präzise nachbilden
- Durch eine Architektur auf Basis eines Continuous Audio Language Model werden kontinuierliche latente Vektoren statt diskreter Tokens direkt vorhergesagt, wodurch die Modellgröße ohne Qualitätsverlust reduziert wird
- Als Open Source unter MIT-Lizenz veröffentlicht, setzt es einen neuen Maßstab für leichtgewichtige TTS-Technologie, die hochwertige Sprachsynthese auch in CPU-Umgebungen ermöglicht
Überblick über Pocket TTS
- Pocket TTS ist ein Text-to-Speech-Modell mit 100 Millionen Parametern, das Voice Cloning unterstützt
- Kann selbst auf Laptop-CPUs in Echtzeit ausgeführt werden
- Lokale Ausführung per Befehl
uvx pocket-tts serve oder uvx pocket-tts generate
- Entwickelt von Kyutai und als Open Source unter der MIT-Lizenz veröffentlicht
- Für das Training wurden ausschließlich öffentliche englische Sprachdatensätze verwendet
- Eine mögliche Erweiterung mit zusätzlichen nicht öffentlichen Daten wird erwähnt
Vergleich mit bestehenden TTS-Modellen
- Die aktuelle TTS-Technologie lässt sich in zwei Kategorien einteilen
- Große LLM-basierte Modelle: z. B. Kyutai TTS 1.6B (ca. 1,6 Milliarden Parameter)
- Können vielfältige Stimmen, Emotionen und akustische Bedingungen modellieren, benötigen jedoch eine GPU
- Kleine spezialisierte Modelle: z. B. Kokoro TTS (82 Millionen Parameter)
- Arbeiten effizient mit einem festen Stimmenset und einer manuell aufgebauten Pipeline, sind aber in ihrer Flexibilität eingeschränkt
- Pocket TTS besetzt die Mittelposition zwischen diesen beiden Ansätzen und ermöglicht hochwertige Sprachsynthese auf der CPU
Leistungsbewertung
- Die Evaluierung wurde mit dem Librispeech test-clean set durchgeführt
- Die Audioeingaben wurden mit Adobe Enhance Speech aufbereitet, um 24-kHz-Qualität sicherzustellen
- Vergleichsmodelle: F5-TTS, DSM, Chatterbox Turbo, Kokoro TTS
- Bewertungsmetriken:
- Word Error Rate (WER)
- Audioqualität (ELO)
- Sprecherähnlichkeit (ELO)
- Zusammenfassung der Ergebnisse:
- Pocket TTS erreicht mit WER 1,84 die niedrigste Fehlerrate
- Die Audioqualität ist besser als bei F5-TTS und DSM
- Die Sprecherähnlichkeit liegt auf dem Niveau der Referenzstimme
- Es ist das einzige Modell, das auf der CPU schneller als in Echtzeit läuft
| Modell |
Parameterzahl |
WER ↓ |
Audioqualität (ELO) ↑ |
Sprecherähnlichkeit (ELO) ↑ |
CPU-Echtzeitbetrieb |
| F5-TTS |
336M |
2.21 |
1949 ± 27 |
1946 ± 26 |
✗ |
| Kyutai TTS 1.6B |
750M |
1.84 |
1959 ± 25 |
2037 ± 21 |
✗ |
| Chatterbox Turbo |
350M |
3.24 |
2055 ± 23 |
2012 ± 22 |
✗ |
| Kokoro |
82M |
kein Voice Cloning |
kein Voice Cloning |
✓ |
|
| Pocket TTS |
100M |
1.84 |
2016 ± 25 |
1898 ± 26 |
✓ |
- Bei Tests auf Intel Core Ultra 7 165H und Apple M3 konnten nur Pocket TTS und Kokoro in Echtzeit synthetisieren
Architektur
- Pocket TTS wurde auf Grundlage der Forschung zu Continuous Audio Language Models entworfen
- Während bisherige Ansätze diskrete Audio-Tokens vorhersagen, prognostiziert Pocket TTS direkt kontinuierliche latente Vektoren (latents)
- Dadurch werden RQ-Transformer-Engpässe beseitigt und ein leichtgewichtiges Modell ermöglicht
Neural Audio Codec
- Entworfen auf Basis des Mimi-Codecs
- Mimi komprimiert in diskrete Tokens, Pocket TTS verwendet jedoch kontinuierliche latente Repräsentationen
- Eingesetzt wird ein VAE-Training mit Normalisierung auf eine Gauß-Verteilung
- WavLM wird per Kosinus-Ähnlichkeitsverlust in die interne Repräsentation destilliert
- Die RVQ-Stufe wird entfernt und der Destillationsverlust auf die gesamte latente Repräsentation angewendet
Generatives Modell
- Basiert auf dem Masked Autoregressive (MAR)-Framework
- Besteht aus einem Causal-Transformer-Backbone und einem MLP-Sampler
- Verwendet Lagrangian Self-Distillation (LSD)-Loss für 1-Step-Sampling
- Während der Inferenz werden die vorhergesagten latenten Vektoren autoregressiv zurückgeführt
Konditionierung durch Sprache und Text
- Die Modelleingabe kombiniert einen Sprachprompt (einige Sekunden) mit Text
- Sprache wird über den Codec-Encoder eingebettet, Text über einen SentencePiece-Tokenizer
Zusammensetzung der Modellgröße
- Generatives Modell (Transformer + MLP): 90 Millionen Parameter
- Codec-Decoder: 10 Millionen Parameter
- Codec-Encoder: 18 Millionen Parameter (wird beim Kodieren des Sprachsamples nur einmal verwendet)
Trainingsdaten
- Ausschließlich öffentliche englische Sprachdatensätze, insgesamt 88.000 Stunden
- AMI, EARNINGS22, GIGASpeech, SPGISpeech, TED-LIUM, VoxPopuli, LibriHeavy, Emilia
Wichtige technische Beiträge
Head Batch Multiplier
- Zur Entschärfung des Rechenengpasses im Transformer wird der z-Vektor mehrfach wiederverwendet
- Für jede Eingabesequenz wird z einmal berechnet und für 8 Loss-Berechnungen wiederverwendet
- Dies verbessert Effizienz und Trainingsstabilität
Gaussian Temperature Sampling
- Auch im kontinuierlichen Raum wird eine Sampling-Temperatursteuerung angewendet
- Durch die Reduzierung der Gaußschen Rauschvarianz wird die Qualität verbessert
- Gute Ergebnisse wurden bei Temperatur 0.7 bestätigt
Latent Classifier-Free Guidance (Latent CFG)
- Das bestehende CFG wird auf der Ebene der latenten Variablen (z) angewendet
- Konditionierte und unkonditionierte Ausgaben werden linear kombiniert, um die Qualität zu verbessern
- Verwendet wird α=1.5
- Ein ähnliches Konzept taucht auch in der Forschung zu SoundReactor auf
Distillation
- Ein CFG-Modell als Lehrermodell wird verwendet, um in ein leichtgewichtiges Schülermodell zu destillieren
- Der MLP-Head des Lehrermodells wird fixiert, und das Schülermodell lernt z mit L2-Loss
- Eine Verkleinerung von einem 24-Layer-Lehrermodell auf ein 6-Layer-Schülermodell ist möglich
Fazit
- Pocket TTS ist ein leichtgewichtiges TTS-Modell, das hochwertige Sprachsynthese in Echtzeit auf der CPU ermöglicht
- Es kombiniert eine Architektur auf Basis kontinuierlicher latenter Räume, effiziente Trainingsmethoden und Voice Cloning
- Als Open Source unter MIT-Lizenz veröffentlicht, bietet es Entwicklern und Forschern Reproduzierbarkeit und Erweiterbarkeit
Noch keine Kommentare.