18 Punkte von GN⁺ 2026-01-16 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Pocket TTS mit 100 Millionen Parametern ist ein leichtgewichtiges Text-to-Speech-Modell mit Voice-Cloning-Funktion, das selbst auf gewöhnlichen Laptop-CPUs in Echtzeit laufen kann
  • Es verringert die Leistungslücke zwischen bestehenden großen LLM-basierten TTS-Systemen (mehr als 1 Milliarde Parameter) und kleinem Kokoro TTS (82 Millionen Parameter) und erreicht gleichzeitig hohe Qualität und Effizienz
  • Mit nur einem Sprachsample von etwa 5 Sekunden lassen sich Stimmfarbe, Emotion, Intonation und akustische Bedingungen eines Sprechers präzise nachbilden
  • Durch eine Architektur auf Basis eines Continuous Audio Language Model werden kontinuierliche latente Vektoren statt diskreter Tokens direkt vorhergesagt, wodurch die Modellgröße ohne Qualitätsverlust reduziert wird
  • Als Open Source unter MIT-Lizenz veröffentlicht, setzt es einen neuen Maßstab für leichtgewichtige TTS-Technologie, die hochwertige Sprachsynthese auch in CPU-Umgebungen ermöglicht

Überblick über Pocket TTS

  • Pocket TTS ist ein Text-to-Speech-Modell mit 100 Millionen Parametern, das Voice Cloning unterstützt
    • Kann selbst auf Laptop-CPUs in Echtzeit ausgeführt werden
    • Lokale Ausführung per Befehl uvx pocket-tts serve oder uvx pocket-tts generate
  • Entwickelt von Kyutai und als Open Source unter der MIT-Lizenz veröffentlicht
    • Für das Training wurden ausschließlich öffentliche englische Sprachdatensätze verwendet
    • Eine mögliche Erweiterung mit zusätzlichen nicht öffentlichen Daten wird erwähnt

Vergleich mit bestehenden TTS-Modellen

  • Die aktuelle TTS-Technologie lässt sich in zwei Kategorien einteilen
    • Große LLM-basierte Modelle: z. B. Kyutai TTS 1.6B (ca. 1,6 Milliarden Parameter)
      • Können vielfältige Stimmen, Emotionen und akustische Bedingungen modellieren, benötigen jedoch eine GPU
    • Kleine spezialisierte Modelle: z. B. Kokoro TTS (82 Millionen Parameter)
      • Arbeiten effizient mit einem festen Stimmenset und einer manuell aufgebauten Pipeline, sind aber in ihrer Flexibilität eingeschränkt
  • Pocket TTS besetzt die Mittelposition zwischen diesen beiden Ansätzen und ermöglicht hochwertige Sprachsynthese auf der CPU

Leistungsbewertung

  • Die Evaluierung wurde mit dem Librispeech test-clean set durchgeführt
    • Die Audioeingaben wurden mit Adobe Enhance Speech aufbereitet, um 24-kHz-Qualität sicherzustellen
  • Vergleichsmodelle: F5-TTS, DSM, Chatterbox Turbo, Kokoro TTS
  • Bewertungsmetriken:
    • Word Error Rate (WER)
    • Audioqualität (ELO)
    • Sprecherähnlichkeit (ELO)
  • Zusammenfassung der Ergebnisse:
    • Pocket TTS erreicht mit WER 1,84 die niedrigste Fehlerrate
    • Die Audioqualität ist besser als bei F5-TTS und DSM
    • Die Sprecherähnlichkeit liegt auf dem Niveau der Referenzstimme
    • Es ist das einzige Modell, das auf der CPU schneller als in Echtzeit läuft
Modell Parameterzahl WER ↓ Audioqualität (ELO) ↑ Sprecherähnlichkeit (ELO) ↑ CPU-Echtzeitbetrieb
F5-TTS 336M 2.21 1949 ± 27 1946 ± 26
Kyutai TTS 1.6B 750M 1.84 1959 ± 25 2037 ± 21
Chatterbox Turbo 350M 3.24 2055 ± 23 2012 ± 22
Kokoro 82M kein Voice Cloning kein Voice Cloning
Pocket TTS 100M 1.84 2016 ± 25 1898 ± 26
  • Bei Tests auf Intel Core Ultra 7 165H und Apple M3 konnten nur Pocket TTS und Kokoro in Echtzeit synthetisieren

Architektur

  • Pocket TTS wurde auf Grundlage der Forschung zu Continuous Audio Language Models entworfen
    • Während bisherige Ansätze diskrete Audio-Tokens vorhersagen, prognostiziert Pocket TTS direkt kontinuierliche latente Vektoren (latents)
    • Dadurch werden RQ-Transformer-Engpässe beseitigt und ein leichtgewichtiges Modell ermöglicht

Neural Audio Codec

  • Entworfen auf Basis des Mimi-Codecs
    • Mimi komprimiert in diskrete Tokens, Pocket TTS verwendet jedoch kontinuierliche latente Repräsentationen
    • Eingesetzt wird ein VAE-Training mit Normalisierung auf eine Gauß-Verteilung
    • WavLM wird per Kosinus-Ähnlichkeitsverlust in die interne Repräsentation destilliert
    • Die RVQ-Stufe wird entfernt und der Destillationsverlust auf die gesamte latente Repräsentation angewendet

Generatives Modell

  • Basiert auf dem Masked Autoregressive (MAR)-Framework
    • Besteht aus einem Causal-Transformer-Backbone und einem MLP-Sampler
    • Verwendet Lagrangian Self-Distillation (LSD)-Loss für 1-Step-Sampling
    • Während der Inferenz werden die vorhergesagten latenten Vektoren autoregressiv zurückgeführt

Konditionierung durch Sprache und Text

  • Die Modelleingabe kombiniert einen Sprachprompt (einige Sekunden) mit Text
    • Sprache wird über den Codec-Encoder eingebettet, Text über einen SentencePiece-Tokenizer

Zusammensetzung der Modellgröße

  • Generatives Modell (Transformer + MLP): 90 Millionen Parameter
  • Codec-Decoder: 10 Millionen Parameter
  • Codec-Encoder: 18 Millionen Parameter (wird beim Kodieren des Sprachsamples nur einmal verwendet)

Trainingsdaten

  • Ausschließlich öffentliche englische Sprachdatensätze, insgesamt 88.000 Stunden
    • AMI, EARNINGS22, GIGASpeech, SPGISpeech, TED-LIUM, VoxPopuli, LibriHeavy, Emilia

Wichtige technische Beiträge

Head Batch Multiplier

  • Zur Entschärfung des Rechenengpasses im Transformer wird der z-Vektor mehrfach wiederverwendet
    • Für jede Eingabesequenz wird z einmal berechnet und für 8 Loss-Berechnungen wiederverwendet
    • Dies verbessert Effizienz und Trainingsstabilität

Gaussian Temperature Sampling

  • Auch im kontinuierlichen Raum wird eine Sampling-Temperatursteuerung angewendet
    • Durch die Reduzierung der Gaußschen Rauschvarianz wird die Qualität verbessert
    • Gute Ergebnisse wurden bei Temperatur 0.7 bestätigt

Latent Classifier-Free Guidance (Latent CFG)

  • Das bestehende CFG wird auf der Ebene der latenten Variablen (z) angewendet
    • Konditionierte und unkonditionierte Ausgaben werden linear kombiniert, um die Qualität zu verbessern
    • Verwendet wird α=1.5
    • Ein ähnliches Konzept taucht auch in der Forschung zu SoundReactor auf

Distillation

  • Ein CFG-Modell als Lehrermodell wird verwendet, um in ein leichtgewichtiges Schülermodell zu destillieren
    • Der MLP-Head des Lehrermodells wird fixiert, und das Schülermodell lernt z mit L2-Loss
    • Eine Verkleinerung von einem 24-Layer-Lehrermodell auf ein 6-Layer-Schülermodell ist möglich

Fazit

  • Pocket TTS ist ein leichtgewichtiges TTS-Modell, das hochwertige Sprachsynthese in Echtzeit auf der CPU ermöglicht
  • Es kombiniert eine Architektur auf Basis kontinuierlicher latenter Räume, effiziente Trainingsmethoden und Voice Cloning
  • Als Open Source unter MIT-Lizenz veröffentlicht, bietet es Entwicklern und Forschern Reproduzierbarkeit und Erweiterbarkeit

Noch keine Kommentare.

Noch keine Kommentare.