- Kitten TTS ist ein Open-Source-TTS-Modell (Text-to-Speech), das gleichzeitig auf Leichtgewichtigkeit und hohe Audioqualität abzielt
- Es verwendet nur 15 Millionen Parameter und bleibt damit unter 25 MB Modellgröße
- Im Gegensatz zu anderen großen TTS-Modellen ist dies ein wesentliches Merkmal, da es in jeder Umgebung ausgeführt werden kann, etwa auf Mobilgeräten oder eingebetteten Systemen
- Auch ohne GPU ist hochwertige Sprachsynthese auf allen Geräten möglich
- Es bietet verschiedene Premium-Stimmen und unterstützt eine hochwertige Sprachsynthese, die echter Sprache sehr nahekommt
- Dank schneller Inferenz ist es für Echtzeit-Synthese optimiert
- Ein Developer-Preview-Modell ist bereits veröffentlicht; die vollständigen trainierten Modellgewichte, ein mobiles SDK, eine Web-Version und weitere Komponenten sollen künftig schrittweise veröffentlicht werden
Noch keine Kommentare.