- Chatterbox ist das von Resemble AI veröffentlichte neueste Open-Source-TTS-(Sprachsynthese-)Modell
- In Vergleichstests mit dem Konkurrenten ElevenLabs zeigte es durchgehend bevorzugte Ergebnisse
- Mit eigenen Funktionen wie Steuerung emotionaler Überzeichnung sind vielfältige Sprachstile möglich
- Das Training erfolgte mit einem Llama-Backbone mit 500 Millionen Parametern und 500.000 Stunden aufbereiteter Daten
- Alle erzeugten Stimmen enthalten integriertes Perth-Watermarking zum Schutz vor unbefugter Nutzung und Manipulation
Einführung in Chatterbox TTS und seine Bedeutung
- Chatterbox ist ein von Resemble AI entwickeltes Open-Source-TTS-(Text-to-Speech-)Modell in Production-Qualität
- Es steht unter der MIT-Lizenz zur freien Nutzung; veröffentlichte Ergebnisse belegen zudem hohe Qualität auch im Vergleich zu Closed-Source-Kommerzmodellen (z. B. ElevenLabs)
- Es eignet sich für die gesamte Content-Erstellung, etwa für Videos, Memes, Spiele und AI-Agenten, und bietet als erstes Open-Source-TTS eine Steuerung emotionaler Überzeichnung
- Demos und produktiver Einsatz sind über eine Hugging Face Gradio-App oder die eigene API möglich; für große Volumen oder besonders hohe Genauigkeit gibt es eine kommerzielle API (Ultra-Low-Latency unter 200 ms)
Wichtige Merkmale
- Modernstes Zero-Shot-TTS: Kann ohne zusätzliche Daten verschiedene Sprecherstile erzeugen
- 0.5B-Llama-Backbone: Überträgt die Struktur großer Sprachmodelle auf die Sprachsynthese
- Anpassung von emotionaler Überzeichnung/Intensität: Ermöglicht eine fein abgestimmte Steuerung von Persönlichkeit und Emotion je Sprecher
- Alignment-informed inference: Nutzt Phonem- und Audio-Alignment-Informationen für äußerst stabile Generierungsqualität
- 0.5M Stunden aufbereitete Daten: Trainiert auf einem großen, hochwertigen Sprachdatensatz
- Integriertes Watermarking: Resemble AIs Perth-(Perceptual-Threshold-)Watermarking unterstützt Nachverfolgung und Schutz vor unbefugter Nutzung
- Skript zur Stimmumwandlung: Enthält eine leicht nutzbare voice conversion-Funktion
- Leistungsnachweis: Es liegen Ergebnisse mit besserer Bewertung als ElevenLabs vor
Nutzungstipps
- Allgemeines TTS/Sprachagenten: Mit den Standardwerten (Exaggeration=0.5, cfg_weight=0.5) wird in den meisten Fällen eine ausgewogene Qualität erreicht
- Bei schnellen Sprecherstilen sorgt eine Anpassung von
cfg_weight auf etwa 0.3 für natürlicheres Sprechtempo
- Emotionale/dramatische Sprachsynthese: Wenn Exaggeration auf 0.7 oder höher gesetzt und cfg_weight verringert wird, verstärkt sich der dramatische Spracheffekt
- Je höher die emotionale Intensität (exaggeration), desto schneller die Sprechgeschwindigkeit; mit niedrigerem
cfg_weight lässt sich langsameres und klareres Sprechen einstellen
Unterstützte Sprachen
- Derzeit wird nur Englisch unterstützt
Referenzen/abhängige Open-Source-Projekte
- Es integriert verschiedene aktuelle Sprach- und Sprachmodelltechnologien wie Cosyvoice, Real-Time-Voice-Cloning, HiFT-GAN, Llama 3 und S3Tokenizer
Integriertes Perth-Watermarking
- Perth-(Perceptual-Threshold-)Watermarking: Fügt allen erzeugten Stimmen ein neuronales Wasserzeichen ohne Qualitätsverlust im Audio hinzu
- Das Wasserzeichen bleibt auch nach MP3-Komprimierung, Audiobearbeitung und weiterer Verarbeitung erhalten
- Eine automatische Erkennung mit nahezu 100 % Genauigkeit ist möglich und unterstützt Originalnachverfolgung, Manipulationsschutz und einen verantwortungsvollen Einsatz von AI
Beispiel für das Extrahieren des Wasserzeichens
- Mit einem separaten Skript lässt sich prüfen, ob das Wasserzeichen enthalten ist
- Mit den Python-Paketen perth und librosa kann aus Audio der Watermark-Wert (0 oder 1) extrahiert werden
Community
- Es gibt eine offizielle Discord-Community, der jeder beitreten und in der jeder mitarbeiten kann
Haftungsausschluss
- Die Nutzung des Modells für böswillige Zwecke ist untersagt; für die Prompts wurden ausschließlich öffentlich im Internet verfügbare Daten verwendet
1 Kommentare
Hacker-News-Kommentare
Beworben wird es als imperceptible neural watermark, das MP3-Komprimierung, Audiobearbeitung und verschiedenste Manipulationen überstehen soll und dabei eine Erkennungsgenauigkeit nahe 100 % habe.
Allerdings stellt sich die Frage, ob man das Einfügen des Wasserzeichens nicht einfach deaktivieren kann, indem man in
tts.pynur den Aufruf der Funktionapply_watermarkauskommentiert.Bei so einem Wasserzeichen würde man eigentlich erwarten, dass es direkt im Modell selbst verborgen ist, damit es sich nicht so leicht entfernen lässt.
Wenn man bei einem Open-Source-Modell das Wasserzeichen nur als separaten Post-Processing-Schritt hinzufügt, fragt man sich schon, warum man überhaupt eines einbaut.
So wie das ursprüngliche Stable Diffusion ebenfalls einen Content-Filter hatte.
Möglicherweise soll es auch verhindern, dass Trainingsdaten verunreinigt werden.
--no-watermark.Am Ende wirkt es so, als wäre das als eine Art „Feature“ für Leute eingebaut worden, die es in ein größeres Produkt integrieren wollen.
Die Marktführer im TTS-Bereich sind bereits klar, und Resemble, PlayHT und andere können nur dann wenigstens etwas Marktanteil gewinnen, wenn sie Entwicklern Gewichte und Source Code offenlegen.
Das Watermarking hat den Charakter einer CYA-Maßnahme als Reaktion auf Kritik an Medienmissbrauch.
Ohne so etwas würden Medien und das Anti-AI-Lager (404Media usw.) sofort Missbrauchsthemen aufgreifen.
Der richtige Weg wäre: Source Code, Gewichte offenlegen und zusätzlich separate API-/Fine-Tuning-Optionen anbieten.
Zur Referenz ein 404Media-Artikel.
Falls die Demo-Audios nicht allzu stark kuratierte Beispiele sind, dann ist das meiner Meinung nach wirklich ein sehr gutes Release.
Ich sage es immer wieder, aber in der Praxis spüre ich in meinen Experimenten ständig, dass bei Sprach-KI eher die Spracherkennung bzw. Transkription der Flaschenhals ist als die TTS-Qualität.
Falls sich daran in letzter Zeit nichts geändert hat, bleibt das weiterhin die Grenze.
Ich habe dem LLM bisher noch keine mehreren Versionen einer Transkription oder Confidence Levels gegeben, aber ich vermute, dass es das gut verwerten könnte.
Dass die Sätze aus Pulp Fiction stammen, ist zusätzlich amüsant.
Die bisherigen Demos waren immer langweilig und harmlos, das wurde langsam öde.
In der Indie-TTS-Community wird oft die Navy-Seals-Copypasta verwendet, aber dass ein Service-Unternehmen wie Resemble solche Sätze einbaut, ist erfrischend.
Copypasta-Wiki, Beispiel zur Navy-Seal-Copypasta
Wenn ich meinen australischen Akzent hineingebe, kommt eine sehr britische Stimme heraus, und zwar mit ausgesprochen weicher RP-Aussprache.
Es klingt sehr natürlich, aber es fühlt sich definitiv nicht so an, als würde mein eigener Akzent reproduziert.
Für viele reale Anwendungen ist eine klare und natürliche Stimme wichtiger, und dafür passt es perfekt.
Unter den „offenen“ Modellen gibt es bessere Optionen wie
Tatsächlich hat nur Seed-VC Trainings-/Fine-Tuning-Code, aber alle liefern bessere Zero-Shot-Leistung als Chatterbox.
Gerade ByteDance mit MegaTTS3 ist auf einem Niveau, bei dem außer ElevenLabs kaum jemand mithalten kann.
ByteDance ist bei Geld, Personal und Daten klar überlegen.
Wenn das Ziel Zero-Shot-Stimmreproduktion ohne Fine-Tuning ist, dann sind solche Modelle die bessere Wahl.
Ein Link zu einem deploybaren Modell ist ebenfalls beigefügt.
Streaming-Support ist laut Hinweis noch in Arbeit.
Aber selbst bei überraschend häufigen Akzenten schimmert ein anderer Akzent durch, etwa ein australischer Unterton in einer schottischen Aufnahme.
Auch einen Yorkshire-Akzent erkennt es falsch.
Deshalb braucht man im Standardzustand ziemlich leistungsfähige Consumer-Hardware.
Es gibt aber wahrscheinlich noch viel Potenzial für künftige Optimierungen.
Issue-Link
Wenn das Modell wertvoll genug ist, wird wahrscheinlich jemand einen Weg finden, es mit weniger VRAM zu betreiben.
Tatsächlich wurde es auf einer alten Nvidia 2060 getestet, mit einem VRAM-Peak von etwa 5 GB.
Man kann es zwar kostenlos betreiben, aber die tatsächlichen Kosten könnten Self-Hosting am Ende sinnlos machen.
Ich wollte wissen, ob man eine teure GPU braucht oder ob es auch auf einem 12 Jahre alten Laptop läuft.
Aufgetretene Probleme:
uv pipsuchte nur im PyTorch-Repository.pip install chatterbox-ttshat im CPU-only-Modus einen Bug.mainbenötigt unter Debianprotobuf-compiler.Dieses ständige Herumprobieren, das sich bei den Python-Projekten anderer Leute immer wiederholt, ist einfach ermüdend.
SparkTTS bietet etwas mehr Parameter, und im GitHub-Code sieht es so aus, als gäbe es dort auch Möglichkeiten für feinere Emotionssteuerung.
In meinem Fall konnte ich mich dem gewünschten Konzept bei manchen Modellen annähern, indem ich Prosodie und Tonalität im Text überzeichnet habe.
Trotzdem ist das viel umständlicher als das intuitive Emotionsdesign bei ElevenLabs.
Trotzdem ist es ziemlich beeindruckend, wie weit es mit so einer kurzen Probe kommt.
Wenn außerdem die One-Shot-Sample-Waveform Rauschen enthält, produziert Chatterbox gelegentlich als Bonus am Ende noch undefinierbare Geräusche.
Besonders beim Vorlesen von Dantes Göttlicher Komödie fühlt sich das dann wie „Klänge aus der Hölle“ an.
(Fraglich ist nur, ob Amazon das dann auch entsprechend kennzeichnet.)
Audiobook-Konvertierungstool audiblez
Ein Jahr später ist sie inzwischen sicher noch besser.