3 Punkte von GN⁺ 2025-06-12 | 1 Kommentare | Auf WhatsApp teilen
  • Chatterbox ist das von Resemble AI veröffentlichte neueste Open-Source-TTS-(Sprachsynthese-)Modell
  • In Vergleichstests mit dem Konkurrenten ElevenLabs zeigte es durchgehend bevorzugte Ergebnisse
  • Mit eigenen Funktionen wie Steuerung emotionaler Überzeichnung sind vielfältige Sprachstile möglich
  • Das Training erfolgte mit einem Llama-Backbone mit 500 Millionen Parametern und 500.000 Stunden aufbereiteter Daten
  • Alle erzeugten Stimmen enthalten integriertes Perth-Watermarking zum Schutz vor unbefugter Nutzung und Manipulation

Einführung in Chatterbox TTS und seine Bedeutung

  • Chatterbox ist ein von Resemble AI entwickeltes Open-Source-TTS-(Text-to-Speech-)Modell in Production-Qualität
  • Es steht unter der MIT-Lizenz zur freien Nutzung; veröffentlichte Ergebnisse belegen zudem hohe Qualität auch im Vergleich zu Closed-Source-Kommerzmodellen (z. B. ElevenLabs)
  • Es eignet sich für die gesamte Content-Erstellung, etwa für Videos, Memes, Spiele und AI-Agenten, und bietet als erstes Open-Source-TTS eine Steuerung emotionaler Überzeichnung
  • Demos und produktiver Einsatz sind über eine Hugging Face Gradio-App oder die eigene API möglich; für große Volumen oder besonders hohe Genauigkeit gibt es eine kommerzielle API (Ultra-Low-Latency unter 200 ms)

Wichtige Merkmale

  • Modernstes Zero-Shot-TTS: Kann ohne zusätzliche Daten verschiedene Sprecherstile erzeugen
  • 0.5B-Llama-Backbone: Überträgt die Struktur großer Sprachmodelle auf die Sprachsynthese
  • Anpassung von emotionaler Überzeichnung/Intensität: Ermöglicht eine fein abgestimmte Steuerung von Persönlichkeit und Emotion je Sprecher
  • Alignment-informed inference: Nutzt Phonem- und Audio-Alignment-Informationen für äußerst stabile Generierungsqualität
  • 0.5M Stunden aufbereitete Daten: Trainiert auf einem großen, hochwertigen Sprachdatensatz
  • Integriertes Watermarking: Resemble AIs Perth-(Perceptual-Threshold-)Watermarking unterstützt Nachverfolgung und Schutz vor unbefugter Nutzung
  • Skript zur Stimmumwandlung: Enthält eine leicht nutzbare voice conversion-Funktion
  • Leistungsnachweis: Es liegen Ergebnisse mit besserer Bewertung als ElevenLabs vor

Nutzungstipps

  • Allgemeines TTS/Sprachagenten: Mit den Standardwerten (Exaggeration=0.5, cfg_weight=0.5) wird in den meisten Fällen eine ausgewogene Qualität erreicht
    • Bei schnellen Sprecherstilen sorgt eine Anpassung von cfg_weight auf etwa 0.3 für natürlicheres Sprechtempo
  • Emotionale/dramatische Sprachsynthese: Wenn Exaggeration auf 0.7 oder höher gesetzt und cfg_weight verringert wird, verstärkt sich der dramatische Spracheffekt
    • Je höher die emotionale Intensität (exaggeration), desto schneller die Sprechgeschwindigkeit; mit niedrigerem cfg_weight lässt sich langsameres und klareres Sprechen einstellen

Unterstützte Sprachen

  • Derzeit wird nur Englisch unterstützt

Referenzen/abhängige Open-Source-Projekte

  • Es integriert verschiedene aktuelle Sprach- und Sprachmodelltechnologien wie Cosyvoice, Real-Time-Voice-Cloning, HiFT-GAN, Llama 3 und S3Tokenizer

Integriertes Perth-Watermarking

  • Perth-(Perceptual-Threshold-)Watermarking: Fügt allen erzeugten Stimmen ein neuronales Wasserzeichen ohne Qualitätsverlust im Audio hinzu
  • Das Wasserzeichen bleibt auch nach MP3-Komprimierung, Audiobearbeitung und weiterer Verarbeitung erhalten
  • Eine automatische Erkennung mit nahezu 100 % Genauigkeit ist möglich und unterstützt Originalnachverfolgung, Manipulationsschutz und einen verantwortungsvollen Einsatz von AI

Beispiel für das Extrahieren des Wasserzeichens

  • Mit einem separaten Skript lässt sich prüfen, ob das Wasserzeichen enthalten ist
  • Mit den Python-Paketen perth und librosa kann aus Audio der Watermark-Wert (0 oder 1) extrahiert werden

Community

  • Es gibt eine offizielle Discord-Community, der jeder beitreten und in der jeder mitarbeiten kann

Haftungsausschluss

  • Die Nutzung des Modells für böswillige Zwecke ist untersagt; für die Prompts wurden ausschließlich öffentlich im Internet verfügbare Daten verwendet

1 Kommentare

 
GN⁺ 2025-06-12
Hacker-News-Kommentare
  • Es fällt auf, dass alle mit Chatterbox erzeugten Audiodateien mit dem Perth-(Perceptual Threshold)-Wasserzeichen von Resemble AI versehen sind.
    Beworben wird es als imperceptible neural watermark, das MP3-Komprimierung, Audiobearbeitung und verschiedenste Manipulationen überstehen soll und dabei eine Erkennungsgenauigkeit nahe 100 % habe.
    Allerdings stellt sich die Frage, ob man das Einfügen des Wasserzeichens nicht einfach deaktivieren kann, indem man in tts.py nur den Aufruf der Funktion apply_watermark auskommentiert.
    Bei so einem Wasserzeichen würde man eigentlich erwarten, dass es direkt im Modell selbst verborgen ist, damit es sich nicht so leicht entfernen lässt.
    Wenn man bei einem Open-Source-Modell das Wasserzeichen nur als separaten Post-Processing-Schritt hinzufügt, fragt man sich schon, warum man überhaupt eines einbaut.
  • Vermutung: Das ist eine Art CYA-Geste (Cover Your Ass, also Selbstabsicherung).
    So wie das ursprüngliche Stable Diffusion ebenfalls einen Content-Filter hatte.
    Möglicherweise soll es auch verhindern, dass Trainingsdaten verunreinigt werden.
  • Es gibt sogar ein Parser-Flag --no-watermark.
    Am Ende wirkt es so, als wäre das als eine Art „Feature“ für Leute eingebaut worden, die es in ein größeres Produkt integrieren wollen.
  • Anbieter, die nicht OpenAI, Google oder ElevenLabs heißen, werden ohne eine entschlossene Open-Source-Strategie völlig an Relevanz verlieren.
    Die Marktführer im TTS-Bereich sind bereits klar, und Resemble, PlayHT und andere können nur dann wenigstens etwas Marktanteil gewinnen, wenn sie Entwicklern Gewichte und Source Code offenlegen.
    Das Watermarking hat den Charakter einer CYA-Maßnahme als Reaktion auf Kritik an Medienmissbrauch.
    Ohne so etwas würden Medien und das Anti-AI-Lager (404Media usw.) sofort Missbrauchsthemen aufgreifen.
    Der richtige Weg wäre: Source Code, Gewichte offenlegen und zusätzlich separate API-/Fine-Tuning-Optionen anbieten.
    Zur Referenz ein 404Media-Artikel.
  • Die Demo-Seite ist hier zu finden.
    Falls die Demo-Audios nicht allzu stark kuratierte Beispiele sind, dann ist das meiner Meinung nach wirklich ein sehr gutes Release.
    Ich sage es immer wieder, aber in der Praxis spüre ich in meinen Experimenten ständig, dass bei Sprach-KI eher die Spracherkennung bzw. Transkription der Flaschenhals ist als die TTS-Qualität.
    Falls sich daran in letzter Zeit nichts geändert hat, bleibt das weiterhin die Grenze.
  • Nach meinen jüngsten Erfahrungen können LLMs sogar mit Transkriptionsfehlern ziemlich gut umgehen und sie sinnvoll nutzen.
    Ich habe dem LLM bisher noch keine mehreren Versionen einer Transkription oder Confidence Levels gegeben, aber ich vermute, dass es das gut verwerten könnte.
  • Ich habe Speechmatics tatsächlich benutzt, und die Qualität der Transkription war ziemlich brauchbar.
  • Wenn man es selbst in der Huggingface-Demo ausprobiert, wirken die emotionalen Ausdrücke nicht ganz so natürlich wie in der Seiten-Demo; es fühlt sich schon nach kuratierten Beispielen an.
  • Es stellt sich die Frage, ob man Transkriptionsprobleme nicht mit synthetischen Daten überwinden könnte.
  • Ich fand es wirklich gut, dass in der Demo direkt Schimpfwörter vorkommen.
    Dass die Sätze aus Pulp Fiction stammen, ist zusätzlich amüsant.
    Die bisherigen Demos waren immer langweilig und harmlos, das wurde langsam öde.
    In der Indie-TTS-Community wird oft die Navy-Seals-Copypasta verwendet, aber dass ein Service-Unternehmen wie Resemble solche Sätze einbaut, ist erfrischend.
    Copypasta-Wiki, Beispiel zur Navy-Seal-Copypasta
  • Man kann es hier kostenlos ausprobieren.
  • Hat Spaß gemacht, es zu benutzen.
    Wenn ich meinen australischen Akzent hineingebe, kommt eine sehr britische Stimme heraus, und zwar mit ausgesprochen weicher RP-Aussprache.
    Es klingt sehr natürlich, aber es fühlt sich definitiv nicht so an, als würde mein eigener Akzent reproduziert.
    Für viele reale Anwendungen ist eine klare und natürliche Stimme wichtiger, und dafür passt es perfekt.
  • Leider wurden weder Trainings- noch Fine-Tuning-Code veröffentlicht, daher ist es nicht in dem Sinn „vollständig offen“ wie Flux oder Stable Diffusion.
    Unter den „offenen“ Modellen gibt es bessere Optionen wie
    • Zeroshot TTS: MaskGCT, MegaTTS3
    • Zeroshot VC: Seed-VC, MegaTTS3
      Tatsächlich hat nur Seed-VC Trainings-/Fine-Tuning-Code, aber alle liefern bessere Zero-Shot-Leistung als Chatterbox.
      Gerade ByteDance mit MegaTTS3 ist auf einem Niveau, bei dem außer ElevenLabs kaum jemand mithalten kann.
      ByteDance ist bei Geld, Personal und Daten klar überlegen.
      Wenn das Ziel Zero-Shot-Stimmreproduktion ohne Fine-Tuning ist, dann sind solche Modelle die bessere Wahl.
  • Auch ein Beispiel für die Bereitstellung einer produktionsreifen TTS-API wurde als Open Source veröffentlicht.
    Ein Link zu einem deploybaren Modell ist ebenfalls beigefügt.
  • Hier gibt es Hinweise auf Beispiel-Code für Inferenz und Voice-Cloning.
    Streaming-Support ist laut Hinweis noch in Arbeit.
  • Bei wirklich verbreiteten Akzenten funktioniert es meiner Meinung nach hervorragend.
    Aber selbst bei überraschend häufigen Akzenten schimmert ein anderer Akzent durch, etwa ein australischer Unterton in einer schottischen Aufnahme.
    Auch einen Yorkshire-Akzent erkennt es falsch.
  • Als ich einen schottischen Akzent eingegeben habe, wurde sogar mein australischer Akzent zu britischem RP umgewandelt.
  • Die Meinung dazu: Das Problem liegt eher an den Eigenschaften schottischer Akzente als am Modell.
  • Es klingt glaubwürdig wie ein Schauspieler mit britischem Akzent.
  • Frage zur Hardware: Läuft es auch auf Minimal-Spezifikationen?
  • Laut der GitHub-Issue-Seite ist die Optimierung noch nicht besonders weit.
    Deshalb braucht man im Standardzustand ziemlich leistungsfähige Consumer-Hardware.
    Es gibt aber wahrscheinlich noch viel Potenzial für künftige Optimierungen.
    Issue-Link
  • Laut diesem Issue werden 6–7 GB VRAM benötigt.
    Wenn das Modell wertvoll genug ist, wird wahrscheinlich jemand einen Weg finden, es mit weniger VRAM zu betreiben.
    Tatsächlich wurde es auf einer alten Nvidia 2060 getestet, mit einem VRAM-Peak von etwa 5 GB.
  • Diese Frage ist überhaupt nicht belanglos, im Gegenteil: Es ist eine der besten Fragen.
    Man kann es zwar kostenlos betreiben, aber die tatsächlichen Kosten könnten Self-Hosting am Ende sinnlos machen.
  • Ich hatte dieselbe Frage und habe deshalb ebenfalls nachgesehen.
    Ich wollte wissen, ob man eine teure GPU braucht oder ob es auch auf einem 12 Jahre alten Laptop läuft.
  • Ich wollte eigentlich meine Erfahrungen auf einer älteren CPU teilen, habe aber über 30 Minuten lang nur Installation und Fehler wiederholt.
    Aufgetretene Probleme:
    • Python 3.13 wird nicht unterstützt, daher musste ich mit uv eine 3.12-Virtual-Environment neu aufsetzen.
    • numpy 1.26.4 wurde nicht erkannt, und uv pip suchte nur im PyTorch-Repository.
    • Die Version von pip install chatterbox-tts hat im CPU-only-Modus einen Bug.
    • Die Standardversion aus main benötigt unter Debian protobuf-compiler.
    • Ein unbekannter CMake-Fehler beschwerte sich darüber, dass Python-Dev-Header fehlen.
      Dieses ständige Herumprobieren, das sich bei den Python-Projekten anderer Leute immer wiederholt, ist einfach ermüdend.
  • Die übertriebene Emotionalität fand ich interessant, aber ich habe noch keinen Dienst gefunden, mit dem man wie bei ElevenLabs allein über Textbeschreibung die gewünschte Stimmfarbe regelrecht „modellieren“ kann.
    SparkTTS bietet etwas mehr Parameter, und im GitHub-Code sieht es so aus, als gäbe es dort auch Möglichkeiten für feinere Emotionssteuerung.
    In meinem Fall konnte ich mich dem gewünschten Konzept bei manchen Modellen annähern, indem ich Prosodie und Tonalität im Text überzeichnet habe.
    Trotzdem ist das viel umständlicher als das intuitive Emotionsdesign bei ElevenLabs.
  • Eindruck nach einem direkten Test mit einem Ausschnitt meiner eigenen Stimme:
    • Die Ausgabe übernahm den Charakter meiner Stimme bis zu einem gewissen Grad, war aber nicht extrem ähnlich.
      Trotzdem ist es ziemlich beeindruckend, wie weit es mit so einer kurzen Probe kommt.
    • Wenn man CFG-/Pace-Werte auch nur leicht erhöht, kippt das Audio sofort in einen kaum noch verständlichen Zustand.
    • Mein Akzent ist australisch, aber die Ausgabe schwankte zwischen britisch und amerikanisch.
    • Die überzeichneten Emotionen waren unterhaltsam, aber welche Emotion tatsächlich herauskam, war jedes Mal anders.
  • Es stellt sich die Frage, ob ein solches TTS-Modell sogar beim Vorlesen von Büchern überzeugend genug wäre oder ob nach ein paar Absätzen die stimmliche Konsistenz zusammenbricht.
  • Die meisten TTS-Systeme brechen bei langen Texten qualitativ ein, daher ist es in der Praxis besser, absatzweise vorzulesen und das Ergebnis danach wieder zusammenzusetzen.
    Wenn außerdem die One-Shot-Sample-Waveform Rauschen enthält, produziert Chatterbox gelegentlich als Bonus am Ende noch undefinierbare Geräusche.
    Besonders beim Vorlesen von Dantes Göttlicher Komödie fühlt sich das dann wie „Klänge aus der Hölle“ an.
  • Wenn die Qualität irgendwann hoch genug wird, dürfte Audible mit KI-narratierten Hörbüchern überschwemmt werden.
    (Fraglich ist nur, ob Amazon das dann auch entsprechend kennzeichnet.)
  • Ich habe tatsächlich einmal ein ganzes EPUB-Buch in ein Hörbuch umgewandelt und mit diesem Tool ein gar nicht so schlechtes Ergebnis erzielt.
    Audiobook-Konvertierungstool audiblez
  • Ich berate Unternehmen in diesem Bereich, und ich würde definitiv sagen, dass die heutige Technik für das Vorlesen von Büchern bereits ausreicht.
  • Vor einem Jahr habe ich einem Freund zum Spaß ein Carl-Rogers-Therapie-Hörbuch im Attenbrough-Stil synthetisiert vorgespielt, und schon damals war die Qualität ziemlich hervorragend.
    Ein Jahr später ist sie inzwischen sicher noch besser.