Das Uncanny Valley konversationeller Sprache überwinden

(sesame.com)

5 Punkte von GN⁺ 2025-03-03 | Noch keine Kommentare. | Auf WhatsApp teilen

Für digitale Sprachassistenten, die langfristig genutzt werden, ist Stimmpräsenz (voice presence), die Emotion, Rhythmus und Kontext widerspiegelt, wichtiger als eine saubere synthetische Stimme; Sesame schlägt dafür das Conversational Speech Model vor
CSM ist ein End-to-End-multimodaler Transformer, der Text und Sprache gemeinsam verarbeitet und darauf ausgelegt ist, mithilfe der Gesprächshistorie natürlichere und konsistentere Äußerungen zu erzeugen
Das Modell verarbeitet RVQ-Token direkt, teilt sich aber in ein Backbone für das 0-te Codebook und einen kleinen Audio-Decoder zur Rekonstruktion der übrigen Codebooks auf, um Latenz und Ausdruckskraft auszubalancieren
Trainiert wurden drei Größen, Tiny, Small und Medium, auf rund 1 Million Stunden überwiegend englischer öffentlicher Audiodaten; zusätzlich zu WER und Sprecherähnlichkeit wurden Bewertungen für die Aussprache von Homographen und Aussprachekonsistenz eingeführt
Ohne Kontext gab es keinen klaren Präferenzunterschied zwischen CSM-Medium und echter Sprache; bei gegebenem Gesprächskontext wurden echte Aufnahmen jedoch als passendere Fortsetzung bevorzugt, sodass eine Lücke bei der Gesprächsprosodie bleibt

Stimmpräsenz und Zielsetzung

Sesames Ziel ist es, Stimmpräsenz umzusetzen, die gesprochene Sprache so wirken lässt, als werde sie tatsächlich verstanden und als wertvoll empfunden
Heutige digitale Sprachassistenten bleiben oft bei einem neutralen Sprechstil stehen, wodurch sie im Alltag schwer dauerhaft genutzt werden, sobald die anfängliche Neuheit verflogen ist
Die nötigen Bestandteile lassen sich in vier Punkte gliedern
- Emotionale Intelligenz: liest emotionalen Kontext und reagiert darauf
- Gesprächsdynamik: verarbeitet natürliches Timing, Pausen, Unterbrechungen und Betonungen
- Kontextbewusstsein: passt Ton und Stil an die Situation an
- Konsistente Persönlichkeit: bewahrt eine verlässliche und angemessene Präsenz
Der Begleiter in der aktuellen Demo ist darauf optimiert, Freundlichkeit und Ausdruckskraft zu betonen; Persönlichkeit, Gedächtnis, Ausdruckskraft und Angemessenheit werden noch verbessert

Problemstellung des Conversational Speech Model

Traditionelle TTS erzeugt Sprache direkt aus Text, ihr fehlt aber das für natürliche Gespräche nötige Kontextbewusstsein
Auch wenn neuere Modelle menschenähnliche Sprache erzeugen können, gibt es viele Arten, einen Satz zu sprechen, und nur ein Teil davon passt zu einer bestimmten Situation
Ohne zusätzlichen Kontext wie Ton, Rhythmus und Gesprächshistorie ist es für ein Modell schwierig, die passendste Art der Äußerung zu wählen
CSM behandelt dieses Problem durch End-to-End-multimodales Lernen und lässt einen Transformer die Gesprächshistorie nutzen, um natürlichere und konsistentere Sprache zu erzeugen
Die Kernmerkmale sind zwei Punkte
- Es arbeitet als einstufiges Modell und erhöht dadurch Effizienz und Ausdruckskraft
- Da allgemeine öffentliche Benchmarks gesättigt sind, nutzt es eine eigene Evaluierungssammlung, um Fortschritte bei Kontextfähigkeiten zu messen

Audio-Token und RVQ-Design

Um Audio mit einem Transformer zu modellieren, wird die kontinuierliche Wellenform in eine Sequenz diskreter Audio-Token umgewandelt
Moderne Ansätze verwenden meist zwei Arten von Token
- Semantische Token: komprimieren Bedeutung und phonemische Merkmale, opfern dabei aber High-Fidelity-Darstellung
- Akustische Token: enthalten feine akustische Informationen, ermöglichen High-Fidelity-Rekonstruktion und bewahren Eigenschaften wie Sprecheridentität und Klangfarbe
Üblicherweise werden zuerst semantische Token modelliert und anschließend Audio mit RVQ- oder diffusionsbasierten Methoden erzeugt
Dieser zweistufige Ansatz ermöglicht strukturierte Synthese, erzeugt aber einen Flaschenhals, weil semantische Token auch Prosodie ausreichend erfassen müssen
RVQ-basierte Ansätze müssen sequenzielle Abhängigkeiten zwischen Codebooks innerhalb eines Frames verarbeiten
- Ein delay pattern verschiebt höhere Codebooks schrittweise, sodass sie auf niedrigere Codebooks desselben Frames konditioniert werden
- Hat ein RVQ-Tokenizer N Codebooks, sind vor dem Decoding des ersten Audiostücks N Backbone-Schritte nötig, was die time-to-first-audio verschlechtert
- Für Offline-Anwendungen wie Hörbücher ist das geeignet, in Echtzeit-Szenarien wird die Latenz jedoch zum Problem

CSM-Architektur und Inferenzverfahren

CSM ist ein multimodales Text- und Sprachmodell, das RVQ-Token direkt verarbeitet
Die Architektur ist in zwei autoregressive Transformer aufgeteilt
- Das erste multimodale Backbone nimmt Text und Audio als verschränkte Eingaben entgegen und modelliert das 0-te Codebook
- Der zweite Audio-Decoder modelliert mit separaten linear heads für jedes Codebook die übrigen N−1 Codebooks und rekonstruiert die Sprache
Der Decoder ist deutlich kleiner als das Backbone, wodurch er Generierung mit niedriger Latenz ermöglicht und das Modell zugleich End-to-End hält
Die Inferenz folgt diesem Ablauf
- Text-Token und Audio-Token werden sequenziell in das Backbone eingegeben
- Das Backbone sagt die Ebene des 0-ten Codebooks voraus
- Der Decoder sampelt, konditioniert auf die 0-te Ebene, die Ebenen 1 bis N−1
- Die rekonstruierten Audio-Token werden autoregressiv wieder in das Backbone für den nächsten Schritt eingegeben
- Wenn ein audio EOT-Symbol erscheint, endet die Generierung; bei der nächsten Anfrage wird Zwischen-Audio wie eine Nutzeräußerung durch Audio- und Text-Transkriptions-Token dargestellt
Beide Transformer sind Varianten der Llama-Architektur, und Text-Token werden mit dem Llama tokenizer erzeugt
Audio wird mit Mimi, einem split-RVQ tokenizer, verarbeitet; bei 12,5 Hz erzeugt er pro Frame ein semantisches Codebook und N−1 akustische Codebooks
Trainingssamples folgen einem Muster, in dem Text und Audio abwechselnd verschränkt sind; die Sprecheridentität wird direkt in der Textrepräsentation kodiert

Trainingseffizienz und Daten

Während des Trainings verarbeitet der Audio-Decoder eine effektive Batchgröße von B×S und N Codebooks autoregressiv, was eine große Speicherbelastung erzeugt
Diese Belastung verlangsamt schon bei kleinen Modellen das Training und erschwert Modellerweiterung sowie schnelle Experimente
Sesame nutzt compute amortization, um den Flaschenhals zu verringern und gleichzeitig die Treue der gesamten RVQ-Codebooks zu erhalten
- Der Audio-Decoder wird nur auf einer zufälligen 1/16-Teilmenge der Audioframes trainiert
- Das 0-te Codebook wird auf allen Frames trainiert
- Bei diesem Ansatz wurde während des Trainings kein wahrnehmbarer Unterschied beim Verlust des Audio-Decoders beobachtet
Der Datensatz wurde erstellt, indem öffentliches Audio transkribiert, nach Sprechern getrennt, segmentiert und anschließend gefiltert wurde
Nach dem Filtern umfasst der Datensatz rund 1 Million Stunden und besteht größtenteils aus englischem Audio
Trainiert wurden drei Modellgrößen
- Tiny: 1B Backbone, 100M Decoder
- Small: 3B Backbone, 250M Decoder
- Medium: 8B Backbone, 300M Decoder
Jedes Modell wurde mit einer Sequenzlänge von 2048, entsprechend etwa 2 Minuten Audio, über 5 Epochen trainiert

Samples und Evaluierungssystem

Die Samples umfassen paralinguistische Elemente, fremdsprachige Wörter, kontextuelle Ausdruckskraft, Aussprachekorrektur und Dialoge mit mehreren Sprechern
Die Evaluierungssammlung misst vier Aspekte
- Texttreue
- Kontextnutzung
- Prosodie
- Latenz
Objektive Bewertungen umfassen WER, einen neuen Aussprachetest, Sprecherähnlichkeit und weitere Metriken
Subjektive Bewertungen bestehen aus einer menschlichen Comparative-Mean-Opinion-Score(CMOS)-Bewertung mit dem Expresso-Datensatz
Bei traditionellen Benchmarks wie WER und speaker similarity erreichen aktuelle Modelle einschließlich CSM nahezu menschliches Niveau und nähern sich einem Sättigungszustand

Bewertung von Aussprache und Kontextverständnis

Ein neuer Benchmark auf Basis von Sprachtranskriptionen wurde eingeführt, um Aussprache und Kontextverständnis besser zu bewerten
Unterscheidung von Homographen bewertet, ob Wörter mit gleicher Schreibweise, aber unterschiedlicher Aussprache korrekt ausgesprochen werden
- Ein Beispiel ist die Unterscheidung, ob „lead“ als Metall /lɛd/ oder als Verb „führen“ /liːd/ gemeint ist
Konsistenz bei fortgesetzter Aussprache bewertet, ob Wörter mit mehreren Aussprachevarianten in mehrturniger Sprache konsistent bleiben
- Ein Beispiel ist „route“, das als /raʊt/ oder /ruːt/ ausgesprochen werden kann
Die Bewertung der Homographen-Genauigkeit wurde mit 200 Sprachsamples durchgeführt, die für die fünf Wörter lead, bass, tear, wound und row jeweils zwei Varianten enthalten
Die Bewertung der Aussprachekonsistenz wurde mit 200 Sprachsamples durchgeführt, die zehn Wörter enthalten: aunt, data, envelope, mobile, route, vase, either, adult, often und caramel
Für die Bewertung wurde wav2vec2-lv-60-espeak-cv-ft verwendet
Die von Play.ht, Elevenlabs und OpenAI erzeugten Ergebnisse wurden mit den Standardeinstellungen und Standardstimmen der jeweiligen API-Dokumentation erstellt
Insgesamt verbessert sich die Leistung mit zunehmender Modellgröße, was die Hypothese stützt, dass Skalierung zu realistischeren Sprachsynthesen beiträgt

Ergebnisse der menschlichen Bewertung

Um Natürlichkeit und prosodische Angemessenheit von CSM-Medium zu bewerten, wurden zwei CMOS-Studien mit dem Expresso-Datensatz durchgeführt
Die Bewerter hörten ein Paar aus modellgenerierter Sprache und echter menschlicher Aufnahme und bewerteten das generierte Sample auf einer 7-Punkte-Präferenzskala relativ zur Referenz
In der ersten Studie wurden generierte Samples und menschliche Samples ohne Kontext präsentiert, mit der Frage, welche Seite eher wie menschliche Sprache wirkt
In der zweiten Studie wurden zusätzlich die vorherigen 90 Sekunden Audio- und Textkontext bereitgestellt, mit der Frage, welche Seite sich wie die passendere Fortsetzung des Gesprächs anfühlt
80 Personen nahmen bezahlt teil, und jede Person bewertete im Durchschnitt 15 Beispiele
Ohne Kontext zeigten die Bewerter keine klare Präferenz zwischen generierter und echter Sprache, was darauf hindeutet, dass die Bewertung von Natürlichkeit gesättigt ist
Mit Kontext bevorzugten die Bewerter durchgehend die Originalaufnahmen; bei der Erzeugung konversationeller Sprache bleibt also eine Lücke zur menschlichen Prosodie

Veröffentlichungspläne und Grenzen

Sesame plant, zentrale Komponenten der Forschung als Open Source zu veröffentlichen; das Modell soll unter der Apache 2.0-Lizenz bereitgestellt werden
Updates und Beiträge sind im GitHub-Repository SesameAILabs/csm zu finden
Das aktuelle CSM wurde hauptsächlich mit englischen Daten trainiert
- Aufgrund von Datenkontamination treten einige mehrsprachige Fähigkeiten auf, sie funktionieren aber noch nicht gut
- Es nutzt auch keine Informationen aus den Gewichten vortrainierter Sprachmodelle
In den nächsten Monaten sind eine Vergrößerung des Modells, eine Ausweitung des Datensatzumfangs und die Erweiterung auf mehr als 20 Sprachen geplant
Zudem wird untersucht, wie vortrainierte Sprachmodelle genutzt werden können, mit dem Ziel großer multimodaler Modelle mit tiefem Wissen über Sprache und Text
CSM erzeugt hochwertige Gesprächsprosodie, modelliert jedoch nur Text- und Sprachinhalte des Gesprächs, nicht die Gesprächsstruktur selbst
Menschliche Gespräche sind komplexe Prozesse mit Sprecherwechseln, Pausen und Anpassung der Geschwindigkeit; künftige KI-Gespräche ähneln daher eher voll-duplex (fully duplex) Modellen, die solche Dynamiken implizit aus Daten lernen
Voll-duplex-Modelle erfordern grundlegende Veränderungen über den gesamten Stack hinweg, von der Datenkuratierung bis zur Methodik des Post-Trainings

Das Uncanny Valley konversationeller Sprache überwinden

Stimmpräsenz und Zielsetzung

Problemstellung des Conversational Speech Model

Audio-Token und RVQ-Design

CSM-Architektur und Inferenzverfahren

Trainingseffizienz und Daten

Samples und Evaluierungssystem

Bewertung von Aussprache und Kontextverständnis

Ergebnisse der menschlichen Bewertung

Veröffentlichungspläne und Grenzen

Verwandte Beiträge

Noch keine Kommentare.