- Für digitale Sprachassistenten, die langfristig genutzt werden, ist Stimmpräsenz (voice presence), die Emotion, Rhythmus und Kontext widerspiegelt, wichtiger als eine saubere synthetische Stimme; Sesame schlägt dafür das Conversational Speech Model vor
- CSM ist ein End-to-End-multimodaler Transformer, der Text und Sprache gemeinsam verarbeitet und darauf ausgelegt ist, mithilfe der Gesprächshistorie natürlichere und konsistentere Äußerungen zu erzeugen
- Das Modell verarbeitet RVQ-Token direkt, teilt sich aber in ein Backbone für das 0-te Codebook und einen kleinen Audio-Decoder zur Rekonstruktion der übrigen Codebooks auf, um Latenz und Ausdruckskraft auszubalancieren
- Trainiert wurden drei Größen, Tiny, Small und Medium, auf rund 1 Million Stunden überwiegend englischer öffentlicher Audiodaten; zusätzlich zu WER und Sprecherähnlichkeit wurden Bewertungen für die Aussprache von Homographen und Aussprachekonsistenz eingeführt
- Ohne Kontext gab es keinen klaren Präferenzunterschied zwischen CSM-Medium und echter Sprache; bei gegebenem Gesprächskontext wurden echte Aufnahmen jedoch als passendere Fortsetzung bevorzugt, sodass eine Lücke bei der Gesprächsprosodie bleibt
Stimmpräsenz und Zielsetzung
- Sesames Ziel ist es, Stimmpräsenz umzusetzen, die gesprochene Sprache so wirken lässt, als werde sie tatsächlich verstanden und als wertvoll empfunden
- Heutige digitale Sprachassistenten bleiben oft bei einem neutralen Sprechstil stehen, wodurch sie im Alltag schwer dauerhaft genutzt werden, sobald die anfängliche Neuheit verflogen ist
- Die nötigen Bestandteile lassen sich in vier Punkte gliedern
- Emotionale Intelligenz: liest emotionalen Kontext und reagiert darauf
- Gesprächsdynamik: verarbeitet natürliches Timing, Pausen, Unterbrechungen und Betonungen
- Kontextbewusstsein: passt Ton und Stil an die Situation an
- Konsistente Persönlichkeit: bewahrt eine verlässliche und angemessene Präsenz
- Der Begleiter in der aktuellen Demo ist darauf optimiert, Freundlichkeit und Ausdruckskraft zu betonen; Persönlichkeit, Gedächtnis, Ausdruckskraft und Angemessenheit werden noch verbessert
Problemstellung des Conversational Speech Model
- Traditionelle TTS erzeugt Sprache direkt aus Text, ihr fehlt aber das für natürliche Gespräche nötige Kontextbewusstsein
- Auch wenn neuere Modelle menschenähnliche Sprache erzeugen können, gibt es viele Arten, einen Satz zu sprechen, und nur ein Teil davon passt zu einer bestimmten Situation
- Ohne zusätzlichen Kontext wie Ton, Rhythmus und Gesprächshistorie ist es für ein Modell schwierig, die passendste Art der Äußerung zu wählen
- CSM behandelt dieses Problem durch End-to-End-multimodales Lernen und lässt einen Transformer die Gesprächshistorie nutzen, um natürlichere und konsistentere Sprache zu erzeugen
- Die Kernmerkmale sind zwei Punkte
- Es arbeitet als einstufiges Modell und erhöht dadurch Effizienz und Ausdruckskraft
- Da allgemeine öffentliche Benchmarks gesättigt sind, nutzt es eine eigene Evaluierungssammlung, um Fortschritte bei Kontextfähigkeiten zu messen
Audio-Token und RVQ-Design
- Um Audio mit einem Transformer zu modellieren, wird die kontinuierliche Wellenform in eine Sequenz diskreter Audio-Token umgewandelt
- Moderne Ansätze verwenden meist zwei Arten von Token
- Semantische Token: komprimieren Bedeutung und phonemische Merkmale, opfern dabei aber High-Fidelity-Darstellung
- Akustische Token: enthalten feine akustische Informationen, ermöglichen High-Fidelity-Rekonstruktion und bewahren Eigenschaften wie Sprecheridentität und Klangfarbe
- Üblicherweise werden zuerst semantische Token modelliert und anschließend Audio mit RVQ- oder diffusionsbasierten Methoden erzeugt
- Dieser zweistufige Ansatz ermöglicht strukturierte Synthese, erzeugt aber einen Flaschenhals, weil semantische Token auch Prosodie ausreichend erfassen müssen
- RVQ-basierte Ansätze müssen sequenzielle Abhängigkeiten zwischen Codebooks innerhalb eines Frames verarbeiten
- Ein delay pattern verschiebt höhere Codebooks schrittweise, sodass sie auf niedrigere Codebooks desselben Frames konditioniert werden
- Hat ein RVQ-Tokenizer N Codebooks, sind vor dem Decoding des ersten Audiostücks N Backbone-Schritte nötig, was die time-to-first-audio verschlechtert
- Für Offline-Anwendungen wie Hörbücher ist das geeignet, in Echtzeit-Szenarien wird die Latenz jedoch zum Problem
CSM-Architektur und Inferenzverfahren
- CSM ist ein multimodales Text- und Sprachmodell, das RVQ-Token direkt verarbeitet
- Die Architektur ist in zwei autoregressive Transformer aufgeteilt
- Das erste multimodale Backbone nimmt Text und Audio als verschränkte Eingaben entgegen und modelliert das 0-te Codebook
- Der zweite Audio-Decoder modelliert mit separaten linear heads für jedes Codebook die übrigen N−1 Codebooks und rekonstruiert die Sprache
- Der Decoder ist deutlich kleiner als das Backbone, wodurch er Generierung mit niedriger Latenz ermöglicht und das Modell zugleich End-to-End hält
- Die Inferenz folgt diesem Ablauf
- Text-Token und Audio-Token werden sequenziell in das Backbone eingegeben
- Das Backbone sagt die Ebene des 0-ten Codebooks voraus
- Der Decoder sampelt, konditioniert auf die 0-te Ebene, die Ebenen 1 bis N−1
- Die rekonstruierten Audio-Token werden autoregressiv wieder in das Backbone für den nächsten Schritt eingegeben
- Wenn ein audio EOT-Symbol erscheint, endet die Generierung; bei der nächsten Anfrage wird Zwischen-Audio wie eine Nutzeräußerung durch Audio- und Text-Transkriptions-Token dargestellt
- Beide Transformer sind Varianten der Llama-Architektur, und Text-Token werden mit dem Llama tokenizer erzeugt
- Audio wird mit Mimi, einem split-RVQ tokenizer, verarbeitet; bei 12,5 Hz erzeugt er pro Frame ein semantisches Codebook und N−1 akustische Codebooks
- Trainingssamples folgen einem Muster, in dem Text und Audio abwechselnd verschränkt sind; die Sprecheridentität wird direkt in der Textrepräsentation kodiert
Trainingseffizienz und Daten
- Während des Trainings verarbeitet der Audio-Decoder eine effektive Batchgröße von B×S und N Codebooks autoregressiv, was eine große Speicherbelastung erzeugt
- Diese Belastung verlangsamt schon bei kleinen Modellen das Training und erschwert Modellerweiterung sowie schnelle Experimente
- Sesame nutzt compute amortization, um den Flaschenhals zu verringern und gleichzeitig die Treue der gesamten RVQ-Codebooks zu erhalten
- Der Audio-Decoder wird nur auf einer zufälligen 1/16-Teilmenge der Audioframes trainiert
- Das 0-te Codebook wird auf allen Frames trainiert
- Bei diesem Ansatz wurde während des Trainings kein wahrnehmbarer Unterschied beim Verlust des Audio-Decoders beobachtet
- Der Datensatz wurde erstellt, indem öffentliches Audio transkribiert, nach Sprechern getrennt, segmentiert und anschließend gefiltert wurde
- Nach dem Filtern umfasst der Datensatz rund 1 Million Stunden und besteht größtenteils aus englischem Audio
- Trainiert wurden drei Modellgrößen
- Tiny: 1B Backbone, 100M Decoder
- Small: 3B Backbone, 250M Decoder
- Medium: 8B Backbone, 300M Decoder
- Jedes Modell wurde mit einer Sequenzlänge von 2048, entsprechend etwa 2 Minuten Audio, über 5 Epochen trainiert
Samples und Evaluierungssystem
- Die Samples umfassen paralinguistische Elemente, fremdsprachige Wörter, kontextuelle Ausdruckskraft, Aussprachekorrektur und Dialoge mit mehreren Sprechern
- Die Evaluierungssammlung misst vier Aspekte
- Texttreue
- Kontextnutzung
- Prosodie
- Latenz
- Objektive Bewertungen umfassen WER, einen neuen Aussprachetest, Sprecherähnlichkeit und weitere Metriken
- Subjektive Bewertungen bestehen aus einer menschlichen Comparative-Mean-Opinion-Score(CMOS)-Bewertung mit dem Expresso-Datensatz
- Bei traditionellen Benchmarks wie WER und speaker similarity erreichen aktuelle Modelle einschließlich CSM nahezu menschliches Niveau und nähern sich einem Sättigungszustand
Bewertung von Aussprache und Kontextverständnis
- Ein neuer Benchmark auf Basis von Sprachtranskriptionen wurde eingeführt, um Aussprache und Kontextverständnis besser zu bewerten
- Unterscheidung von Homographen bewertet, ob Wörter mit gleicher Schreibweise, aber unterschiedlicher Aussprache korrekt ausgesprochen werden
- Ein Beispiel ist die Unterscheidung, ob „lead“ als Metall /lɛd/ oder als Verb „führen“ /liːd/ gemeint ist
- Konsistenz bei fortgesetzter Aussprache bewertet, ob Wörter mit mehreren Aussprachevarianten in mehrturniger Sprache konsistent bleiben
- Ein Beispiel ist „route“, das als /raʊt/ oder /ruːt/ ausgesprochen werden kann
- Die Bewertung der Homographen-Genauigkeit wurde mit 200 Sprachsamples durchgeführt, die für die fünf Wörter lead, bass, tear, wound und row jeweils zwei Varianten enthalten
- Die Bewertung der Aussprachekonsistenz wurde mit 200 Sprachsamples durchgeführt, die zehn Wörter enthalten: aunt, data, envelope, mobile, route, vase, either, adult, often und caramel
- Für die Bewertung wurde wav2vec2-lv-60-espeak-cv-ft verwendet
- Die von Play.ht, Elevenlabs und OpenAI erzeugten Ergebnisse wurden mit den Standardeinstellungen und Standardstimmen der jeweiligen API-Dokumentation erstellt
- Insgesamt verbessert sich die Leistung mit zunehmender Modellgröße, was die Hypothese stützt, dass Skalierung zu realistischeren Sprachsynthesen beiträgt
Ergebnisse der menschlichen Bewertung
- Um Natürlichkeit und prosodische Angemessenheit von CSM-Medium zu bewerten, wurden zwei CMOS-Studien mit dem Expresso-Datensatz durchgeführt
- Die Bewerter hörten ein Paar aus modellgenerierter Sprache und echter menschlicher Aufnahme und bewerteten das generierte Sample auf einer 7-Punkte-Präferenzskala relativ zur Referenz
- In der ersten Studie wurden generierte Samples und menschliche Samples ohne Kontext präsentiert, mit der Frage, welche Seite eher wie menschliche Sprache wirkt
- In der zweiten Studie wurden zusätzlich die vorherigen 90 Sekunden Audio- und Textkontext bereitgestellt, mit der Frage, welche Seite sich wie die passendere Fortsetzung des Gesprächs anfühlt
- 80 Personen nahmen bezahlt teil, und jede Person bewertete im Durchschnitt 15 Beispiele
- Ohne Kontext zeigten die Bewerter keine klare Präferenz zwischen generierter und echter Sprache, was darauf hindeutet, dass die Bewertung von Natürlichkeit gesättigt ist
- Mit Kontext bevorzugten die Bewerter durchgehend die Originalaufnahmen; bei der Erzeugung konversationeller Sprache bleibt also eine Lücke zur menschlichen Prosodie
Veröffentlichungspläne und Grenzen
- Sesame plant, zentrale Komponenten der Forschung als Open Source zu veröffentlichen; das Modell soll unter der Apache 2.0-Lizenz bereitgestellt werden
- Updates und Beiträge sind im GitHub-Repository SesameAILabs/csm zu finden
- Das aktuelle CSM wurde hauptsächlich mit englischen Daten trainiert
- Aufgrund von Datenkontamination treten einige mehrsprachige Fähigkeiten auf, sie funktionieren aber noch nicht gut
- Es nutzt auch keine Informationen aus den Gewichten vortrainierter Sprachmodelle
- In den nächsten Monaten sind eine Vergrößerung des Modells, eine Ausweitung des Datensatzumfangs und die Erweiterung auf mehr als 20 Sprachen geplant
- Zudem wird untersucht, wie vortrainierte Sprachmodelle genutzt werden können, mit dem Ziel großer multimodaler Modelle mit tiefem Wissen über Sprache und Text
- CSM erzeugt hochwertige Gesprächsprosodie, modelliert jedoch nur Text- und Sprachinhalte des Gesprächs, nicht die Gesprächsstruktur selbst
- Menschliche Gespräche sind komplexe Prozesse mit Sprecherwechseln, Pausen und Anpassung der Geschwindigkeit; künftige KI-Gespräche ähneln daher eher voll-duplex (fully duplex) Modellen, die solche Dynamiken implizit aus Daten lernen
- Voll-duplex-Modelle erfordern grundlegende Veränderungen über den gesamten Stack hinweg, von der Datenkuratierung bis zur Methodik des Post-Trainings
Noch keine Kommentare.