5 Punkte von GN⁺ 2025-03-03 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Für digitale Sprachassistenten, die langfristig genutzt werden, ist Stimmpräsenz (voice presence), die Emotion, Rhythmus und Kontext widerspiegelt, wichtiger als eine saubere synthetische Stimme; Sesame schlägt dafür das Conversational Speech Model vor
  • CSM ist ein End-to-End-multimodaler Transformer, der Text und Sprache gemeinsam verarbeitet und darauf ausgelegt ist, mithilfe der Gesprächshistorie natürlichere und konsistentere Äußerungen zu erzeugen
  • Das Modell verarbeitet RVQ-Token direkt, teilt sich aber in ein Backbone für das 0-te Codebook und einen kleinen Audio-Decoder zur Rekonstruktion der übrigen Codebooks auf, um Latenz und Ausdruckskraft auszubalancieren
  • Trainiert wurden drei Größen, Tiny, Small und Medium, auf rund 1 Million Stunden überwiegend englischer öffentlicher Audiodaten; zusätzlich zu WER und Sprecherähnlichkeit wurden Bewertungen für die Aussprache von Homographen und Aussprachekonsistenz eingeführt
  • Ohne Kontext gab es keinen klaren Präferenzunterschied zwischen CSM-Medium und echter Sprache; bei gegebenem Gesprächskontext wurden echte Aufnahmen jedoch als passendere Fortsetzung bevorzugt, sodass eine Lücke bei der Gesprächsprosodie bleibt

Stimmpräsenz und Zielsetzung

  • Sesames Ziel ist es, Stimmpräsenz umzusetzen, die gesprochene Sprache so wirken lässt, als werde sie tatsächlich verstanden und als wertvoll empfunden
  • Heutige digitale Sprachassistenten bleiben oft bei einem neutralen Sprechstil stehen, wodurch sie im Alltag schwer dauerhaft genutzt werden, sobald die anfängliche Neuheit verflogen ist
  • Die nötigen Bestandteile lassen sich in vier Punkte gliedern
    • Emotionale Intelligenz: liest emotionalen Kontext und reagiert darauf
    • Gesprächsdynamik: verarbeitet natürliches Timing, Pausen, Unterbrechungen und Betonungen
    • Kontextbewusstsein: passt Ton und Stil an die Situation an
    • Konsistente Persönlichkeit: bewahrt eine verlässliche und angemessene Präsenz
  • Der Begleiter in der aktuellen Demo ist darauf optimiert, Freundlichkeit und Ausdruckskraft zu betonen; Persönlichkeit, Gedächtnis, Ausdruckskraft und Angemessenheit werden noch verbessert

Problemstellung des Conversational Speech Model

  • Traditionelle TTS erzeugt Sprache direkt aus Text, ihr fehlt aber das für natürliche Gespräche nötige Kontextbewusstsein
  • Auch wenn neuere Modelle menschenähnliche Sprache erzeugen können, gibt es viele Arten, einen Satz zu sprechen, und nur ein Teil davon passt zu einer bestimmten Situation
  • Ohne zusätzlichen Kontext wie Ton, Rhythmus und Gesprächshistorie ist es für ein Modell schwierig, die passendste Art der Äußerung zu wählen
  • CSM behandelt dieses Problem durch End-to-End-multimodales Lernen und lässt einen Transformer die Gesprächshistorie nutzen, um natürlichere und konsistentere Sprache zu erzeugen
  • Die Kernmerkmale sind zwei Punkte
    • Es arbeitet als einstufiges Modell und erhöht dadurch Effizienz und Ausdruckskraft
    • Da allgemeine öffentliche Benchmarks gesättigt sind, nutzt es eine eigene Evaluierungssammlung, um Fortschritte bei Kontextfähigkeiten zu messen

Audio-Token und RVQ-Design

  • Um Audio mit einem Transformer zu modellieren, wird die kontinuierliche Wellenform in eine Sequenz diskreter Audio-Token umgewandelt
  • Moderne Ansätze verwenden meist zwei Arten von Token
    • Semantische Token: komprimieren Bedeutung und phonemische Merkmale, opfern dabei aber High-Fidelity-Darstellung
    • Akustische Token: enthalten feine akustische Informationen, ermöglichen High-Fidelity-Rekonstruktion und bewahren Eigenschaften wie Sprecheridentität und Klangfarbe
  • Üblicherweise werden zuerst semantische Token modelliert und anschließend Audio mit RVQ- oder diffusionsbasierten Methoden erzeugt
  • Dieser zweistufige Ansatz ermöglicht strukturierte Synthese, erzeugt aber einen Flaschenhals, weil semantische Token auch Prosodie ausreichend erfassen müssen
  • RVQ-basierte Ansätze müssen sequenzielle Abhängigkeiten zwischen Codebooks innerhalb eines Frames verarbeiten
    • Ein delay pattern verschiebt höhere Codebooks schrittweise, sodass sie auf niedrigere Codebooks desselben Frames konditioniert werden
    • Hat ein RVQ-Tokenizer N Codebooks, sind vor dem Decoding des ersten Audiostücks N Backbone-Schritte nötig, was die time-to-first-audio verschlechtert
    • Für Offline-Anwendungen wie Hörbücher ist das geeignet, in Echtzeit-Szenarien wird die Latenz jedoch zum Problem

CSM-Architektur und Inferenzverfahren

  • CSM ist ein multimodales Text- und Sprachmodell, das RVQ-Token direkt verarbeitet
  • Die Architektur ist in zwei autoregressive Transformer aufgeteilt
    • Das erste multimodale Backbone nimmt Text und Audio als verschränkte Eingaben entgegen und modelliert das 0-te Codebook
    • Der zweite Audio-Decoder modelliert mit separaten linear heads für jedes Codebook die übrigen N−1 Codebooks und rekonstruiert die Sprache
  • Der Decoder ist deutlich kleiner als das Backbone, wodurch er Generierung mit niedriger Latenz ermöglicht und das Modell zugleich End-to-End hält
  • Die Inferenz folgt diesem Ablauf
    • Text-Token und Audio-Token werden sequenziell in das Backbone eingegeben
    • Das Backbone sagt die Ebene des 0-ten Codebooks voraus
    • Der Decoder sampelt, konditioniert auf die 0-te Ebene, die Ebenen 1 bis N−1
    • Die rekonstruierten Audio-Token werden autoregressiv wieder in das Backbone für den nächsten Schritt eingegeben
    • Wenn ein audio EOT-Symbol erscheint, endet die Generierung; bei der nächsten Anfrage wird Zwischen-Audio wie eine Nutzeräußerung durch Audio- und Text-Transkriptions-Token dargestellt
  • Beide Transformer sind Varianten der Llama-Architektur, und Text-Token werden mit dem Llama tokenizer erzeugt
  • Audio wird mit Mimi, einem split-RVQ tokenizer, verarbeitet; bei 12,5 Hz erzeugt er pro Frame ein semantisches Codebook und N−1 akustische Codebooks
  • Trainingssamples folgen einem Muster, in dem Text und Audio abwechselnd verschränkt sind; die Sprecheridentität wird direkt in der Textrepräsentation kodiert

Trainingseffizienz und Daten

  • Während des Trainings verarbeitet der Audio-Decoder eine effektive Batchgröße von B×S und N Codebooks autoregressiv, was eine große Speicherbelastung erzeugt
  • Diese Belastung verlangsamt schon bei kleinen Modellen das Training und erschwert Modellerweiterung sowie schnelle Experimente
  • Sesame nutzt compute amortization, um den Flaschenhals zu verringern und gleichzeitig die Treue der gesamten RVQ-Codebooks zu erhalten
    • Der Audio-Decoder wird nur auf einer zufälligen 1/16-Teilmenge der Audioframes trainiert
    • Das 0-te Codebook wird auf allen Frames trainiert
    • Bei diesem Ansatz wurde während des Trainings kein wahrnehmbarer Unterschied beim Verlust des Audio-Decoders beobachtet
  • Der Datensatz wurde erstellt, indem öffentliches Audio transkribiert, nach Sprechern getrennt, segmentiert und anschließend gefiltert wurde
  • Nach dem Filtern umfasst der Datensatz rund 1 Million Stunden und besteht größtenteils aus englischem Audio
  • Trainiert wurden drei Modellgrößen
    • Tiny: 1B Backbone, 100M Decoder
    • Small: 3B Backbone, 250M Decoder
    • Medium: 8B Backbone, 300M Decoder
  • Jedes Modell wurde mit einer Sequenzlänge von 2048, entsprechend etwa 2 Minuten Audio, über 5 Epochen trainiert

Samples und Evaluierungssystem

  • Die Samples umfassen paralinguistische Elemente, fremdsprachige Wörter, kontextuelle Ausdruckskraft, Aussprachekorrektur und Dialoge mit mehreren Sprechern
  • Die Evaluierungssammlung misst vier Aspekte
    • Texttreue
    • Kontextnutzung
    • Prosodie
    • Latenz
  • Objektive Bewertungen umfassen WER, einen neuen Aussprachetest, Sprecherähnlichkeit und weitere Metriken
  • Subjektive Bewertungen bestehen aus einer menschlichen Comparative-Mean-Opinion-Score(CMOS)-Bewertung mit dem Expresso-Datensatz
  • Bei traditionellen Benchmarks wie WER und speaker similarity erreichen aktuelle Modelle einschließlich CSM nahezu menschliches Niveau und nähern sich einem Sättigungszustand

Bewertung von Aussprache und Kontextverständnis

  • Ein neuer Benchmark auf Basis von Sprachtranskriptionen wurde eingeführt, um Aussprache und Kontextverständnis besser zu bewerten
  • Unterscheidung von Homographen bewertet, ob Wörter mit gleicher Schreibweise, aber unterschiedlicher Aussprache korrekt ausgesprochen werden
    • Ein Beispiel ist die Unterscheidung, ob „lead“ als Metall /lɛd/ oder als Verb „führen“ /liːd/ gemeint ist
  • Konsistenz bei fortgesetzter Aussprache bewertet, ob Wörter mit mehreren Aussprachevarianten in mehrturniger Sprache konsistent bleiben
    • Ein Beispiel ist „route“, das als /raʊt/ oder /ruːt/ ausgesprochen werden kann
  • Die Bewertung der Homographen-Genauigkeit wurde mit 200 Sprachsamples durchgeführt, die für die fünf Wörter lead, bass, tear, wound und row jeweils zwei Varianten enthalten
  • Die Bewertung der Aussprachekonsistenz wurde mit 200 Sprachsamples durchgeführt, die zehn Wörter enthalten: aunt, data, envelope, mobile, route, vase, either, adult, often und caramel
  • Für die Bewertung wurde wav2vec2-lv-60-espeak-cv-ft verwendet
  • Die von Play.ht, Elevenlabs und OpenAI erzeugten Ergebnisse wurden mit den Standardeinstellungen und Standardstimmen der jeweiligen API-Dokumentation erstellt
  • Insgesamt verbessert sich die Leistung mit zunehmender Modellgröße, was die Hypothese stützt, dass Skalierung zu realistischeren Sprachsynthesen beiträgt

Ergebnisse der menschlichen Bewertung

  • Um Natürlichkeit und prosodische Angemessenheit von CSM-Medium zu bewerten, wurden zwei CMOS-Studien mit dem Expresso-Datensatz durchgeführt
  • Die Bewerter hörten ein Paar aus modellgenerierter Sprache und echter menschlicher Aufnahme und bewerteten das generierte Sample auf einer 7-Punkte-Präferenzskala relativ zur Referenz
  • In der ersten Studie wurden generierte Samples und menschliche Samples ohne Kontext präsentiert, mit der Frage, welche Seite eher wie menschliche Sprache wirkt
  • In der zweiten Studie wurden zusätzlich die vorherigen 90 Sekunden Audio- und Textkontext bereitgestellt, mit der Frage, welche Seite sich wie die passendere Fortsetzung des Gesprächs anfühlt
  • 80 Personen nahmen bezahlt teil, und jede Person bewertete im Durchschnitt 15 Beispiele
  • Ohne Kontext zeigten die Bewerter keine klare Präferenz zwischen generierter und echter Sprache, was darauf hindeutet, dass die Bewertung von Natürlichkeit gesättigt ist
  • Mit Kontext bevorzugten die Bewerter durchgehend die Originalaufnahmen; bei der Erzeugung konversationeller Sprache bleibt also eine Lücke zur menschlichen Prosodie

Veröffentlichungspläne und Grenzen

  • Sesame plant, zentrale Komponenten der Forschung als Open Source zu veröffentlichen; das Modell soll unter der Apache 2.0-Lizenz bereitgestellt werden
  • Updates und Beiträge sind im GitHub-Repository SesameAILabs/csm zu finden
  • Das aktuelle CSM wurde hauptsächlich mit englischen Daten trainiert
    • Aufgrund von Datenkontamination treten einige mehrsprachige Fähigkeiten auf, sie funktionieren aber noch nicht gut
    • Es nutzt auch keine Informationen aus den Gewichten vortrainierter Sprachmodelle
  • In den nächsten Monaten sind eine Vergrößerung des Modells, eine Ausweitung des Datensatzumfangs und die Erweiterung auf mehr als 20 Sprachen geplant
  • Zudem wird untersucht, wie vortrainierte Sprachmodelle genutzt werden können, mit dem Ziel großer multimodaler Modelle mit tiefem Wissen über Sprache und Text
  • CSM erzeugt hochwertige Gesprächsprosodie, modelliert jedoch nur Text- und Sprachinhalte des Gesprächs, nicht die Gesprächsstruktur selbst
  • Menschliche Gespräche sind komplexe Prozesse mit Sprecherwechseln, Pausen und Anpassung der Geschwindigkeit; künftige KI-Gespräche ähneln daher eher voll-duplex (fully duplex) Modellen, die solche Dynamiken implizit aus Daten lernen
  • Voll-duplex-Modelle erfordern grundlegende Veränderungen über den gesamten Stack hinweg, von der Datenkuratierung bis zur Methodik des Post-Trainings

Noch keine Kommentare.

Noch keine Kommentare.