- Die menschliche Stimme ist das intimste Medium und vermittelt durch vielfältige Veränderungen in Tonfall, Tonhöhe, Rhythmus und Emotion tiefe Bedeutung.
- Aktuelle digitale Sprachassistenten verfügen nicht über diese emotionalen Elemente, was ihre Fähigkeit zur effektiven Zusammenarbeit mit Nutzerinnen und Nutzern einschränkt.
- Stimmen ohne Emotion mögen anfangs faszinierend wirken, können mit der Zeit jedoch enttäuschend und ermüdend werden.
- Sesames Ziel ist es, dass dialogorientierte Partner nicht nur Anfragen bearbeiten, sondern echte Gespräche führen, in denen Vertrauen und Zuversicht aufgebaut werden.
- Dadurch soll das Potenzial der Stimme maximal genutzt und sie zur ultimativen Schnittstelle für Anweisung und Verständnis gemacht werden.
Kernelemente
- Emotionale Intelligenz: die Fähigkeit, emotionalen Kontext zu erkennen und darauf zu reagieren
- Gesprächsdynamik: der Gesprächsfluss einschließlich natürlichem Timing, Pausen, Unterbrechungen und Betonung
- Situationsbewusstsein: die Fähigkeit, Tonfall und Stil passend zur Situation anzupassen
- Konsistente Persönlichkeit: eine konsistente, verlässliche und angemessene Präsenz aufrechterhalten
Wir sind noch nicht dort angekommen
- Digitalen Begleitern eine stimmliche Präsenz zu verleihen, ist eine schwierige Aufgabe, aber wir machen in vielen Bereichen stetige Fortschritte, darunter Persönlichkeit, Gedächtnis, Ausdruckskraft und Angemessenheit.
- Die folgende Demo zeigt einen Teil der Arbeit an der Erzeugung dialogorientierter Sprache, die auf Vertrautheit und Ausdruckskraft optimiert ist.
Dialogorientierte Sprache erzeugen
- Um einen wirklich interaktiven KI-Begleiter zu schaffen, reicht nicht nur hochwertige Audiogenerierung aus; das System muss auch Kontext in Echtzeit verstehen und sich daran anpassen.
- Traditionelle Text-to-Speech-(TTS)-Modelle erzeugen Sprache direkt aus Text, verfügen jedoch nicht über das für natürliche Gespräche nötige Kontextverständnis.
- Neuere Modelle erzeugen menschenähnliche Stimmen, kämpfen jedoch mit dem „one-to-many“-Problem, bei dem derselbe Satz auf verschiedene Weise ausgedrückt werden kann.
- Ohne zusätzlichen Kontext wie Tonfall, Rhythmus oder Gesprächsverlauf fehlen dem Modell die Informationen, um die beste Wahl zu treffen.
- Um solche feinen Unterschiede zu erfassen, ist Schlussfolgern über mehrere Aspekte von Sprache und Prosodie erforderlich.
Conversational Speech Model (CSM)
- Um dieses Problem zu lösen, wird das Conversational Speech Model (CSM) eingeführt, das die Aufgabe als End-to-End-Multimodal-Lernaufgabe mit Transformern definiert.
- Es nutzt den Gesprächsverlauf, um natürlichere und konsistentere Sprache zu erzeugen.
- CSM arbeitet als Single-Stage-Modell und verbessert dadurch Effizienz und Ausdruckskraft.
- Es verfügt über eine Evaluierungs-Suite, um Fortschritte bei kontextuellen Fähigkeiten zu bewerten, da gängige öffentliche Evaluierungen als gesättigt gelten.
Hintergrund
- Ein Ansatz zur Modellierung von Audio mit Transformern besteht darin, kontinuierliche Wellenformen mithilfe eines Tokenizers in diskrete Sequenzen von Audio-Token umzuwandeln.
- Die meisten modernen Ansätze stützen sich auf zwei Arten von Audio-Token:
- Semantische Token: komprimierte, sprecherinvariante Repräsentationen semantischer und sprachlicher Merkmale, die zentrale Spracheigenschaften erfassen, dabei aber hochfidele Repräsentation opfern
- Akustische Token: Kodierungen feiner akustischer Details, die eine hochfidele Audiorekonstruktion ermöglichen und mit Residual Vector Quantization (RVQ) erzeugt werden. Anders als semantische Token bewahren sie natürliche Stimmeigenschaften wie die einzigartige Identität und Klangfarbe des Sprechers
Experimente
- Datensatz: Es wurde ein öffentlich verfügbarer Audiodatensatz mit rund einer Million Stunden verwendet, überwiegend auf Englisch.
- Modellgröße: Es wurden drei Modellgrößen trainiert, unterschieden nach Backbone- und Decoder-Größe:
- Tiny: 1 Milliarde Backbone, 100 Millionen Decoder
- Small: 3 Milliarden Backbone, 250 Millionen Decoder
- Medium: 8 Milliarden Backbone, 300 Millionen Decoder
- Jedes Modell wurde mit einer Sequenzlänge von 2048 (~2 Minuten Audio) über 5 Epochen trainiert.
Evaluierung
- Die Modellleistung wurde anhand von vier Hauptaspekten bewertet: Texttreue, Kontextnutzung, Prosodie und Latenz.
- Die objektiven Benchmarks umfassen Wortfehlerrate (WER) und neue Tests wie die Auflösung von Homophonen.
- Die subjektive Bewertung stützt sich auf menschliche Studien mit Comparative Mean Opinion Score (CMOS) unter Verwendung des Expresso-Datensatzes.
Einschränkungen und zukünftige Arbeit
- CSM wurde derzeit überwiegend mit englischen Daten trainiert; aufgrund von Datensatzkontamination zeigen sich einige mehrsprachige Fähigkeiten, die Leistung ist jedoch noch unzureichend.
- Informationen aus den Gewichten vortrainierter Sprachmodelle werden nicht genutzt.
1 Kommentare
Hacker-News-Kommentare
Brendan von Sesame sagt, das Feedback sei zutreffend, und räumt ein, dass es noch viel zu verbessern gibt. Es ist inspirierend, aber bis es ein wirklich ausgereiftes Erlebnis bietet, sind noch viele Schritte nötig. Wir stehen noch ganz am Anfang der Entwicklung, aber er ist optimistisch
Ein Nutzer probierte die Demo aus, entschied sich dann aber, nicht zu sprechen. Die Erfahrung fühlte sich seltsam und beunruhigend an, und die künstliche Begeisterung störte
Ein anderer Nutzer erwähnt, dass die Reaktionsfähigkeit und Persönlichkeit dieses Modells erstaunlich seien. Besonders beeindruckend war, dass es sich an frühere Gespräche erinnerte und zur Begrüßung darauf Bezug nahm
Es wird infrage gestellt, warum überhaupt eine emotionale Stimme nötig ist
Ein Nutzer spielte mit seiner vierjährigen Tochter mit der AI und äußerte die Sorge, dass seine Tochter eine emotionale Bindung zur AI aufgebaut habe
Ein anderer Nutzer fand, dass die Stimme zwar menschlich klingt, der Sprechrhythmus aber unnatürlich wirkt
Es wird angemerkt, dass diese Technologie so gut sei, dass sie Menschen in ihren Bann ziehen könne. Es wird argumentiert, dass ein persönliches Modell nötig sei
Es wird erwähnt, dass dies für das Englischlernen revolutionär sein könnte
Es wird eine apokalyptische Prognose geäußert, dass AI mit perfekter Stimme Menschen anrufen und in ihren Bann ziehen könnte
Ein Nutzer führte 13 Minuten lang ein Gespräch, bevor es abstürzte, kam aber ein paar Minuten später zurück und sprach dann 30 Minuten lang weiter; es fühlte sich fast auf dem Niveau von Samantha aus dem Film 'Her' an
PROSODY, und die AI erklärte, dass sie Tonfall und Inhalt hört und ihre Reaktion automatisch anpasst