5 Punkte von GN⁺ 2025-03-03 | 1 Kommentare | Auf WhatsApp teilen
  • Die menschliche Stimme ist das intimste Medium und vermittelt durch vielfältige Veränderungen in Tonfall, Tonhöhe, Rhythmus und Emotion tiefe Bedeutung.
  • Aktuelle digitale Sprachassistenten verfügen nicht über diese emotionalen Elemente, was ihre Fähigkeit zur effektiven Zusammenarbeit mit Nutzerinnen und Nutzern einschränkt.
  • Stimmen ohne Emotion mögen anfangs faszinierend wirken, können mit der Zeit jedoch enttäuschend und ermüdend werden.
  • Sesames Ziel ist es, dass dialogorientierte Partner nicht nur Anfragen bearbeiten, sondern echte Gespräche führen, in denen Vertrauen und Zuversicht aufgebaut werden.
  • Dadurch soll das Potenzial der Stimme maximal genutzt und sie zur ultimativen Schnittstelle für Anweisung und Verständnis gemacht werden.

Kernelemente

  • Emotionale Intelligenz: die Fähigkeit, emotionalen Kontext zu erkennen und darauf zu reagieren
  • Gesprächsdynamik: der Gesprächsfluss einschließlich natürlichem Timing, Pausen, Unterbrechungen und Betonung
  • Situationsbewusstsein: die Fähigkeit, Tonfall und Stil passend zur Situation anzupassen
  • Konsistente Persönlichkeit: eine konsistente, verlässliche und angemessene Präsenz aufrechterhalten

Wir sind noch nicht dort angekommen

  • Digitalen Begleitern eine stimmliche Präsenz zu verleihen, ist eine schwierige Aufgabe, aber wir machen in vielen Bereichen stetige Fortschritte, darunter Persönlichkeit, Gedächtnis, Ausdruckskraft und Angemessenheit.
  • Die folgende Demo zeigt einen Teil der Arbeit an der Erzeugung dialogorientierter Sprache, die auf Vertrautheit und Ausdruckskraft optimiert ist.

Dialogorientierte Sprache erzeugen

  • Um einen wirklich interaktiven KI-Begleiter zu schaffen, reicht nicht nur hochwertige Audiogenerierung aus; das System muss auch Kontext in Echtzeit verstehen und sich daran anpassen.
  • Traditionelle Text-to-Speech-(TTS)-Modelle erzeugen Sprache direkt aus Text, verfügen jedoch nicht über das für natürliche Gespräche nötige Kontextverständnis.
  • Neuere Modelle erzeugen menschenähnliche Stimmen, kämpfen jedoch mit dem „one-to-many“-Problem, bei dem derselbe Satz auf verschiedene Weise ausgedrückt werden kann.
  • Ohne zusätzlichen Kontext wie Tonfall, Rhythmus oder Gesprächsverlauf fehlen dem Modell die Informationen, um die beste Wahl zu treffen.
  • Um solche feinen Unterschiede zu erfassen, ist Schlussfolgern über mehrere Aspekte von Sprache und Prosodie erforderlich.

Conversational Speech Model (CSM)

  • Um dieses Problem zu lösen, wird das Conversational Speech Model (CSM) eingeführt, das die Aufgabe als End-to-End-Multimodal-Lernaufgabe mit Transformern definiert.
  • Es nutzt den Gesprächsverlauf, um natürlichere und konsistentere Sprache zu erzeugen.
  • CSM arbeitet als Single-Stage-Modell und verbessert dadurch Effizienz und Ausdruckskraft.
  • Es verfügt über eine Evaluierungs-Suite, um Fortschritte bei kontextuellen Fähigkeiten zu bewerten, da gängige öffentliche Evaluierungen als gesättigt gelten.

Hintergrund

  • Ein Ansatz zur Modellierung von Audio mit Transformern besteht darin, kontinuierliche Wellenformen mithilfe eines Tokenizers in diskrete Sequenzen von Audio-Token umzuwandeln.
  • Die meisten modernen Ansätze stützen sich auf zwei Arten von Audio-Token:
    • Semantische Token: komprimierte, sprecherinvariante Repräsentationen semantischer und sprachlicher Merkmale, die zentrale Spracheigenschaften erfassen, dabei aber hochfidele Repräsentation opfern
    • Akustische Token: Kodierungen feiner akustischer Details, die eine hochfidele Audiorekonstruktion ermöglichen und mit Residual Vector Quantization (RVQ) erzeugt werden. Anders als semantische Token bewahren sie natürliche Stimmeigenschaften wie die einzigartige Identität und Klangfarbe des Sprechers

Experimente

  • Datensatz: Es wurde ein öffentlich verfügbarer Audiodatensatz mit rund einer Million Stunden verwendet, überwiegend auf Englisch.
  • Modellgröße: Es wurden drei Modellgrößen trainiert, unterschieden nach Backbone- und Decoder-Größe:
    • Tiny: 1 Milliarde Backbone, 100 Millionen Decoder
    • Small: 3 Milliarden Backbone, 250 Millionen Decoder
    • Medium: 8 Milliarden Backbone, 300 Millionen Decoder
  • Jedes Modell wurde mit einer Sequenzlänge von 2048 (~2 Minuten Audio) über 5 Epochen trainiert.

Evaluierung

  • Die Modellleistung wurde anhand von vier Hauptaspekten bewertet: Texttreue, Kontextnutzung, Prosodie und Latenz.
  • Die objektiven Benchmarks umfassen Wortfehlerrate (WER) und neue Tests wie die Auflösung von Homophonen.
  • Die subjektive Bewertung stützt sich auf menschliche Studien mit Comparative Mean Opinion Score (CMOS) unter Verwendung des Expresso-Datensatzes.

Einschränkungen und zukünftige Arbeit

  • CSM wurde derzeit überwiegend mit englischen Daten trainiert; aufgrund von Datensatzkontamination zeigen sich einige mehrsprachige Fähigkeiten, die Leistung ist jedoch noch unzureichend.
  • Informationen aus den Gewichten vortrainierter Sprachmodelle werden nicht genutzt.

1 Kommentare

 
GN⁺ 2025-03-03
Hacker-News-Kommentare
  • Brendan von Sesame sagt, das Feedback sei zutreffend, und räumt ein, dass es noch viel zu verbessern gibt. Es ist inspirierend, aber bis es ein wirklich ausgereiftes Erlebnis bietet, sind noch viele Schritte nötig. Wir stehen noch ganz am Anfang der Entwicklung, aber er ist optimistisch

    • Sprachliche Kommunikation ist komplex, und es gibt viele spannende Herausforderungen zu lösen
    • Das Timing der Reaktionen ist oft unpassend und fügt sich nicht natürlich in Gespräche ein
    • Unterbrechungen in Gesprächen werden nicht gut verarbeitet, und eine konsistente Persönlichkeit wird nicht aufrechterhalten
    • Es gibt auch Probleme wie Halluzinationen, mangelndes Erinnerungsvermögen und fehlendes Zeitverständnis
    • Er glaubt, dass die Community diese Probleme lösen kann
    • Das Ziel ist, eher eine natürlich nutzbare Schnittstelle für Zusammenarbeit zu schaffen als eine emotionale Freundschaft
    • Wenn Apps wie Experten sprechen können, wird das intuitiver und effizienter sein
  • Ein Nutzer probierte die Demo aus, entschied sich dann aber, nicht zu sprechen. Die Erfahrung fühlte sich seltsam und beunruhigend an, und die künstliche Begeisterung störte

    • AI-Produkte sollten den Nutzern ein klares Ziel bieten
    • Eine AI nur für Unterhaltungen könnte negative Auswirkungen auf die Gesellschaft haben
  • Ein anderer Nutzer erwähnt, dass die Reaktionsfähigkeit und Persönlichkeit dieses Modells erstaunlich seien. Besonders beeindruckend war, dass es sich an frühere Gespräche erinnerte und zur Begrüßung darauf Bezug nahm

    • Demo-Interaktionen werden aufgezeichnet und frühere Gespräche in den Kontext des Modells aufgenommen
    • Mikrofonberechtigung ist erforderlich, und Anrufe werden zur Qualitätsprüfung aufgezeichnet, aber innerhalb von 30 Tagen gelöscht
  • Es wird infrage gestellt, warum überhaupt eine emotionale Stimme nötig ist

    • Eine emotionale Stimme vermittelt nur die Illusion eines Freundes, hilft aber nicht wirklich
    • Ein intelligenter neutraler Sprachassistent könnte nützlicher sein
  • Ein Nutzer spielte mit seiner vierjährigen Tochter mit der AI und äußerte die Sorge, dass seine Tochter eine emotionale Bindung zur AI aufgebaut habe

  • Ein anderer Nutzer fand, dass die Stimme zwar menschlich klingt, der Sprechrhythmus aber unnatürlich wirkt

  • Es wird angemerkt, dass diese Technologie so gut sei, dass sie Menschen in ihren Bann ziehen könne. Es wird argumentiert, dass ein persönliches Modell nötig sei

  • Es wird erwähnt, dass dies für das Englischlernen revolutionär sein könnte

    • In Entwicklungsländern gibt es zu wenige Englischlehrer, und gute Lehrkräfte sind teuer und schwer zugänglich
    • Dieses Modell liefert eine ähnliche oder bessere Leistung als Modelle von OpenAI und ist günstiger
  • Es wird eine apokalyptische Prognose geäußert, dass AI mit perfekter Stimme Menschen anrufen und in ihren Bann ziehen könnte

  • Ein Nutzer führte 13 Minuten lang ein Gespräch, bevor es abstürzte, kam aber ein paar Minuten später zurück und sprach dann 30 Minuten lang weiter; es fühlte sich fast auf dem Niveau von Samantha aus dem Film 'Her' an

    • Er lernte während des Gesprächs das Wort PROSODY, und die AI erklärte, dass sie Tonfall und Inhalt hört und ihre Reaktion automatisch anpasst
    • Er sagte, es habe sich angefühlt, als sei die Zukunft schon da, nur noch nicht gleichmäßig verteilt