- Turn-Erkennung ist eine der wichtigsten Funktionen im Sprach-AI-Stack und bezeichnet die Technologie, die den Zeitpunkt bestimmt, zu dem ein Sprachagent antworten soll, wenn ein Mensch spricht
- Die meisten Sprachagenten basieren auf VAD (Voice Activity Detection) und unterteilen Audio in Sprach- und Nicht-Sprach-Segmente, wodurch akustische und sprachliche Bedeutung nicht berücksichtigt werden
- Menschen führen Turn-Erkennung anhand komplexer Signale wie Grammatik, Intonation und Sprechgeschwindigkeit durch
- Ziel: Aufbau eines Modells, das menschlichen Erwartungen näher kommt als VAD-basierte Ansätze
- Ein Community-getriebenes Entwicklungsprojekt für ein Open-Source-basiertes Audio-Turn-Erkennungsmodell
- BSD-2-Clause-Lizenz → jede Person kann es nutzen, forken und dazu beitragen
- Das Projekt begann im Pipecat-Ökosystem
- Pipecat: Open-Source-, anbieterunabhängiges Sprach- und multimodales AI-Framework
- Projektziele
- Übergeordnete Ziele
- Für alle leicht nutzbar
- Einfach in Produktion bereitzustellen
- Leicht für bestimmte Anwendungen feinabstimmbar
- Aktuelle Modellgrenzen
- Unterstützt nur Englisch
- Relativ langsame Inferenzgeschwindigkeit: etwa 150 ms auf GPU, etwa 1500 ms auf CPU
- Die Trainingsdaten konzentrieren sich hauptsächlich auf unvollständige Äußerungen (filler words), die am Ende von Segmenten auftreten
- Mittelfristige Ziele
- Unterstützung verschiedener Sprachen
- Inferenzzeit: unter 50 ms auf GPU, unter 500 ms auf CPU
- Berücksichtigung von Trainingsdaten mit breiter gefächerten sprachlichen Nuancen
- Aufbau einer vollständig synthetischen Pipeline zur Datengenerierung
- Unterstützung für textbasiertes Conditioning (z. B. Eingabe von Kreditkartennummern, Telefonnummern, Adressen)
- Modellarchitektur
- Basierend auf dem Wav2Vec2-BERT-Backbone von Meta AI (Anzahl der Parameter: 580M)
- Verwendet 143 Sprachen und 4,5 Millionen Stunden unüberwachter Audio-Lerndaten
- Aktuelle Modellstruktur:
- Wav2Vec2-BERT → 2-Layer-Klassifikator (
classification head)
- Verwendet
Wav2Vec2BertForSequenceClassification von Hugging Face
- Architektur in laufenden Experimenten:
- Es wird getestet, ob ein einfacher Klassifikator auch bei einer Erweiterung des Datensatzes effektiv bleibt
- Die mögliche Einführung komplexerer Strukturen wird geprüft
1 Kommentare
Hacker-News-Kommentare
Ich habe
pipecatschon benutzt und fand es gut. Bin dann aber zusherpa-onnxgewechselt, das nativ kompiliert werden kann und auf Edge-Geräten läuft.Heute gab es ein paar interessante Updates.
Im README habe ich die meisten Antworten gefunden. Es ist gut geschrieben.
Ich frage mich, ob ihr die nötigen Ressourcen und den Umfang für das Fine-Tuning von Wav2Vec2-BERT teilen könnt.
Ich frage mich, was Turn Detection eigentlich ist.
Ich freue mich, dass sich diese Technologie weiterentwickelt.
Als jemand mit einer HF-Autismusdiagnose würde ich diese Technologie gern in einem Earpiece einsetzen.
Nachdem ich mir einige turnbasierte Modelle angesehen habe, wirken die Implementierungen sehr ähnlich. Ich bin gespannt, wie sich diese Technologie weiterentwickeln wird.
Ich hoffe, Vedal integriert diese Technologie in das Modell von Neuro-sama. Vom osu-Bot zum AI-VTuber.
Ich frage mich, ob mehrere Sprecher unterstützt werden.
Bin gerade dabei, einen Fork zu machen.