Smart-turn – Open-Source-Modell zur Audio-Turn-Erkennung

(github.com/pipecat-ai)

8 Punkte von GN⁺ 2025-03-10 | 1 Kommentare | Auf WhatsApp teilen

Turn-Erkennung ist eine der wichtigsten Funktionen im Sprach-AI-Stack und bezeichnet die Technologie, die den Zeitpunkt bestimmt, zu dem ein Sprachagent antworten soll, wenn ein Mensch spricht
Die meisten Sprachagenten basieren auf VAD (Voice Activity Detection) und unterteilen Audio in Sprach- und Nicht-Sprach-Segmente, wodurch akustische und sprachliche Bedeutung nicht berücksichtigt werden
Menschen führen Turn-Erkennung anhand komplexer Signale wie Grammatik, Intonation und Sprechgeschwindigkeit durch
- Ziel: Aufbau eines Modells, das menschlichen Erwartungen näher kommt als VAD-basierte Ansätze
Ein Community-getriebenes Entwicklungsprojekt für ein Open-Source-basiertes Audio-Turn-Erkennungsmodell
- BSD-2-Clause-Lizenz → jede Person kann es nutzen, forken und dazu beitragen
- Das Projekt begann im Pipecat-Ökosystem
- Pipecat: Open-Source-, anbieterunabhängiges Sprach- und multimodales AI-Framework
Projektziele
- Übergeordnete Ziele
  - Für alle leicht nutzbar
  - Einfach in Produktion bereitzustellen
  - Leicht für bestimmte Anwendungen feinabstimmbar
- Aktuelle Modellgrenzen
  - Unterstützt nur Englisch
  - Relativ langsame Inferenzgeschwindigkeit: etwa 150 ms auf GPU, etwa 1500 ms auf CPU
  - Die Trainingsdaten konzentrieren sich hauptsächlich auf unvollständige Äußerungen (filler words), die am Ende von Segmenten auftreten
- Mittelfristige Ziele
  - Unterstützung verschiedener Sprachen
  - Inferenzzeit: unter 50 ms auf GPU, unter 500 ms auf CPU
  - Berücksichtigung von Trainingsdaten mit breiter gefächerten sprachlichen Nuancen
  - Aufbau einer vollständig synthetischen Pipeline zur Datengenerierung
  - Unterstützung für textbasiertes Conditioning (z. B. Eingabe von Kreditkartennummern, Telefonnummern, Adressen)
Modellarchitektur
- Basierend auf dem Wav2Vec2-BERT-Backbone von Meta AI (Anzahl der Parameter: 580M)
  - Verwendet 143 Sprachen und 4,5 Millionen Stunden unüberwachter Audio-Lerndaten
- Aktuelle Modellstruktur:
  - Wav2Vec2-BERT → 2-Layer-Klassifikator (classification head)
  - Verwendet Wav2Vec2BertForSequenceClassification von Hugging Face
- Architektur in laufenden Experimenten:
  - Es wird getestet, ob ein einfacher Klassifikator auch bei einer Erweiterung des Datensatzes effektiv bleibt
  - Die mögliche Einführung komplexerer Strukturen wird geprüft

1 Kommentare

GN⁺ 2025-03-10

Hacker-News-Kommentare

Ich habe pipecat schon benutzt und fand es gut. Bin dann aber zu sherpa-onnx gewechselt, das nativ kompiliert werden kann und auf Edge-Geräten läuft.
- Wenn ich die Google-Übersetzer-App benutze, spreche ich oft längere Sätze und mache dann kurz Pause oder werde langsamer, deshalb vermeide ich den Konversationsmodus.
- Dafür braucht man Turn Detection mit geringer Latenz, Erkennung von Sprachunterbrechungen und ein extrem schnelles Low-Latency-LLM.
- Man braucht eine gute Recovery-Funktion, damit das System den letzten Satz fortsetzen kann, ohne das vorherige Audio zu verwerfen.
- Um die I/O-Latenz zu verbessern, braucht man eine Audio-API mit geringer Latenz, sehr kurze Audiopuffer sowie eine dedizierte Audiokategorie und einen entsprechenden Modus.
- Ich bin mir nicht sicher, ob man TTS im Streaming-Modus verwenden kann.
- Ein gut umgesetztes Push-to-Talk könnte eine gute Lösung sein.
Heute gab es ein paar interessante Updates.
- 100-ms-Inferenz mit CoreML
- Ein LSTM-Modell, das auf einer Teilmenge der Daten trainiert wurde
Im README habe ich die meisten Antworten gefunden. Es ist gut geschrieben.
Ich frage mich, ob ihr die nötigen Ressourcen und den Umfang für das Fine-Tuning von Wav2Vec2-BERT teilen könnt.
Ich frage mich, was Turn Detection eigentlich ist.
Ich freue mich, dass sich diese Technologie weiterentwickelt.
- Von den schlechtesten Sprachsystemen wie Siri bis zum Sprachmodus von ChatGPT: Computer können das nicht besonders gut.
- Das könnte das größte Hindernis dafür sein, dass „Agenten“ einfache, aber nützliche Aufgaben ausführen.
- Es gibt viele Situationen, in denen KI immer noch Schwierigkeiten hat, und solche Fehler zerstören entweder die Effizienz eines Gesprächs oder führen zu schwerwiegenden Funktionsfehlern.
Als jemand mit einer HF-Autismusdiagnose würde ich diese Technologie gern in einem Earpiece einsetzen.
Nachdem ich mir einige turnbasierte Modelle angesehen habe, wirken die Implementierungen sehr ähnlich. Ich bin gespannt, wie sich diese Technologie weiterentwickeln wird.
Ich hoffe, Vedal integriert diese Technologie in das Modell von Neuro-sama. Vom osu-Bot zum AI-VTuber.
Ich frage mich, ob mehrere Sprecher unterstützt werden.
Bin gerade dabei, einen Fork zu machen.

Smart-turn – Open-Source-Modell zur Audio-Turn-Erkennung

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare