8 Punkte von GN⁺ 2025-03-10 | 1 Kommentare | Auf WhatsApp teilen
  • Turn-Erkennung ist eine der wichtigsten Funktionen im Sprach-AI-Stack und bezeichnet die Technologie, die den Zeitpunkt bestimmt, zu dem ein Sprachagent antworten soll, wenn ein Mensch spricht
  • Die meisten Sprachagenten basieren auf VAD (Voice Activity Detection) und unterteilen Audio in Sprach- und Nicht-Sprach-Segmente, wodurch akustische und sprachliche Bedeutung nicht berücksichtigt werden
  • Menschen führen Turn-Erkennung anhand komplexer Signale wie Grammatik, Intonation und Sprechgeschwindigkeit durch
    • Ziel: Aufbau eines Modells, das menschlichen Erwartungen näher kommt als VAD-basierte Ansätze
  • Ein Community-getriebenes Entwicklungsprojekt für ein Open-Source-basiertes Audio-Turn-Erkennungsmodell
    • BSD-2-Clause-Lizenz → jede Person kann es nutzen, forken und dazu beitragen
    • Das Projekt begann im Pipecat-Ökosystem
    • Pipecat: Open-Source-, anbieterunabhängiges Sprach- und multimodales AI-Framework
  • Projektziele
    • Übergeordnete Ziele
      • Für alle leicht nutzbar
      • Einfach in Produktion bereitzustellen
      • Leicht für bestimmte Anwendungen feinabstimmbar
    • Aktuelle Modellgrenzen
      • Unterstützt nur Englisch
      • Relativ langsame Inferenzgeschwindigkeit: etwa 150 ms auf GPU, etwa 1500 ms auf CPU
      • Die Trainingsdaten konzentrieren sich hauptsächlich auf unvollständige Äußerungen (filler words), die am Ende von Segmenten auftreten
    • Mittelfristige Ziele
      • Unterstützung verschiedener Sprachen
      • Inferenzzeit: unter 50 ms auf GPU, unter 500 ms auf CPU
      • Berücksichtigung von Trainingsdaten mit breiter gefächerten sprachlichen Nuancen
      • Aufbau einer vollständig synthetischen Pipeline zur Datengenerierung
      • Unterstützung für textbasiertes Conditioning (z. B. Eingabe von Kreditkartennummern, Telefonnummern, Adressen)
  • Modellarchitektur
    • Basierend auf dem Wav2Vec2-BERT-Backbone von Meta AI (Anzahl der Parameter: 580M)
      • Verwendet 143 Sprachen und 4,5 Millionen Stunden unüberwachter Audio-Lerndaten
    • Aktuelle Modellstruktur:
      • Wav2Vec2-BERT → 2-Layer-Klassifikator (classification head)
      • Verwendet Wav2Vec2BertForSequenceClassification von Hugging Face
    • Architektur in laufenden Experimenten:
      • Es wird getestet, ob ein einfacher Klassifikator auch bei einer Erweiterung des Datensatzes effektiv bleibt
      • Die mögliche Einführung komplexerer Strukturen wird geprüft

1 Kommentare

 
GN⁺ 2025-03-10
Hacker-News-Kommentare
  • Ich habe pipecat schon benutzt und fand es gut. Bin dann aber zu sherpa-onnx gewechselt, das nativ kompiliert werden kann und auf Edge-Geräten läuft.

    • Wenn ich die Google-Übersetzer-App benutze, spreche ich oft längere Sätze und mache dann kurz Pause oder werde langsamer, deshalb vermeide ich den Konversationsmodus.
    • Dafür braucht man Turn Detection mit geringer Latenz, Erkennung von Sprachunterbrechungen und ein extrem schnelles Low-Latency-LLM.
    • Man braucht eine gute Recovery-Funktion, damit das System den letzten Satz fortsetzen kann, ohne das vorherige Audio zu verwerfen.
    • Um die I/O-Latenz zu verbessern, braucht man eine Audio-API mit geringer Latenz, sehr kurze Audiopuffer sowie eine dedizierte Audiokategorie und einen entsprechenden Modus.
    • Ich bin mir nicht sicher, ob man TTS im Streaming-Modus verwenden kann.
    • Ein gut umgesetztes Push-to-Talk könnte eine gute Lösung sein.
  • Heute gab es ein paar interessante Updates.

    • 100-ms-Inferenz mit CoreML
    • Ein LSTM-Modell, das auf einer Teilmenge der Daten trainiert wurde
  • Im README habe ich die meisten Antworten gefunden. Es ist gut geschrieben.

  • Ich frage mich, ob ihr die nötigen Ressourcen und den Umfang für das Fine-Tuning von Wav2Vec2-BERT teilen könnt.

  • Ich frage mich, was Turn Detection eigentlich ist.

  • Ich freue mich, dass sich diese Technologie weiterentwickelt.

    • Von den schlechtesten Sprachsystemen wie Siri bis zum Sprachmodus von ChatGPT: Computer können das nicht besonders gut.
    • Das könnte das größte Hindernis dafür sein, dass „Agenten“ einfache, aber nützliche Aufgaben ausführen.
    • Es gibt viele Situationen, in denen KI immer noch Schwierigkeiten hat, und solche Fehler zerstören entweder die Effizienz eines Gesprächs oder führen zu schwerwiegenden Funktionsfehlern.
  • Als jemand mit einer HF-Autismusdiagnose würde ich diese Technologie gern in einem Earpiece einsetzen.

  • Nachdem ich mir einige turnbasierte Modelle angesehen habe, wirken die Implementierungen sehr ähnlich. Ich bin gespannt, wie sich diese Technologie weiterentwickeln wird.

  • Ich hoffe, Vedal integriert diese Technologie in das Modell von Neuro-sama. Vom osu-Bot zum AI-VTuber.

  • Ich frage mich, ob mehrere Sprecher unterstützt werden.

  • Bin gerade dabei, einen Fork zu machen.