WhisperX – Whisper-basiertes ASR mit verbesserter Zeitstempelgenauigkeit

xguru · 2022-12-31T10:49:01+09:00

OpenAI Whisper erzeugt sehr genaue Transkriptionen, aber die Zeitstempel liegen nicht auf Wortebene, sondern auf Äußerungsebene (Utterance) vor und sind daher um einige Sekunden ungenau Mithilfe von phonembasiertem ASR wie Wav2vec2.0 und Forced Alignment werden die Zeitstempel des Whisper-Modells verbessert Standardmäßig werden die Sprachen {en, fr, de, es, it, ja, zh, nl} unterstützt. Für weitere Sprachen müssen Modelle im Huggingface Model Hub gefunden und getestet werden

(github.com/m-bain)

5 Punkte von xguru 2022-12-31 | Noch keine Kommentare. | Auf WhatsApp teilen

OpenAI Whisper erzeugt sehr genaue Transkriptionen, aber die Zeitstempel liegen nicht auf Wortebene, sondern auf Äußerungsebene (Utterance) vor und sind daher um einige Sekunden ungenau
Mithilfe von phonembasiertem ASR wie Wav2vec2.0 und Forced Alignment werden die Zeitstempel des Whisper-Modells verbessert
Standardmäßig werden die Sprachen {en, fr, de, es, it, ja, zh, nl} unterstützt. Für weitere Sprachen müssen Modelle im Huggingface Model Hub gefunden und getestet werden

WhisperX – Whisper-basiertes ASR mit verbesserter Zeitstempelgenauigkeit

Verwandte Beiträge

Noch keine Kommentare.