WhisperX – Whisper-basiertes ASR mit verbesserter Zeitstempelgenauigkeit
(github.com/m-bain)- OpenAI Whisper erzeugt sehr genaue Transkriptionen, aber die Zeitstempel liegen nicht auf Wortebene, sondern auf Äußerungsebene (Utterance) vor und sind daher um einige Sekunden ungenau
- Mithilfe von phonembasiertem ASR wie Wav2vec2.0 und Forced Alignment werden die Zeitstempel des Whisper-Modells verbessert
- Standardmäßig werden die Sprachen {en, fr, de, es, it, ja, zh, nl} unterstützt. Für weitere Sprachen müssen Modelle im Huggingface Model Hub gefunden und getestet werden
Noch keine Kommentare.