5 Punkte von xguru 2022-12-31 | Noch keine Kommentare. | Auf WhatsApp teilen
  • OpenAI Whisper erzeugt sehr genaue Transkriptionen, aber die Zeitstempel liegen nicht auf Wortebene, sondern auf Äußerungsebene (Utterance) vor und sind daher um einige Sekunden ungenau
  • Mithilfe von phonembasiertem ASR wie Wav2vec2.0 und Forced Alignment werden die Zeitstempel des Whisper-Modells verbessert
  • Standardmäßig werden die Sprachen {en, fr, de, es, it, ja, zh, nl} unterstützt. Für weitere Sprachen müssen Modelle im Huggingface Model Hub gefunden und getestet werden

Noch keine Kommentare.

Noch keine Kommentare.