Googles Universal Speech Model – ein Modell für Spracherkennung in allen Sprachen
(sites.research.google)- Ein Modell mit 2 Milliarden Parametern, trainiert mit 12 Millionen Stunden Sprache, 28 Milliarden Sätzen und 300 Sprachen
- Kann Spracherkennung für alles leisten – von weit verbreiteten bis hin zu selten genutzten Sprachen
- Auch für Sprachen mit weniger als 20 Millionen Sprechern, für die sich nur schwer Trainingsdaten finden lassen
- Die Auswertung mit YouTube-Videos zeigt, dass die Wortfehlerrate niedriger ist als bei Whisper (OpenAI)
1 Kommentare
Whisper – ein mehrsprachiges Spracherkennungssystem (ASR), das OpenAI als Open Source veröffentlicht hat
OpenAI veröffentlicht das Modell Whisper v2
Die Leistung soll zwar gut sein, aber es wurden nur das Paper und die API veröffentlicht. Das als Open Source veröffentlichte Whisper scheint daher bisher noch praktischer einsetzbar zu sein.