Mozilla Common Voice
(voice.mozilla.org)Eine Open-Source-Sprachdatenbank, die Daten in verschiedenen Sprachen sammelt und aufbereitet, um Spracherkennungstechnologie zu entwickeln, die jeder nutzen kann, und sie zugänglich zu machen.
Für Koreanisch fehlen derzeit noch viele Daten. Macht mit und helft uns, sie gemeinsam aufzubauen.
Die Sprachdatensätze, die die meisten Unternehmen erstellen, sind extern nur schwer nutzbar.
Deshalb sind offen erstellte Daten wichtig. Das gilt besonders für Koreanisch.
7 Kommentare
Im Bereich zum Festlegen des Ziels gibt es kein Koreanisch, deshalb kann ich nicht weitermachen..
Dann lag es also daran, dass es beim koreanischen Datensatz bislang weder eine lokalisierte Satz-Website noch genug Satzmaterial gibt.
Website-Übersetzung ins Koreanische: https://pontoon.mozilla.org/projects/common-voice/
Website zum Sammeln von Sätzen: https://common-voice.github.io/sentence-collector
Es scheint, dass erst nach Abschluss der Website-Übersetzung und dem Sammeln von mehr als 5.000 Sätzen die Erfassung und Validierung von Sprachaufnahmen möglich wird. Wer Interesse hat, ist herzlich zur Teilnahme eingeladen.
Ich habe denselben Kommentar geschrieben und dann wieder gelöscht, haha
https://discourse.mozilla.org/t/…
Hier wird es so erklärt.
Ach so … ja, genau, haha. Ich wollte es auch löschen, war dann aber irritiert, weil es keinen Löschen-Button gab.
Dazu gibt es wohl einige koreanische Korpora, aber wegen der Urheberrechtsfrage bin ich mir nicht sicher, ob man sie hochladen darf.
Ah, das Löschen eines Kommentars ist möglich, wenn Sie auf den Zeitlink neben der ID über dem Kommentar klicken; dann können Sie ihn auf der Kommentarseite löschen.
Es gibt auch das bereits zuvor veröffentlichte koreanische Open-Source-Spracherkennungsprojekt Zeroth, das Kaldi verwendet.
(Laut GitHub-Inhalt scheint das letzte Modell die Version von Juli 2018 zu sein.)
https://github.com/goodatlas/zeroth