Mozilla Common Voice, eine community-basierte Plattform für Sprachdatensätze

(commonvoice.mozilla.org)

1 Punkte von GN⁺ 2023-12-08 | 1 Kommentare | Auf WhatsApp teilen

Mozilla Common Voice ist eine kostenlose Open-Source-Plattform, auf der Communities direkt Text- und Sprachdatensätze erstellen und teilen können, damit Sprachtechnologie in mehr Sprachen nutzbar wird
Mitwirkende können durch das Vorlesen von Sätzen, die Validierung von Aufnahmen, das Beantworten von Fragen, die Transkription von Sprache und das Hinzufügen von Text zu Daten für Scripted Speech, Spontaneous Speech und Language Text beitragen
Die Plattform unterstützt Communities in mehr als 290 Sprachen, öffentliche Sprachdatensätze stehen in mehr als 130 Sprachen bereit
Die Datensätze können für ASR, STT, TTS und andere NLP-Anwendungen genutzt werden; neue Releases lassen sich über Mozilla Data Collective herunterladen
Mitglieder von Mozilla Data Collective erhalten Zugriff auf mehr als 500 globale Datensätze, die von Communities erstellt und genutzt werden, wodurch sich der Schwerpunkt der Beschaffung und des Teilens von Sprachdaten dorthin verlagert

Was Common Voice lösen will

Mozilla Common Voice ist eine communitygetriebene Plattform zur Datenerstellung
Jede Person kann Text- und Sprachdatensätze teilen, erstellen und kuratieren, um die eigene Sprache zu bewahren, wiederzubeleben und auszubauen
Das Ziel ist, dass KI nicht nur für einige wenige Sprachen funktioniert, sondern dass Menschen die benötigten Sprachdatensätze selbst erstellen können
Common Voice wird von Communities auf der ganzen Welt betrieben und wächst auf mehr als 290 Sprachen

Wege zur Mitwirkung und Nutzung der Datensätze

Scripted Speech
- Nutzer können durch Sätze vorlesen Sprachdaten ihrer eigenen Sprache zu einem offen zugänglichen Beteiligungsdatensatz beitragen
- Andere Nutzer können die Aufnahmen unter Validate Readings validieren
Spontaneous Speech
- Nutzer beantworten Prompts und erstellen so Datensätze mit natürlichem und umgangssprachlichem Kontext
- Dies kann auf eine Weise genutzt werden, die besonders für mündlich geprägte Sprachen geeignet ist
- Über Transcribe answers und Review-Funktionen kann man an der Transkription mitwirken
Language Text
- Es können gemeinfreie Prompts, Sätze und Texte erstellt oder geteilt werden
- Sie können für Übersetzung, kleine Sprachmodelle und andere Zwecke verwendet werden
- Neue Releases werden über Mozilla Data Collective bereitgestellt; mit einer Mitgliedschaft erhält man Zugriff auf mehr als 500 globale Datensätze
- Unter Explore datasets lassen sich öffentliche Sprachdatensätze in mehr als 130 Sprachen ansehen, die für ASR, STT, TTS und andere NLP-Kontexte genutzt werden
- Partner werden in Zivilgesellschaft und Forschende, Technologieunternehmen sowie gemeinnützige Organisationen unterteilt
- Zivilgesellschaft und Forschende können wirkungsstarke Datensätze kostenlos erstellen, hosten und teilen
- Technologieunternehmen können in die Erstellung offener Datensätze für ein mehrsprachiges KI-Ökosystem investieren
- Gemeinnützige Organisationen können die Erstellung von Datensätzen für lokale Innovation und Entwicklung fördern

1 Kommentare

GN⁺ 2023-12-08

Meinungen auf Hacker News

Firefox’ TTS ist ein wichtiges Projekt für alle, die ein einfach nutzbares Text-to-Speech-System brauchen.
Da es im Browser integriert ist, kann man window.speechSynthesis und SpeechSynthesisUtterance in der Konsole ausführen und sich sofort mehrere Stimmbeispiele anhören.
Je nach Browser funktioniert es auch offline oder nutzt Cloud-basiertes TTS.
- Unter macOS geht das mit say "enter text here"; eine andere Stimme wählt man mit say -v Fred "enter text here", die Liste der Stimmen sieht man mit say -v "?".
  Die Anführungszeichen sind nötig, damit ? in ZSH nicht als Glob interpretiert wird.
  Auch wenn Firefox’ TTS wichtig ist: Bis zu diesem Kommentar wusste ich nicht einmal, dass es existiert. Solche Funktionen sollten leichter auffindbar sein und eine besser zugängliche API haben.
- speechSynthesis scheint nicht nur in Firefox, sondern in allen großen Browsern unterstützt zu werden: https://developer.mozilla.org/en-US/docs/Web/API/Window/spee...
- Ich habe vor ein paar Tagen Common Voice ausprobiert, und die Beispielseiten für Communitys, die eine bestimmte Sprache unterstützen wollen, fand ich gut.
  Ich war ohnehin gerade der Meinung, dass Firefox sehr schnell ist und sich eine Rückkehr lohnt; und wer einen unabhängigen Browser wichtig findet, der Privatsphäre, Sicherheit und Unabhängigkeit betont, für den lohnt es sich auch, Firefox auszuprobieren, selbst wenn man sonst schnell mal den Browser wechselt.
  Ich bin zufrieden, dass ich wieder ein paar Firefox-Erweiterungen nutzen kann, die in Chrome-basierten Browsern nicht genauso funktionierten.
- Beim Debugging habe ich wichtige Meldungen, die man nicht verpassen sollte, zusätzlich zu stderr über die kostenlosen TTS-Stimmen von Windows per PowerShell ausgeben lassen oder sie in Chrome per WebSocket aufrufen lassen; das war ziemlich unterhaltsam.
  Mehr auswählbare Stimmen zu haben, ist gut.
- Ich frage mich, ob das je als eigenständige Bibliothek ausgekoppelt wurde.
  Der Zustand von Open-Source-TTS wirkt nicht besonders gut, und die Daten für eine einzige Stimme scheinen schwerer zusammenzustellen zu sein als das Training eines Spracherkennungssystems wie Whisper.
Common Voice Android ist ebenfalls empfehlenswert: https://github.com/Sav22999/common-voice-android
Es ist eine praktische App für alle, die zum Projekt beitragen möchten; man kann Aufnahmen in Sprachen machen, die man spricht, oder Beiträge anderer Nutzer validieren.
Vor etwa zwei Jahren habe ich häufig beigetragen, und das Design war deutlich angenehmer zu benutzen als die offizielle Website.
Es gibt auch einen offiziellen Matrix-Kanal zu Common Voice: https://chat.mozilla.org/#/room/#common-voice:mozilla.org
Angesichts der jüngsten Entwicklungen bei KI und Deepfakes bräuchte ich eine gewisse Garantie, bevor ich an so einem Ort „meine Stimme spende“.
Dieses Projekt scheint für Spracherkennung gedacht zu sein, nicht für Sprachsynthese, aber auf den ersten Blick ist das nicht klar.
- Ich weiß nicht, ob „Garantie“ das richtige Wort ist, aber im Umfeld von Machine Learning und generativen Modellen wirkt der Respekt vor dem Eigentum anderer ziemlich locker, und die Formulierung „spende deine Stimme“ hat mich gestört.
  Mozilla ist vermutlich die passende Organisation dafür, aber ihr Hauptprodukt ist im Niedergang, und wenn die Organisation verschwindet, weiß man nicht, was mit diesen Daten passiert.
  Sterbende Organisationen werden oft stückweise verkauft, und diese Daten könnten geistiges Eigentum sein, an dem viele Unternehmen mit deutlich weniger edlen Absichten Interesse hätten.
- Ich frage mich, welche Art von Garantie du sehen möchtest.
Solche Crowdsourcing-Datensätze und die vom OpenAssistant-Projekt erstellten Datensätze könnten fast der einzige Weg werden, Foundation Models zu bauen, falls Gerichte entscheiden, dass das Vorgehen von Unternehmen wie OpenAI keine Fair Use ist.
Ich halte ein solches Szenario auch nicht für besonders unwahrscheinlich.
Dieser Datensatz ist um mehrere Größenordnungen kleiner als die Daten, mit denen aktuelle Sprachmodelle wie Whisper oder Seamless trainiert wurden, und er ist für überwachtes Lernen gedacht, nicht für selbstüberwachtes Lernen mit reichhaltigeren Daten. Trotzdem kann er nützlich sein.
Man kann ihn verwenden, um bestehende Modelle so feinzujustieren, dass sie in bestimmten Sprachen bessere Werte erreichen.
Ich meine, Mozilla hatte früher auch eine zugehörige Spracherkennungssoftware, die eingestellt oder an ein anderes Unternehmen übertragen wurde.
- Meinst du DeepSpeech? https://github.com/mozilla/DeepSpeech
- Das hier ist ein öffentlicher Datensatz mit Sprachsamples zum Trainieren von Modellen, also streng genommen keine Spracherkennungs- oder TTS-Software.
Großartig.
Eines der Dinge, die ich mir von OpenAI erhofft hatte, war, dass es eine wirklich offene Organisation wird.
Ich hatte auf offene Datensätze, offenen Code, offene Modelle und offene Evaluationen gehofft, aber inzwischen ist es zu einer Marionette von Microsoft geworden, die sich nach Unternehmensgewinnzielen richtet.
Solche Projekte und HuggingFace sind schön zu sehen, und ich hoffe, dass HuggingFace nicht wie GitHub von Microsoft übernommen wird.
Dann frage ich mich, warum text2speech im Lesemodus von Firefox unter Linux so miserabel ist.
Der Lesemodus selbst ist hervorragend, aber die Sprachqualität ist deutlich schlechter als Stephen Hawkings Text-to-Speech.
Zugehörige HN-Beiträge:
Mozilla Common Voice Adds 16 New Languages and 4,600 New Hours of Speech - https://news.ycombinator.com/item?id=28073016 - August 2021, 170 Kommentare
Firefox Voice - https://news.ycombinator.com/item?id=24096082 - August 2020, 154 Kommentare
Firefox Voice: Browse the web with your voice - https://news.ycombinator.com/item?id=23902560 - Juli 2020, 2 Kommentare
Mozilla Common Voice Dataset: More data, more languages - https://news.ycombinator.com/item?id=23695377 - Juni 2020, 41 Kommentare
The Common Voice Project by Mozilla reached its first goal: 1k hours in englisch - https://news.ycombinator.com/item?id=23051756 - Mai 2020, 1 Kommentar
Common Voice: A Massively-Multilingual Speech Corpus - https://news.ycombinator.com/item?id=21887693 - Dezember 2019, 9 Kommentare
Common Voice – Mozilla's initiative to help teach machines how real people speak - https://news.ycombinator.com/item?id=21268579 - Oktober 2019, 49 Kommentare
Mozilla releases the largest to-date public domain transcribed voice dataset - https://news.ycombinator.com/item?id=19270646 - Februar 2019, 61 Kommentare
Mozilla Overhauls Speech-To-Text Contribution Interface - https://news.ycombinator.com/item?id=17436958 - Juli 2018, 42 Kommentare
Initial Release of Mozilla’s Open Source Speech Recognition Model and Voice Data - https://news.ycombinator.com/item?id=15808124 - November 2017, 88 Kommentare
Project Common Voice - https://news.ycombinator.com/item?id=14794654 - Juli 2017, 57 Kommentare
Mozilla: Project Common Voice - https://news.ycombinator.com/item?id=14786881 - Juli 2017, 1 Kommentar
Ich frage mich, bei wie vielen Menschen sich die Stimme im normalen Gespräch von ihrer Vorlesestimme unterscheidet
Wenn ein erheblicher Teil der Trainingsdaten aus „vom Skript abgelesener“ Sprache besteht, können dann auch dialogorientierte Modelle richtig trainiert werden?
- Als das Mozilla-Common-Voice-Team vor dem Start um Feedback bat, habe ich dieses Problem angesprochen und einen anderen Ansatz vorgeschlagen, bei dem Gesprächssprachdaten gesammelt werden, aber er wurde nicht übernommen
  Der Glaube, dass viele, aber grobe Daten besser seien als wenige Daten, die zum tatsächlich zu lösenden Problem passen, ist ziemlich weit verbreitet

Mozilla Common Voice, eine community-basierte Plattform für Sprachdatensätze

Was Common Voice lösen will

Wege zur Mitwirkung und Nutzung der Datensätze

Scripted Speech

Spontaneous Speech

Language Text

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News