1 Punkte von GN⁺ 2023-12-08 | 1 Kommentare | Auf WhatsApp teilen

Einführung in das Mozilla-Common-Voice-Projekt

  • Mozilla Common Voice ist ein Projekt, das Maschinen dabei hilft zu lernen, wie echte Menschen sprechen.
  • Um Sprachtechnologie nutzbar zu machen, benötigen Entwickler riesige Mengen an Sprachdaten.
  • Die meisten dieser Daten werden von Großunternehmen genutzt und sind für die Mehrheit der Menschen nicht zugänglich, was nach Ansicht des Projekts Innovation hemmt.

Stand der Aufzeichnung und Validierung von Sprachdaten

  • Bisher wurden 29.000 Stunden Sprache aufgezeichnet, davon sind 18.000 Stunden validiert.

Unterstützung für viele verschiedene Sprachen

  • Das Common-Voice-Projekt unterstützt zahlreiche Sprachen auf der ganzen Welt, und Nutzer können in ihrer eigenen Sprache beitragen.

Unterstützung beim Aufbau hochwertiger offener Datensätze

  • Beiträge sind auch ohne Profil möglich, aber durch die Angabe anonymer demografischer Daten können die eingereichten Daten angereichert werden.
  • Profilinformationen verbessern die Qualität der Audiodaten, die zum Trainieren der Genauigkeit der Spracherkennung verwendet werden.
  • Nutzer können ihren Fortschritt und ihre Kennzahlen über mehrere Sprachen hinweg verfolgen.
  • Sie können ihren Fortschritt mit dem anderer Mitwirkender weltweit vergleichen.
  • Sie können den Fortschritt in Bezug auf persönliche und Projektziele prüfen.
  • Wer möchte, kann sich optional in eine E-Mail-Liste für Projekt-Updates und neue Informationen eintragen.

Meinung von GN⁺

Der wichtigste Punkt dieses Artikels ist, dass Mozilla das Common-Voice-Projekt gestartet hat, um Entwicklern, die Spracherkennungstechnologie entwickeln möchten, die dafür nötigen umfangreichen Sprachdaten bereitzustellen. Das Projekt zeigt Mozillas Bemühungen, technologische Innovation zu fördern, und bietet durch die Unterstützung vieler verschiedener Sprachen weltweit zahlreichen Menschen die Möglichkeit, zum technischen Fortschritt beizutragen. Das spiegelt Mozillas Philosophie der Demokratisierung von Technologie wider und dürfte für viele Menschen eine interessante und attraktive Initiative sein.

1 Kommentare

 
GN⁺ 2023-12-08
Hacker-News-Kommentare
    • FFs TTS ist ein wichtiges Projekt für Menschen, die ein einfach zu nutzendes Text-to-Speech-System wollen. Es ist in den Browser integriert, sodass man in der Konsole einfachen Code ausführen und verschiedene TTS-Beispiele anhören kann. Einige Browser unterstützen das auch offline, während andere Cloud-basierte TTS-Systeme verwenden.
    • Common Voice Android ist eine nützliche App für Menschen, die zu dem Projekt beitragen möchten. Nutzer können Sprache in den Sprachen aufnehmen, die sie sprechen, und die Beiträge anderer Nutzer verifizieren. Das Design ist benutzerfreundlicher als die Version auf der offiziellen Website.
    • Ein Crowdsourcing-Datensatz könnte die einzige Möglichkeit sein, Basismodelle zu bauen, falls Gerichte entscheiden, dass das Verhalten von Unternehmen wie OpenAI nicht unter Fair Use fällt. Ich halte ein solches Szenario nicht für unwahrscheinlich.
    • Dieser Datensatz ist deutlich kleiner als die, auf denen aktuelle Sprachmodelle trainiert wurden, aber er ist eher für überwachtes Lernen als für Self-Supervised Learning gedacht und weiterhin nützlich für Fine-Tuning, um die Leistung von Modellen für bestimmte Sprachen zu verbessern.
    • Angesichts der jüngsten Vorfälle rund um KI und Deepfake-Technologie bräuchte ich gewisse Garantien, bevor ich zustimme, meine Stimme an ein Projekt wie dieses zu spenden. Es ist nicht klar, ob das Projekt für Spracherkennung oder für Generierung gedacht ist.
    • Ich frage mich, ob Mozilla jemals zugehörige Speech-to-Text-Software eingestellt oder an ein anderes Unternehmen übertragen hat. Oder war das etwas anderes?
    • Warum ist die Text-to-Speech-Funktion im Lesemodus von Firefox unter Linux so schlecht? Viel schlechter als Stephen Hawkings Text-to-Speech.
    • Ich hatte gehofft, dass OpenAI wirklich offen sein würde, aber inzwischen ist es zu einer Marionette von Microsoft geworden und verfolgt Ziele des Unternehmensgewinns. Projekte wie dieses und HuggingFace sind schön zu sehen, und ich hoffe, dass HuggingFace nicht wie GitHub von Microsoft übernommen wird.
    • Wie viele Leute hier haben eine andere „Vorlesestimme“ als ihre normale Sprechstimme? Wenn der Großteil der Trainingsdaten wie „abgelesen“ klingt, kann man dann Konversationsmodelle trainieren?
    • Es werden verwandte Nachrichtenlinks bereitgestellt, die Informationen über den Fortschritt des Mozilla-Common-Voice-Projekts und die Erweiterung des Sprachdatensatzes liefern.