- Die im vergangenen November gestartete „1.000-Sprachen-Initiative“ (Erstellung eines Machine-Learning-Modells, das 1.000 Sprachen unterstützt) läuft weiter
- USM wird derzeit mit 2B (2 Milliarden) Parametern, mehr als 300 Sprachen, 12 Millionen Stunden Sprachdaten und 28 Milliarden Sätzen trainiert
- Wird auf YouTube zur Erstellung von Untertiteln verwendet. Unterstützt nicht nur Englisch/Chinesisch, sondern auch Sprachen wie Amharisch, Cebuano, Assamesisch und Aserbaidschanisch
- Zwei wichtige Aufgaben zur Erreichung des Ziels
- Bestehende Verfahren des überwachten Lernens sind nicht ausreichend skalierbar
- Modelle effizient erzeugen, um die Zahl der unterstützten Sprachen zu erhöhen
- Ansatz: Self-supervised learning with fine-tuning (selbstüberwachtes Lernen mit Fine-Tuning)
- Paper und API veröffentlicht (Bewerbung nur für Forschende möglich)
1 Kommentare
Ich denke, das ist eine gute Technologie, mit der auch künftige Generationen vom Aussterben bedrohte Sprachen und Dialekte weiter nutzen können.