wav2vec-U: Hochleistungs-Spracherkennung ohne Supervision
(ai.facebook.com)-
Ein vom Facebook-AI-Team entwickeltes Spracherkennungs-Framework
-
Unterstützt die Erkennung verschiedener Sprachen ohne transkribierte Sprachdaten
→ Ähnliche Leistung wie überwachtes Lernen mit Modellen, die mit etwa 1000 Stunden Sprachmaterial trainiert wurden
→ Getestet mit Sprachen wie Swahili und Tatarisch, für die nur wenige transkribierte Sprachdaten vorhanden sind
- Lernt die Struktur von nicht gelabeltem Audio
→ Sprachaufnahmen werden in Spracheinheiten aufgeteilt, die jeweils locker einzelnen Lauten entsprechen
→ cat enthält die drei Laute "/K/", "/AE/" und "/T/"
→ Training als GAN, bestehend aus Generator und Discriminator
- Code und Paper veröffentlicht
Noch keine Kommentare.