- Basierend auf SenseVoice, einem mehrsprachigen Sprachverständnismodell mit Funktionen wie Automatic Speech Recognition (ASR), Spoken Language Identification (LID), Speech Emotion Recognition (SER) und Audio Event Detection (AED)
- Optimiert für extrem schnelle Inferenz und präzise Zeitstempel, sodass Audiotranskription intelligenter und schneller verarbeitet werden kann
- Wichtige Optionen
--language: Sprache automatisch erkennen/festlegen (auto, zh, en, yue, ja, ko)
--textnorm: Auswählen, ob inverse Textnormalisierung angewendet wird (bei invers normalisiertem Text withitn, bei Rohtext woitn)
--device-id: Auf einer bestimmten GPU ausführen (Standardwert: -1 für CPU)
--quantize: Quantisiertes Modell für schnellere Verarbeitung verwenden
1 Kommentare
Da Koreanisch als Option dabei ist, würde ich es gern mal testen, haha.