13 Punkte von xguru 2024-11-10 | 1 Kommentare | Auf WhatsApp teilen
  • Basierend auf SenseVoice, einem mehrsprachigen Sprachverständnismodell mit Funktionen wie Automatic Speech Recognition (ASR), Spoken Language Identification (LID), Speech Emotion Recognition (SER) und Audio Event Detection (AED)
  • Optimiert für extrem schnelle Inferenz und präzise Zeitstempel, sodass Audiotranskription intelligenter und schneller verarbeitet werden kann
  • Wichtige Optionen
    • --language: Sprache automatisch erkennen/festlegen (auto, zh, en, yue, ja, ko)
    • --textnorm: Auswählen, ob inverse Textnormalisierung angewendet wird (bei invers normalisiertem Text withitn, bei Rohtext woitn)
    • --device-id: Auf einer bestimmten GPU ausführen (Standardwert: -1 für CPU)
    • --quantize: Quantisiertes Modell für schnellere Verarbeitung verwenden

1 Kommentare

 
yangeok 2024-11-12

Da Koreanisch als Option dabei ist, würde ich es gern mal testen, haha.