Ich habe sowohl Whisper von OpenAI als auch Clova von NCP ausprobiert, aber die Unterscheidung mehrerer Sprecher im Koreanischen scheint deutlich schwieriger zu sein als erwartet.
Gibt es unter den von Ihnen verwendeten lokalen oder Cloud-basierten kommerziellen Modellen vielleicht welche, die Sie empfehlen würden?
Der geplante Prozess ist voraussichtlich folgender:
- Inhaltserfassung > Audiotrennung (Musik, Effekte und Stimme) > Analyse der Audio-Wellenform > Trennung mehrerer Sprecher innerhalb des Audios > STT auf Basis der getrennten Sprecher > Erstellung eines Transkripts auf Grundlage der Timecode-Informationen.
Je nach Ergebnis scheint auch eine Erweiterung bis hin zu Dubbing/Untertitelerstellung möglich zu sein.
Meine Bewertungskriterien sind die folgenden:
- Wie gut ist das Ergebnis der Audiotrennung?
- Ist es auf Audio-Basis möglich, die Stimme derselben Person zuverlässig wiederzuerkennen und zu unterscheiden?
Ich freue mich auf viele Einschätzungen!
5 Kommentare
Nach allem, was ich in letzter Zeit so ausprobiert habe, kommt Clova mit mehreren Sprechern gut zurecht.
Wenn eine angemessene Qualität ausreicht, ist auch ReturnZero, das oben empfohlen wurde, in Ordnung.
Selbst wenn die STT-Qualität etwas schwächer ist, liefert sie einigermaßen zufriedenstellende Ergebnisse, wenn man das Resultat an ein leistungsstarkes LLM weitergibt.
In meinem Fall war die Sprechererkennung nicht wichtig, deshalb habe ich mich für Gemini entschieden.
Da jede Lösung ihre Vor- und Nachteile hat, würde ich Ihnen letztlich empfehlen, einige Ihrer Daten zu sampeln und dann zu entscheiden.
https://developers.rtzr.ai/docs/stt-file/diarization/
Man kann nicht nur die Mehrsprecher-Erkennung allein nutzen, aber sie wird zusammen mit STT als API angeboten. (OpenAI oder Clova sind ähnlich)
Bei der Sprechertrennung schien Daglo ziemlich gut zu sein.
Oh! Ist das so?! Ist das eine Plattform? Ich suche eher nach einer Form, die mit einem lokalen LLM oder API-basiert funktioniert!
Ja, leider bietet Daglo keine lokalen LLMs an!
Es ist zwar kostenpflichtig, aber offenbar wird auch eine API bereitgestellt. (https://developers.daglo.ai/guide/)