Ich hatte neulich eine Frage zu koreanischen Multi-Speaker-Themen gepostet – hier ist ein Update zum weiteren Verlauf!

3 Punkte von somang04 2026-05-28 | 5 Kommentare | Auf WhatsApp teilen

Ich weiß nicht, ob das wirklich zu ASK GN passt..! Aber da es wohl weder News noch Show ist, poste ich es hier.

Ich bastele auf Grundlage der Meinungen, die ihr mir neulich gegeben habt, weiter daran.
Zufällig hatte auch ein befreundeter Business-Verantwortlicher, mit dem ich zusammenarbeite, eine ähnliche Idee, also kämpfen wir zwei Nicht-Entwickler uns gerade an einem MVP ab.
(Claude Code 5X und die API-Kosten zahlen wir komplett aus eigener Tasche.. der Business-Freund versorgt mich dafür mit Alkohol und Essen.. haha)

Da wir es auf Basis von Inhalten wie Dramen, Variety-Shows und Filmen entwickeln, sind die nutzbaren Modelle ziemlich eingeschränkt.
Nach langem Suchen verwenden wir deshalb Whisper (Open AI API), Pyannote und Assembly AI.

Bei pyannote ist die kostenlose Phase vorbei und man müsste zahlen, aber da es keine nutzungsbasierte Abrechnung ist, sondern ein Abo ($19/month), haben wir das übersprungen.
Stattdessen testen wir gerade mit Deepgram Nova-3. (Bei der Registrierung bekommt man $200.)

Aber.. wie erwartet ist die Sprechertrennung ohne pyannote schwierig, deshalb nutzen wir für die Speaker-Diarization auf replicate.com meronym/speaker-diarization.

Wenn man sich das Endergebnis ansieht, funktioniert die Sprechertrennung insgesamt trotzdem einigermaßen.
Ich plane, es mit Clova zu vergleichen, und werde auch die Vergleichsergebnisse teilen!

Mein nächstes Thema zum Grübeln ist jetzt:

Die Sprechertrennung läuft audio-basiert – würde sie präziser werden, wenn man zusätzlich Gesichtserkennung einbaut?
Wie sollte man die für Gesichtserkennung nötigen Metadaten sammeln?
Wenn man auf Inhalten wie Dramen/Filmen/Variety-Shows basiert, woher bekommt man dann die Metadaten? (Naver, Namuwiki usw.)
Verbessert das Sammeln von Metadaten die Qualität genug im Verhältnis zu Kosten und Zeit?

Falls es hier erfahrenere Leute gibt, die sich mit so etwas schon beschäftigt haben, würde ich mich sehr über viele Ratschläge freuen...!!!

5 Kommentare

boradi 2026-05-29

Ich habe schon einmal zu Speaker Diarization geforscht, daher kann ich dazu sagen, was ich weiß.

Ja, es wird präziser. Technisch dürfte es aber ziemlich anspruchsvoll sein. Schließlich muss man dabei sogar Veränderungen der Mundbewegungen mit der Sprachsynchronisation abgleichen. Es gibt viele relevante Open-Source-Projekte wie TalkNet-ASD oder 3D-Speaker-Toolkit, an denen Sie sich gut orientieren können. In letzter Zeit gibt es außerdem Studien wie SpeakerLM, die in Kombination mit LLMs Bild und Video gemeinsam als Input nutzen, um Speaker Diarization und Untertitelerstellung gleichzeitig zu ermöglichen.
Den geschäftlichen Kontext des Verfassers kenne ich nicht genau, daher kann ich nur auf Basis der geschriebenen Informationen antworten: Gesichter in Inhalten wie Dramen, Filmen oder Variety-Shows werden selbst bei derselben Person je nach Maske oder Situation sehr unterschiedlich extrahiert. Deshalb müssen Sie für jeden Inhalt zunächst alle auftretenden Gesichter erfassen, sie gesichtsweise clustern und dann 1:1 mit dem Cast des jeweiligen Inhalts abgleichen. Das lässt sich zwar auch mit einem multimodalen Modell machen, aber für eine hohe Genauigkeit ist menschliches Labeling nötig, weshalb viel Zeit und Kosten anfallen. Das ist auch ein Grund, warum man dafür bezahlte Hilfskräfte einsetzt. Zur Info: Selbst wenn nur Audio vorhanden ist, verbessert sich die Qualität der Speaker Diarization deutlich, wenn man diese Audiodaten vorab extrahiert, von Menschen labeln lässt und als Embeddings aufbereitet.
Für die Datenbank solcher Inhalte gibt es viele passende APIs wie tmdb, imdb oder kmdb, über die grundsätzlich jeder in gewissem Umfang Daten beziehen kann, egal ob kostenlos oder kostenpflichtig. Die eigentliche Datenbankisierung müssen Sie dann selbst übernehmen. Crawling ist ebenfalls eine mögliche Methode.
Ich weiß zwar nicht, was genau Sie vorhaben, aber das, was ich oben beschrieben habe, klingt leichter, als es in der Praxis ist. Um die Genauigkeit wirklich zu erhöhen, braucht man viel Zeit und Geld. Auch meine damaligen Forschungsprojekte haben sich aus verschiedenen Gründen ziemlich in die Länge gezogen. Eine Genauigkeit von 80 bis 90 % zu erreichen, ist vergleichsweise einfach und etwas, das viele schaffen können. Deshalb ist das Auffüllen der verbleibenden 10 % an Details das eigentliche Wesen der Kommerzialisierung und der zentrale Wert. Wenn Sie fragen, ob sich die Qualität verbessert, dann natürlich ja. Wenn Sie aber fragen, ob sie sich im Verhältnis zu Kosten und Zeit verbessert, dann bin ich mir nicht sicher. Wie gesagt, es geht eher um eine Verbesserung von etwa 10 %.

Wie auch immer: Dass Nicht-Entwickler solche Herausforderungen angehen, ist beeindruckend und großartig. Ich hoffe, dass es gut klappt.

somang04 2026-05-29

Vielen Dank!! Wie erwartet stößt Automatisierung an ihre Grenzen, und beim Tagging und Mapping muss man wohl tatsächlich manuell Hand anlegen..

Dann muss ich wohl noch einen weiteren Handlanger 1 anwerben.. Das hat mir wirklich sehr geholfen!!

Vielen Dank!!

hmmhmmhm 2026-05-29

Diarization ist zwar gut, aber es gibt einige Punkte, die etwas zu wünschen übrig lassen. Wenn man bei den öffentlich verfügbaren Modellen tiefer einsteigen will, scheint man wie im Kommentar unten direkt in den Research-Bereich abzudriften.

somang04 2026-05-29

Ich stürze mich gerade ziemlich ahnungslos hinein … haha. Wenn man es eben nicht weiß, macht man es einfach.
Wie die Person unten gesagt hat, muss da wohl menschliche Handarbeit reinfließen, deshalb suche ich gerade nach „Sklave 1“ … haha

hmmhmmhm 2026-05-29

Oh … es ist großartig, dass Sie sich dieser Herausforderung stellen … das motiviert auch mich!! Viel Erfolg!!!

Ich hatte neulich eine Frage zu koreanischen Multi-Speaker-Themen gepostet – hier ist ein Update zum weiteren Verlauf!

Verwandte Beiträge

5 Kommentare