1 Punkte von somang04 4 시간 전 | Noch keine Kommentare. | Auf WhatsApp teilen

Ich weiß nicht, ob das wirklich zu ASK GN passt..! Aber da es wohl weder News noch Show ist, poste ich es hier.

Ich bastele auf Grundlage der Meinungen, die ihr mir neulich gegeben habt, weiter daran.
Zufällig hatte auch ein befreundeter Business-Verantwortlicher, mit dem ich zusammenarbeite, eine ähnliche Idee, also kämpfen wir zwei Nicht-Entwickler uns gerade an einem MVP ab.
(Claude Code 5X und die API-Kosten zahlen wir komplett aus eigener Tasche.. der Business-Freund versorgt mich dafür mit Alkohol und Essen.. haha)

Da wir es auf Basis von Inhalten wie Dramen, Variety-Shows und Filmen entwickeln, sind die nutzbaren Modelle ziemlich eingeschränkt.
Nach langem Suchen verwenden wir deshalb Whisper (Open AI API), Pyannote und Assembly AI.

Bei pyannote ist die kostenlose Phase vorbei und man müsste zahlen, aber da es keine nutzungsbasierte Abrechnung ist, sondern ein Abo ($19/month), haben wir das übersprungen.
Stattdessen testen wir gerade mit Deepgram Nova-3. (Bei der Registrierung bekommt man $200.)

Aber.. wie erwartet ist die Sprechertrennung ohne pyannote schwierig, deshalb nutzen wir für die Speaker-Diarization auf replicate.com meronym/speaker-diarization.

Wenn man sich das Endergebnis ansieht, funktioniert die Sprechertrennung insgesamt trotzdem einigermaßen.
Ich plane, es mit Clova zu vergleichen, und werde auch die Vergleichsergebnisse teilen!

Mein nächstes Thema zum Grübeln ist jetzt:

  1. Die Sprechertrennung läuft audio-basiert – würde sie präziser werden, wenn man zusätzlich Gesichtserkennung einbaut?
  2. Wie sollte man die für Gesichtserkennung nötigen Metadaten sammeln?
  3. Wenn man auf Inhalten wie Dramen/Filmen/Variety-Shows basiert, woher bekommt man dann die Metadaten? (Naver, Namuwiki usw.)
  4. Verbessert das Sammeln von Metadaten die Qualität genug im Verhältnis zu Kosten und Zeit?

Falls es hier erfahrenere Leute gibt, die sich mit so etwas schon beschäftigt haben, würde ich mich sehr über viele Ratschläge freuen...!!!

Noch keine Kommentare.

Noch keine Kommentare.