9 Punkte von GN⁺ 2024-02-29 | 1 Kommentare | Auf WhatsApp teilen

Speakz: mehrsprachiger Medienübersetzungsdienst

  • Übersetzt Videos in einer Sprache in eine andere Sprache und erstellt dabei neue Audiospuren
  • Bietet natürliche und authentische Übersetzungen, indem Bedeutung, Persönlichkeit und Timing harmonisch abgestimmt werden, während die Originalstimme, sonstige Geräusche und Hintergrundmusik erhalten bleiben
  • Der Entwickler, selbst Deutscher, hat das Tool gebaut, damit er und seine 7-jährige Tochter YouTube-Inhalte auf Deutsch genießen können

Unterstützte Sprachen und Übersetzungsgeschwindigkeit

  • Ausgabesprachen: Unterstützt Englisch, Chinesisch, Spanisch, Arabisch, Französisch, Russisch, Deutsch, Italienisch, Koreanisch, Polnisch und Niederländisch
  • Eingabesprachen: Zusätzlich werden verschiedene Sprachen wie Hindi, Bengalisch und Portugiesisch unterstützt
  • Die Übersetzung eines 30-minütigen Videos dauert etwa 1 Stunde; es gibt Potenzial für Weiterentwicklungen in Richtung Echtzeitübersetzung und Streaming

Einsatzmöglichkeiten für Creator und normale Nutzer

  • Creator können mit Speakz mit bestehenden Inhalten ein größeres Publikum erreichen
  • YouTube unterstützt das Hinzufügen mehrerer Audiospuren zu Videos, sodass mit Speakz automatisch Audiospuren in verschiedenen Sprachen hinzugefügt werden können
  • Auch normale Nutzer können an der privaten Beta teilnehmen und Videos ihrer Wahl übersetzen lassen

Kosten und Teilnahme an der privaten Beta

  • Die Kosten stehen noch nicht fest, werden aber voraussichtlich bei etwa 5 US-Dollar pro Stunde und Sprache liegen
  • Möglicherweise gibt es Rabatte für die Übersetzung desselben Videos in mehrere Sprachen oder Mengenrabatte für Creator
  • Nutzer, die an der privaten Beta teilnehmen möchten, können sich über die Website bewerben

Meinung von GN⁺

  • Speakz ist ein nützliches Tool sowohl für Nutzer, die mehrsprachige Inhalte konsumieren möchten, als auch für Creator, die den globalen Markt ansprechen wollen
  • Eine Echtzeitübersetzungsfunktion hat das Potenzial, Sprachbarrieren bei Live-Streams oder Echtzeit-Events abzubauen
  • Andere Dienste mit ähnlichen Funktionen sind etwa Googles automatische Untertitelfunktion oder communitybasierte Übersetzungsplattformen wie Amara
  • Bei der Einführung von Speakz sollten die Genauigkeit der Übersetzung und kulturelle Nuancen berücksichtigt werden
  • Der Vorteil dieser Technologie ist ein barrierefreierer Zugang zu Inhalten ohne Sprachgrenzen, allerdings müssen Kosten und Übersetzungsqualität berücksichtigt werden

1 Kommentare

 
GN⁺ 2024-02-29
Hacker-News-Kommentare
  • In Deutschland werden Videos meist synchronisiert, aber auch ein 7-jähriges Kind könnte Untertitel lesen, und das wäre eine gute Methode, um Englisch zu lernen. In Schweden lernen die meisten Kinder auf diese Weise Englisch, noch bevor sie in die Schule kommen. Außerdem wird die Behauptung aufgestellt, dass es eine starke Korrelation dazu gibt, dass Länder, in denen Synchronisation üblich ist, im Durchschnitt geringere Englischkenntnisse haben.
    • Das Beispiel auf der Website ist beeindruckend, und es wird gefragt, wie Sprechertrennung und Stimmenklonen umgesetzt werden. Es wird vermutet, dass dabei Spracherkennung und Zeitmarken verwendet werden, um in Sätze aufzuteilen, dass eine Übersetzungs-Engine verschiedene Übersetzungsvarianten liefert, dass die Originalstimme sprachunabhängig geklont wird und dass anschließend die Übersetzung mit der besten zeitlichen Übereinstimmung ausgewählt wird.
  • Es gibt die Bitte, einfaches Englisch als Ausgabe-Sprachoption hinzuzufügen. Damit ließe sich die sprachliche Komplexität an das Niveau von Kindern anpassen und die Unterstützung schrittweise reduzieren.
  • Ein russischsprachiger Nutzer lobt, dass das Dubbing im Lex-Beispiel dem Original sehr ähnlich sei. Es sei zwar nicht auf dem Niveau professioneller Synchronisation, aber sehr gut und auch den Stimmen von Lex und Elon sehr nahe.
  • Ein Nutzer mit Erfahrung in der Entwicklung automatischer Untertitel-Lösungen lobt das Projekt zum automatischen Dubbing. Er erklärt, dass automatisches Dubbing manuelle Anpassungen benötigt, um für das Publikum ein angenehmes Ergebnis zu liefern, und dass der Schwerpunkt darauf liege, einen fortgeschrittenen Editor bereitzustellen, mit dem sich das Dubbing feinjustieren lässt, ohne in eine Schnittsoftware zurückkehren zu müssen.
  • Neben Bewunderung für das Projekt gibt es auch die Meinung, man wäre bereit, pro Video einzeln zu bezahlen. Als Feedback zur Seite wird angemerkt, dass die Videos weiterlaufen, wodurch es schwer sei, denselben Abschnitt in verschiedenen Sprachen zu vergleichen. Außerdem werden Übersetzungsfehler und Timing-Probleme genannt, und es wird erwähnt, dass Teile des Originaltons manchmal nicht übersetzt werden.
  • Es wird angemerkt, dass niederländisches Dubbing bislang nur aus dem Kinderfernsehen bekannt sei, das niederländische Modell aber verbessert werden müsse. Besonders die Synchronisation der Taiwan-Dokumentation sei schwer verständlich gewesen. Es wird infrage gestellt, warum Niederländisch enthalten ist, da die meisten niederländischsprachigen Menschen Englisch verstehen.
  • Es wird auf das Problem hingewiesen, dass in vielen Ländern ohne synchronisierte Filme und Fernsehprogramme, etwa in Griechenland, Menschen mit Sehbehinderungen oder altersbedingten Sehproblemen, die nicht gut Englisch können, praktisch nur lokal produzierte Filme und Programme sehen können. Das Projekt wird als etwas bewertet, das dieses Problem lösen könnte.
  • Das Audio-Timing-Verfahren wird als clever gelobt, verbunden mit der Frage, welche Modelle verwendet werden.
  • Jemand meint, er habe sich beim Anschauen deutscher Inhalte schon gefragt, ob die englischen Untertitel von einer KI erzeugt wurden. Manchmal wirkten die Untertitel verwirrender als das Deutsche selbst und sähen eher nach automatisch erzeugten Übersetzungen aus als nach der Arbeit echter Übersetzer, die Kontextsignale und Ähnliches nutzen.