-
Kultureller Kontext
- StarCraft: Brood War (im Folgenden BW) ist in Korea ein äußerst wichtiges Spiel, und die meisten Profispieler, Teams und Turniere haben dort ihre Basis.
- BW ist ähnlich wie Schach ein Strategiespiel, bei dem nicht nur das Spielen selbst, sondern auch das Studium des Spiels wichtig ist.
- Wie bei Schach-Eröffnungen gibt es auch in BW bestimmte Strategien und Builds, die eine in der Community entwickelte domänenspezifische Sprache bilden.
-
Wissensproblem bei ausländischen Communities
- Die meisten Communities außerhalb Koreas beherrschen Koreanisch nicht fließend.
- Ausländer, die Koreanisch fließend sprechen, sind selten, wodurch diese Communities im Vergleich zur koreanischen Community einen eingeschränkten Zugang zu Informationen haben.
- Maschinelle Übersetzung stößt bei der Übersetzung dieser domänenspezifischen Sprache an Grenzen, was dazu beigetragen hat, dass die ausländischen Communities hinter der koreanischen Community zurückgeblieben sind.
-
Neuer Übersetzungsprozess
- Mit einem neuen maschinellen Übersetzungsprozess können nun präzisere Übersetzungen bereitgestellt werden.
- Pro Tag konnten etwa 7 Videos übersetzt werden, was deutlich schneller ist als zuvor.
-
Technischer Stack
- Der Prozess ist in zwei Teile gegliedert: Erzeugung und Konsum von Untertiteln.
- Mit yt-dlp und OpenAI Whisper wird die Audiospur eines Videos heruntergeladen und daraus Untertitel erzeugt.
- Google Colab wird verwendet, um Whisper auszuführen; nach Eingabe der Video-URL wird eine koreanische SRT-Datei erzeugt.
- LLM und ein Slang-Wörterbuch werden genutzt, um die Genauigkeit der Übersetzung zu verbessern.
-
Nutzung der Untertitel
- Mit TamperMonkey wird YouTube-Videos ein Button hinzugefügt, über den sich die übersetzten Untertitel herunterladen lassen.
- Pastebin sowie Google Sheets + Apps Script werden verwendet, um die Untertitel zu teilen und zu verwalten.
-
Verbesserungsmöglichkeiten
- Es besteht die Möglichkeit, Unterstützung für mehrere Sprachen hinzuzufügen.
- Als technische Verbesserung wäre es möglich, den Button nur bei bestimmten Videos anzuzeigen.
-
Abschließende Gedanken
- Performance, Skalierbarkeit und Latenz sind nicht wichtig; stattdessen wurde das Projekt durch die Kombination bereits vorhandener Lösungen fertiggestellt.
- Das Python-Skript für das Userscript und das Colab-Notebook ist kurz und leicht wartbar.
- Dieses Projekt ist das denkbar einfachste CRUD-System, und es gibt keinen Grund, warum die Komplexität stark steigen sollte.
1 Kommentare
Hacker-News-Kommentare
Als koreanischer BW-Spieler und Forscher für Spracherkennung fand ich diesen Beitrag interessant. Ursprünglich gab es viele Fehler in der koreanischen Transkription, aber LLMs haben sie beeindruckend korrigiert. Zum Beispiel war "12 Anmadang Build" in Wirklichkeit "12 Apmadang Build". Der Build „Tuecheori“ hätte als „Tuhaecheori“ transkribiert werden müssen.
Lasst euch nicht vom Titel täuschen. Dieser Beitrag ist ein sehr gründlicher und kreativer Ansatz, um StarCraft-Kommentare zu übersetzen und zugänglicher zu machen.
Als Nicht-Englischsprachiger musste ich beim Lesen dieses Beitrags an die Schwierigkeiten bei der Übersetzung von Computerartikeln und Softwareentwicklung denken.
Ich konnte die Google-Translate-Version gut verstehen. Wahrscheinlich, weil ich mit BW und dem Zerg-12-Hatch-Opener vertraut bin.
Ich fand es lustig, dass in einem Beitrag über Übersetzung das Signal-Rausch-Verhältnis komplett umgekehrt verstanden wurde. Ein hohes Signal-Rausch-Verhältnis ist etwas Gutes.
Mit yt-dlp kann man Videos in niedrigerer Qualität herunterladen, um Bandbreite zu sparen.
yt-dlp -f "bv[height<=720]" <url>Als jemand, der als Kind Money Maps gespielt hat, habe ich mich gefragt, was die Zahlen vor den Gebäuden bedeuten.
Google Translate ist besser geworden, konnte aber chinesische oder japanische Texte über das Spiel Go nicht effektiv übersetzen.
Ich mochte diesen Beitrag. Als ich einmal versucht habe, in den amerikanischen Regionalwettkämpfen der World Cyber Games mitzuspielen, war ich erstaunt, wie schnell die anderen waren.
Mir gefiel, dass "natural expansion" als "courtyard" übersetzt wurde, obwohl das „falsch“ ist.