40 Punkte von tominam2 2024-04-13 | 14 Kommentare | Auf WhatsApp teilen

Uneingeschränkte KI-Übersetzung Koreanisch↔Englisch auf dem eigenen Computer ist möglich.

  1. Die Qualität ist besser als bei gewöhnlicher maschineller Übersetzung.
  2. Die Übersetzung von txt- und epub-Dateien ist möglich.
  3. Es werden zwei Dateien ausgegeben: eine Datei mit Übersetzung (Originaltext) und eine Datei nur mit der Übersetzung. Falls die Übersetzung merkwürdig ist, kann sie sofort mit dem Original verglichen werden.
  4. Die Nutzung ist sehr einfach. Man muss nur die zu übersetzenden Dateien per Drag-and-drop ziehen und anschließend auf die Schaltfläche zum Starten der Übersetzung klicken. Die Übersetzung zwischen Koreanisch und Englisch erfolgt dann automatisch in beide Richtungen.
  5. Ein Wechsel zu einem anderen KI-Modell ist möglich. Derzeit wird NHNDQ verwendet, das ein gutes Preis-Leistungs-Verhältnis bietet.

14 Kommentare

 
upkit2 2024-04-16

Hallo, ich habe während der Installation versehentlich cmd geschlossen. Seitdem läuft die Installation nicht mehr weiter, auch wenn ich den Ordner lösche und neu installiere,,, gibt es dafür eine Lösung?T_T

 
tominam2 2024-04-17

Natürlich. Das müssen wir lösen.
Allerdings müssen wir zuerst den aktuellen Zustand verstehen und herausfinden, was genau nicht funktioniert.

https://github.com/vEduardovich/dodari/issues
Bitte klicken Sie im obigen Dodari-GitHub auf den Button New issue und erstellen Sie ein neues Issue.

Könnten Sie dann mit einem Screenshot oder einer etwas genaueren Beschreibung erläutern, was genau nicht funktioniert und in welcher Situation es auftritt?
Wir werden das auf jeden Fall lösen.

 
illuza 2024-04-15

Wow, das ist beeindruckend.
Ich benutze zwar DeepL, aber ich werde es in Ruhe vergleichen und sorgfältig prüfen.
Vor allem möchte ich die Texte englischsprachiger Literatur bald einmal direkt vergleichen.

 
tominam2 2024-04-15

Der von Ihnen angesprochene Punkt ist aktuell auch für mich der größte Wermutstropfen.
Das Modell, das derzeit in Dodari verwendet wird, ist das NHNDQ-Modell, also ein auf Koreanisch spezialisiertes, feinabgestimmtes Modell auf Basis von facebook-nllb, einem multilingualen Übersetzungsmodell für 200 Sprachen. Es ist zwar besser als Google Translate, fällt im Vergleich zu DeepL aber deutlich zurück.

Auf der Suche nach einer Lösung habe ich verschiedene Modelle getestet und dabei das yanolja-eeve-Modell ausprobiert, das als koreanisches Top-Tier-Modell gilt — und ich war wirklich überrascht, wie gut es war. Meinem Eindruck nach erreicht es etwa 80 bis 90 % von DeepL.

Allerdings braucht man für dieses Modell mindestens 23 GB VRAM im Rechner des Nutzers. Außerdem ist die Übersetzungsgeschwindigkeit um ein Vielfaches langsamer, sodass man zur Beschleunigung die vllm-Technologie einsetzen muss. Dadurch wird es zwar deutlich schneller, aber dann ist zwingend ein Linux-OS erforderlich. Im Endeffekt können also nur „Entwickler mit einer 4090 und einem Linux-OS“ das Yanolja-Modell überhaupt ausprobieren.

Darüber zerbreche ich mir gerade den Kopf. Schade.

 
kunggom 2024-04-15

Braucht es noch mehr Erklärung?

 
tominam2 2024-04-15

Das übergeordnete Modell von NHNDQ ist facebook-nllb, ein mehrsprachiges Übersetzungsmodell für 200 Sprachen.
Deshalb produziert es gelegentlich solchen Kauderwelsch.

 
kunggom 2024-04-15

Da die Qualität der koreanischen Übersetzung noch etwas schwächelte, schien der Produktname nach dem Spitznamen 도더리 des Protagonisten des Fregate-Falls gewählt worden zu sein; daher konnte ich den legendären Fehlgriff bei der Verwendung eines Übersetzers aus jenem Vorfall, „必要韓紙“, nicht unerwähnt lassen.

 
roxie 2025-06-14

Ob nötig? Eine so traurige Geschichte..

 
tominam2 2024-04-15

Es scheint wohl irgendeinen komplizierten Vorfall gegeben zu haben. Selbst wenn ich es lese, verstehe ich es nicht richtig schluchz

Den Namen "Dodari" habe ich in einem Gespräch mit dem Modell mixtral-7bx8 entwickelt.
Zuerst hat die AI den Namen "Sprachbrücke" empfohlen, aber ich wollte ein eindeutiges Bild, das sich leicht zeichnen lässt, und habe deshalb zum Spaß gefragt, wie "Dodari" wäre. Ich selbst fand es schließlich auch etwas abwegig.

Aber die AI antwortete, dass Dodari im Sinne von "eine Brücke, die hilft" sehr gut sei. Das war eine Interpretation, auf die ich nie gekommen wäre, und ich fand sie erfrischend. So ist der Name Dodari entstanden.

 
kunggom 2024-04-15

Das ist schon ein ziemlich alter Vorfall, war damals aber in koreanischen Internet-Communities durchaus bekannt.
Grob zusammengefasst lief es so ab.

  1. Der Betreiber Dodeori eines bestimmten Naver-Cafés veröffentlichte eine Ankündigung, dass eine limitierte japanische Musik-CD per Sammelbestellung für 70.000 Won gekauft werde.
  2. Danach wurde eine Liste der Teilnehmer der ersten Sammelbestellung veröffentlicht, doch Namen und Adressen wirkten irgendwie merkwürdig, sodass die Leute misstrauisch wurden.
  3. Ein Mitglied des Cafés deckte auf, dass die betreffende CD weder limitiert war noch mehr als im Bereich von 30.000 Won kostete. Als er das zur Rede stellte, warf Dodeori ihn aus dem Café, woraufhin die Sache eskalierte.
  4. In E-Mails, die Dodeori als angeblichen Schriftwechsel mit einer japanischen Firma veröffentlichte, kamen absurde Übersetzungsfehler wie „必要韓紙“ ans Licht, wodurch der Fall auch außerhalb der Community bekannt wurde.
  5. Später stellte sich heraus, dass Dodeori stark zu pathologischem Lügen neigte; die meisten seiner im Internet geschilderten angeblichen Erlebnisse waren von völlig überzogenem Imponiergehabe und Lügen durchzogen.

Übrigens habe ich es auch schon gelegentlich erlebt, dass große Sprachmodelle unerwartete Interpretationen liefern, die dabei erstaunlich plausibel wirken.
Ich habe das Gefühl, dass man inzwischen auch im Gespräch mit Maschinen auf Aspekte gestoßen wird, auf die man allein in Gesprächen mit Menschen nicht gekommen wäre.

 
tominam2 2024-04-15

Meine Güte. Aber offenbar ist er nicht festgenommen worden.
Persönlich finde ich chatGPT etwas zu brav und deshalb nicht besonders spannend, aber Mixtral ist vielleicht gerade wegen der fehlenden Zensur im Gespräch ausgesprochen interessant.

 
kunggom 2024-04-15

Laut dem Wiki wurde er sogar angezeigt, kam aber glimpflich davon, nachdem er wohl klein beigegeben und um Nachsicht gebeten hatte. Zum Zeitpunkt der Anzeige leistete er angeblich seinen Ersatzdienst.

Ich selbst habe wegen der Leistung meines PCs noch kein lokales LLM direkt ausprobiert. Ich nutze bisher nur ungefähr auf dem Niveau von GPT-4 und überlege, ob ich Claude-3 zusätzlich abonnieren soll.

 
savvykang 2024-04-14

Von der Ausführung des Huggingface-Modells über den Aufbau einer venv bis hin zur Implementierung eines Webservice war dies ein stimmiges Beispiel und sehr hilfreich. Vielen Dank fürs Teilen.

 
tominam2 2024-04-14

Es freut mich sehr, dass es hilfreich sein konnte. Ich bin vielmehr Ihnen dankbar.