12 Punkte von dydwls140 2026-03-30 | 1 Kommentare | Auf WhatsApp teilen

Ich habe einen koreanischen morphologischen Analysator entwickelt, der ohne Server im Browser läuft.

Bestehende morphologische Analysatoren (Kiwi ~40 MB, MeCab-ko ~50 MB) wurden für Serverumgebungen konzipiert, sodass es keine wirkliche Option gab, wenn man morphologische Analyse auf der Client-Seite benötigte.

Garu läuft direkt im Browser – mit einer nicht-neuronalen Architektur auf Basis von Codebook + Viterbi, nur mit einem 1,7-MB-Modell und einer 93-KB-WASM-Engine.

  • Modellgröße: 1,7 MB (gzip ~950 KB, Netzwerkübertragung etwa 1 MB)
  • Genauigkeit: F1 95,3 % (basierend auf dem NIKL Everyone's Corpus)
  • Vergleich: Kiwi 87,9 % / MeCab-ko ~85 %
  • Kein neuronales Netz: 0 Trainingsparameter, reines Lookup + Viterbi-Decoding
  • Mit npm install garu-ko auf Server und im Browser nutzbar

Nach zwei Fehlschlägen – Wissensdistillation mit BiLSTM und Sequence Labeling auf Jaso-Ebene – bin ich bei einer nicht-neuronalen Architektur mit Codebook + Viterbi gelandet. Den Optimierungsprozess von 76,1 % auf 95,3 % (direktes Training auf NIKL-Golddaten, intelligenter Eojeol-Cache, kontextbasierte Post-Processing-Regeln usw.) habe ich in einem technischen Paper dokumentiert.

GitHub: https://github.com/ongjin/garu
Technisches Paper: https://github.com/ongjin/garu/blob/main/docs/paper.md
npm: https://www.npmjs.com/package/garu-ko

1 Kommentare

 
moderator 2026-03-30

Zu Show GN verschoben.
Zur Information: Bei Beiträgen, deren Kategorie von einem Moderator angepasst wurde, kann die Sichtbarkeit auf der Startseite eingeschränkt sein. Bitte überprüft daher vor dem Veröffentlichen die Kategorie noch einmal.