Garu: 1,7 MB großer koreanischer morphologischer Analysator für den Browser (F1 95,3 %, WASM)
(github.com/ongjin)Ich habe einen koreanischen morphologischen Analysator entwickelt, der ohne Server im Browser läuft.
Bestehende morphologische Analysatoren (Kiwi ~40 MB, MeCab-ko ~50 MB) wurden für Serverumgebungen konzipiert, sodass es keine wirkliche Option gab, wenn man morphologische Analyse auf der Client-Seite benötigte.
Garu läuft direkt im Browser – mit einer nicht-neuronalen Architektur auf Basis von Codebook + Viterbi, nur mit einem 1,7-MB-Modell und einer 93-KB-WASM-Engine.
- Modellgröße: 1,7 MB (gzip ~950 KB, Netzwerkübertragung etwa 1 MB)
- Genauigkeit: F1 95,3 % (basierend auf dem NIKL Everyone's Corpus)
- Vergleich: Kiwi 87,9 % / MeCab-ko ~85 %
- Kein neuronales Netz: 0 Trainingsparameter, reines Lookup + Viterbi-Decoding
- Mit
npm install garu-koauf Server und im Browser nutzbar
Nach zwei Fehlschlägen – Wissensdistillation mit BiLSTM und Sequence Labeling auf Jaso-Ebene – bin ich bei einer nicht-neuronalen Architektur mit Codebook + Viterbi gelandet. Den Optimierungsprozess von 76,1 % auf 95,3 % (direktes Training auf NIKL-Golddaten, intelligenter Eojeol-Cache, kontextbasierte Post-Processing-Regeln usw.) habe ich in einem technischen Paper dokumentiert.
GitHub: https://github.com/ongjin/garu
Technisches Paper: https://github.com/ongjin/garu/blob/main/docs/paper.md
npm: https://www.npmjs.com/package/garu-ko
1 Kommentare
Zu Show GN verschoben.
Zur Information: Bei Beiträgen, deren Kategorie von einem Moderator angepasst wurde, kann die Sichtbarkeit auf der Startseite eingeschränkt sein. Bitte überprüft daher vor dem Veröffentlichen die Kategorie noch einmal.