Stanza - Open-Source-Python-NLP-Bibliothek
(stanfordnlp.github.io)-
Sprachunabhängiges Toolkit zur Verarbeitung natürlicher Sprache mit Unterstützung für 66 Sprachen, darunter Koreanisch
-
Auf PyTorch basierend
-
Vollständige neuronale Pipeline für die Textanalyse
Tokenisierung, Erweiterung von Multi-Word-Tokens (MWT), Lemmatisierung
POS- und morphologisches Tagging, Abhängigkeitsanalyse, Named Entity Recognition
-
Entwickelt und veröffentlicht von der Stanford NLP Group
→ Enthält auch eine Schnittstelle zur Integration mit dem zuvor veröffentlichten CoreNLP Java
2 Kommentare
NER (Named Entity Recognition) scheint leider nur eine geringe Anzahl von Sprachen zu unterstützen.
Koreanisch ist nicht enthalten; unterstützt werden Arabisch, Chinesisch, Deutsch, Englisch, Französisch, Niederländisch und Spanisch, also acht Sprachen.
Es gibt zwei koreanische Modelle.
Es scheint, als hätten sie von den bei Universal Dependencies (UD) https://universaldependencies.org/ registrierten Modellen die beiden mit vielen Tokens genommen: Kaist und GSD.
UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html
UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html