Stanza - Open-Source-Python-NLP-Bibliothek

xguru · 2020-03-25T16:05:16+09:00

Sprachunabhängiges Toolkit zur Verarbeitung natürlicher Sprache mit Unterstützung für 66 Sprachen, darunter Koreanisch Auf PyTorch basierend Vollständige neuronale Pipeline für die Textanalyse Tokenisierung, Erweiterung von Multi-Word-Tokens (MWT), Lemmatisierung POS- und morphologisches Tagging, Abhängigkeitsanalyse, Named Entity Recognition Entwickelt und veröffentlicht von der Stanford NLP Group → Enthält auch eine Schnittstelle zur Integration mit dem zuvor veröffentlichten CoreNLP Java

(stanfordnlp.github.io)

7 Punkte von xguru 2020-03-25 | 2 Kommentare | Auf WhatsApp teilen

Sprachunabhängiges Toolkit zur Verarbeitung natürlicher Sprache mit Unterstützung für 66 Sprachen, darunter Koreanisch
Auf PyTorch basierend
Vollständige neuronale Pipeline für die Textanalyse

Tokenisierung, Erweiterung von Multi-Word-Tokens (MWT), Lemmatisierung

POS- und morphologisches Tagging, Abhängigkeitsanalyse, Named Entity Recognition
Entwickelt und veröffentlicht von der Stanford NLP Group

→ Enthält auch eine Schnittstelle zur Integration mit dem zuvor veröffentlichten CoreNLP Java

2 Kommentare

sftblw 2020-03-25

NER (Named Entity Recognition) scheint leider nur eine geringe Anzahl von Sprachen zu unterstützen.

Koreanisch ist nicht enthalten; unterstützt werden Arabisch, Chinesisch, Deutsch, Englisch, Französisch, Niederländisch und Spanisch, also acht Sprachen.

xguru 2020-03-25

Es gibt zwei koreanische Modelle.

Es scheint, als hätten sie von den bei Universal Dependencies (UD) https://universaldependencies.org/ registrierten Modellen die beiden mit vielen Tokens genommen: Kaist und GSD.

UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html

UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html

Stanza - Open-Source-Python-NLP-Bibliothek

Verwandte Beiträge

2 Kommentare