7 Punkte von xguru 2020-03-25 | 2 Kommentare | Auf WhatsApp teilen
  • Sprachunabhängiges Toolkit zur Verarbeitung natürlicher Sprache mit Unterstützung für 66 Sprachen, darunter Koreanisch

  • Auf PyTorch basierend

  • Vollständige neuronale Pipeline für die Textanalyse

    Tokenisierung, Erweiterung von Multi-Word-Tokens (MWT), Lemmatisierung

    POS- und morphologisches Tagging, Abhängigkeitsanalyse, Named Entity Recognition

  • Entwickelt und veröffentlicht von der Stanford NLP Group

    → Enthält auch eine Schnittstelle zur Integration mit dem zuvor veröffentlichten CoreNLP Java

2 Kommentare

 
sftblw 2020-03-25

NER (Named Entity Recognition) scheint leider nur eine geringe Anzahl von Sprachen zu unterstützen.

Koreanisch ist nicht enthalten; unterstützt werden Arabisch, Chinesisch, Deutsch, Englisch, Französisch, Niederländisch und Spanisch, also acht Sprachen.

 
xguru 2020-03-25

Es gibt zwei koreanische Modelle.

Es scheint, als hätten sie von den bei Universal Dependencies (UD) https://universaldependencies.org/ registrierten Modellen die beiden mit vielen Tokens genommen: Kaist und GSD.

UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html

UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html