elbird - R-Wrapping-Paket für kiwi, einen koreanischen morphologischen Analysator (github.com)
(github.com/mrchypark)elbird ist das Paket, das persönlich das endgültige Ziel des zuvor veröffentlichten kiwigo darstellt.
Im Bereich der verschiedenen Pakete für morphologische Analyse in R wird die Landschaft im Wesentlichen von KoNLP (Java-basiert, derzeit * nicht mehr auf CRAN) und RcppMecab (Mecab-basiert, schnell, stellt den Originaltext nicht wieder her) dominiert, daneben gibt es noch einige weitere Pakete.
In einer Situation, in der KoNLP der Mainstream war, kamen die Schwierigkeiten bei der Installation des JDK und der Umstand zusammen, dass es derzeit nicht auf CRAN verfügbar ist. Deshalb habe ich daran gearbeitet, ein neues Paket für morphologische Analyse auf CRAN zu veröffentlichen, das leicht zu installieren ist und weiterhin gepflegt wird.
Dabei bin ich auf kiwi gestoßen, das in dem hoch portablen C++ entwickelt wird.
Nach langer Zeit konnte ich schließlich ein R-Paket erstellen, das die C++-Funktionen kapselt, und die Registrierung auf CRAN abschließen.
Derzeit ist Version 0.1.1 registriert, ein Update auf 0.1.2 ist in Kürze geplant.
Die aktuell implementierten Funktionen sind auf einem Niveau, das eine grundlegende Nutzung ermöglicht. Sobald alle Funktionen von kiwi umgesetzt sind, möchte ich die Arbeit an die kiwi-Version anpassen.
Im README gibt es grundlegende Codebeispiele zur Nutzung, und es wurden Funktionen mit Blick auf die gemeinsame Verwendung mit tidytext, einem bekannten Paket für Textanalyse im R-Ökosystem, berücksichtigt.
Ich freue mich über viel Interesse.
* CRAN: Das offizielle Paket-Repository von R. Es ist ein verwaltetes Repository mit automatischen Tests und Prüfung durch Administratoren und verfolgt eine Evergreen-Policy (bei fehlschlagenden Tests wird die Registrierung aufgehoben), sodass kontinuierliche Pflege erforderlich ist.
1 Kommentare
Ich habe nur wenig Erfahrung mit C++-Entwicklung und dem Kompilieren und brauche dabei viel Hilfe.
Falls jemand Ratschläge geben kann, schaut bitte im Issue-Tab vorbei.