Gibt es eine Python-Bibliothek oder Methodik, mit der sich koreanische Texte gut durchsuchen lassen, auch wenn viele Tippfehler enthalten sind?
Gibt es eine Python-Bibliothek oder Methodik, mit der sich koreanische Texte gut durchsuchen lassen, auch wenn viele Tippfehler enthalten sind?
4 Kommentare
Wenn Sie ein RDBMS verwenden und Full-Text das Ziel ist, liegt der Fokus meist auf PostgreSQL. Wenn Sie einen einfacheren Weg gehen wollen, dann MongoDB.
Wenn Sie einen schwierigen und schwindelerregenden Weg gehen wollen, gibt es Methoden wie die Zerlegung koreanischer Schriftzeichen in ihre kanonische Form zur Hash-Prüfung oder die Ersetzung durch ASCII-Werte zur Indexierung; grundlegend ist jedoch zunächst der Umgang mit NFD bzw. NFC.
Vielen Dank für die ausführliche Antwort.
Ich sollte mich wohl näher mit dem Thema befassen.
Mir fällt gerade ein Artikel dazu ein. Es ist allerdings eine JavaScript-Bibliothek, und eher für die Suche nach Anfangskonsonanten als für Tippfehler geeignet ..?
https://taegon.kim/archives/10671
Das habe ich schon einmal bei GeekNews gesehen.
Vielen Dank für die Antwort.