ir – lokale Suchmaschine als qmd-Alternative (mit Unterstützung für koreanische Vorverarbeitung)
(github.com/vlwkaos)Ich habe bisher qmd verwendet, dabei aber einige Probleme entdeckt und deshalb eine lokale Suchmaschine als Ersatz entwickelt.
Die Unbequemlichkeit, alle Collections auf einmal in einer einzigen SQLite-DB indexieren/einbetten zu müssen
-> Wenn man das trennt, lassen sich Collections projektweise verwalten, und auch bei gleichzeitiger Arbeit mehrerer Agenten laufen Dinge wie Index-Updates reibungsloser.
Das Problem, dass nur grundlegende englischbasierte Vorverarbeitung unterstützt wird
-> Es wird unterstützt, eigene Preprocessor direkt auf Basis der I/O des Kommandos hinzuzufügen. Im Repository habe ich nach mehreren Benchmarks lindera-ko belassen, das die beste Leistung gezeigt hat. Für die Installation bitte den Guide lesen.
Das Problem, dass das Cold Loading eines Modells für die hybride Suche bei einem fehlgeschlagenen BM25-Gap-Test sehr lange dauert
-> Ein Daemon läuft im Hintergrund und hält das Modell im Speicher.
Gegenüber qmd ist es im warmen Zustand mehr als 20-mal schneller,
und anders als qmd, für das es keinen Benchmark zur Relevanzbewertung gibt,
habe ich anhand eines echten Corpus ein leichtes Score-Tuning vorgenommen.
Da es die erste öffentliche Version ist, können Probleme auftreten. Ich wäre dankbar, wenn ihr sie in den Kommentaren mitteilt oder als Issue registriert.
Koreanischer Guide: https://github.com/vlwkaos/ir/blob/main/README.ko.md
2 Kommentare
Ich habe mir wegen der Einschränkungen von QMD Gedanken gemacht, daher bin ich wirklich gespannt darauf!
Oh, das werde ich gut nutzen!