12 Punkte von xguru 2021-07-21 | 1 Kommentare | Auf WhatsApp teilen
  • Basierend auf Rust + Tantivy (ein Apache Lucene ähnliches Open-Source-Projekt, in Rust implementiert, mit Unterstützung für koreanische Tokenizer)

  • Für die Indizierung großer Datensätze konzipiert

→ Compute und Storage sind getrennt: Speicher wie S3 kann durchsucht werden

→ Einfache Verwaltung von Suchclustern: Instanzen lassen sich in wenigen Sekunden hinzufügen/entfernen

  • Unterstützte Funktionen

→ Einfache CLI für Index- und Cluster-Management

→ Lokale/Remote-Indizes

→ Stateless Instanzen

→ Kann mit jedem Object Storage verwendet werden, der Byte-Range-Abfragen unterstützt

→ Full-Text-Suche (einschließlich Phrase Query)

→ Integrierte Unterstützung für Zeitpartitionierung

→ Unterstützung für Boolean Queries

→ Unterstützung für die Datentypen Text, i64, f64, date, bytes sowie die Composite-Typen object und array

1 Kommentare

 
xguru 2021-07-21

Wie die Kosteneffizienz umgesetzt wurde, wird in dem einführenden Blogbeitrag beschrieben.

Als ich früher " Bayard - in Rust implementierter Volltextsuch- und Indexierungsserver https://de.news.hada.io/topic?id=841 " vorgestellt habe, gab es in Tantivy noch keinen koreanischen Tokenizer, aber inzwischen wurde einer hinzugefügt.

https://github.com/lindera-morphology/lindera-ko-dic-builder

Koreanischer Tokenizer