30 Punkte von xguru 2021-04-05 | 1 Kommentare | Auf WhatsApp teilen

Ein Artikel, der anhand der vollständigen Daten aus Titeln und Zusammenfassungen der englischen Wikipedia die Grundlagen einer Suchmaschine Schritt für Schritt erklärt – ohne besondere Spezialtechniken

  1. Daten vorbereiten, indem ein Abstract-Objekt erstellt wird

  2. Index erstellen: Tokenisierung und Filterung

→ Kleinbuchstaben

→ Stemming

→ Die 25 am häufigsten verwendeten Wörter im Englischen ausschließen (the, be, to, of, a ..)

  1. Eine einfache Suche erstellen

  2. Relevanzfunktion hinzufügen: Term Frequency (wie oft das jeweilige Wort in der Zusammenfassung verwendet wird)

  3. Inverse Document Frequency hinzufügen: die Anzahl anderer Dokumente, die mit diesem Dokument verknüpft sind

Code: https://github.com/bartdegoede/python-searchengine

1 Kommentare

 
xguru 2021-04-05

Auch unscharfe Stringsuche mit Unterstützung für die Suche nach koreanischen Anfangskonsonanten: https://de.news.hada.io/topic?id=3631

Technische Grundlage und Implementierung unterscheiden sich zwar völlig von diesem Artikel, aber ich fand ihn dennoch spannend zu lesen, weil die grundlegenden Teile Schritt für Schritt ausführlich erklärt werden.

Es gibt mehrere Python-Bibliotheken, die Funktionen rund um Full-Text-Suche / Topic Modeling / Dokumentenindizierung / Ähnlichkeit deutlich umfassender implementieren.

Für SQLite gibt es außerdem eine eigene Full-Text-Search-Erweiterung.