1 Punkte von GN⁺ 2023-09-03 | 1 Kommentare | Auf WhatsApp teilen
  • Artikel über eine neue browserbasierte Wikipedia-Suchmaschine, die Offline-Suche ermöglicht
  • Suchmaschine mit Echtzeitsuche durch eine Million Wikipedia-Seiten, liefert auf Mobilgeräten alle 10 ms Ergebnisse zurück
  • Kleine Größe der Suchmaschinen-Datenbank, unterstützt eine Million Embeddings für einfache Anwendungsfälle ohne besondere Verarbeitung
  • Suchmaschine mit Dokument-Embeddings per Sentence Transformer, Embedding-Komprimierung mittels Product Quantization und pq.js für Distanzberechnungen im Browser
  • Verwendet transformers.js, um einen Sentence Transformer im Browser für Suchanfragen auszuführen
  • Die Suchmaschine sortiert Embeddings nach der komprimierten Seitengröße, sodass Seiten mit hoher Informationsdichte zuerst analysiert und in den Top 10 zurückgegeben werden
  • Für hohe Performance verwendet die Suchmaschine Arrow statt JSON; Arrow kann 8-Bit-Integer-Arrays der Product Quantization kompakt speichern
  • Die Suchmaschine verwendet ONNX-Modelle, die in WebAssembly laufen; GPU-Beschleunigung gibt es noch nicht
  • Suchmaschine, die die gesamte Wikipedia mit einem Sentence Transformer einbettet, Embeddings per Product Quantization komprimiert und ONNX manuell schreibt
  • Die Suchmaschine exportiert NumPy nach Arrow, um Embeddings und Metadaten zu speichern; deutlich kompakter im Speicher und auf der Festplatte
  • Die Suchmaschine unterstützt Facettensuche, die Echtzeitsuche in Produktunterkategorien erlaubt
  • Der Autor lädt zu Feedback und Verbesserungsvorschlägen ein, insbesondere zur Unterstützung anderer Quantisierungsstufen und anderer Embedding-Dimensionen

1 Kommentare

 
GN⁺ 2023-09-03
Hacker-News-Kommentare
  • Ein Artikel über ein neues Tool, mit dem sich Wikipedia offline durchsuchen lässt
  • Einige Nutzer berichten, dass dieses Tool weniger präzise sei als KI-Dienste wie ChatGPT
  • Das Tool verwendet Text-Embeddings, um Suchanfragen abzugleichen
  • Eine aktuelle Arbeit mit dem Titel „Textsuche auf Basis abstrakter Beschreibungen“ ermöglicht abstraktere Suchanfragen
  • Einige Nutzer fanden, dass das Tool erwartete Ergebnisse weniger effektiv zurückliefert als Google
  • Ein Nutzer schlägt vor, dass sich das Tool verbessern ließe, wenn statt kompletter Wikipedia-Artikel nur definierende Sätze oder Absätze eingebettet würden
  • Lob für die Offline-Funktion und die Implementierung des Tools, trotz einiger Kritik an der Genauigkeit
  • Einige Nutzer haben technische Probleme mit dem Tool, etwa langsame Ladezeiten
  • Erwähnung eines ähnlichen Projekts namens SemanticFinder, bei dem Nutzer Text beliebiger Länge kopieren und einfügen können und das die ähnlichsten Segmente zurückgibt
  • Ein Nutzer weist darauf hin, dass die Wirksamkeit des Tools durch die Qualität der Themenbeschreibung in Wikipedia begrenzt sein könnte
  • Einige Nutzer sind von den Ergebnissen des Tools enttäuscht, erkennen aber die beeindruckende Technik dahinter an
  • Ein Nutzer vermutet, dass der Ansatz des Tools, ganze Artikel zu embeddieren, für diese Art von Anwendung möglicherweise nicht der beste ist