1 Punkte von GN⁺ 2024-02-26 | 1 Kommentare | Auf WhatsApp teilen

Die Entwicklung der Marginalia-Suchmaschine

  • Die Marginalia-Suche begann als kleines Experiment, ist inzwischen aber zu einem Vollzeitprojekt geworden.
  • Die Suchmaschine funktioniert derzeit besser denn je und hat viele Meilensteine erreicht.
  • Die Suchmaschine ist aus dem Wohnzimmer in einen richtigen Enterprise-Server umgezogen.

Aufräumen der Codebasis und Straffung der Anwendung

  • Ein zentrales Thema dieses Jahres war es, die Codebasis aufzuräumen und die Anwendung zu straffen.
  • Der Fokus lag darauf, den operativen Aufwand beherrschbar zu halten und anderen den Zugang zur Anwendung und zur Codebasis zu erleichtern.
  • Es war viel Arbeit nötig, aber die Ergebnisse werden langsam sichtbar.

Verbesserungen im Betrieb

  • Früher waren beim Wechsel des Indexes mehrtägige Ausfälle nötig, heute ist das nicht mehr so.
  • Inzwischen sind sogar Upgrades ohne Downtime möglich.
  • Dinge, die im Betrieb früher wochenlange manuelle Prozesse erforderten, wurden nun durch einen Knopfdruck in der GUI ersetzt.

Unterstützung für Anchor-Text-Keywords hinzugefügt

  • Die Unterstützung für Anchor-Text-Keywords hatte großen Einfluss auf die Fähigkeit der Suchmaschine, relevante Ergebnisse zu finden.
  • Als die Änderung zunächst eingeführt wurde, fiel sie nicht sofort auf, weil die Integration noch nicht gut funktionierte. Doch als sich das neue Relevanzsignal etabliert hatte, gab es einige erstaunliche Momente.

Der Wechsel in die Vollzeit

  • Dank der Förderung durch NLnet wurde das Projekt vor etwa acht Monaten zu einer Vollzeittätigkeit.
  • Der schwierigste Teil war, nicht zu viel zu arbeiten, und es wird versucht, mindestens einen Tag pro Woche freizunehmen.
  • Da bekannt ist, dass man mit ausreichend Erholung klüger arbeitet, ist es theoretisch wichtig, sich gelegentlich frei zu nehmen, um die Arbeit besser zu machen.

Das Ziel: 1 Milliarde indexierte Dokumente

  • Die Reise in Richtung 1 Milliarde indexierter Dokumente schreitet langsam voran.
  • Nicht weil die Software das nicht bewältigen könnte, sondern weil das Signal-Rausch-Verhältnis im Web schlechter ist als erwartet.
  • Einer der großen Gründe, warum die Suchmaschine relativ gut funktioniert, ist das, was nicht indexiert wird.
  • Der Index lag vor einem Jahr noch zwischen 50 und 100 Millionen, erreichte beim letzten Crawling aber 220 Millionen und dürfte nach Abschluss der nächsten Crawling-Runde bei 290 bis 300 Millionen liegen.

Verbesserungen bei Query-Parsing und Ausführung

  • Beim Query-Parsing und der Ausführung gibt es noch viel Raum für Verbesserungen.
  • Es wurde bereits mit vorbereitenden Arbeiten begonnen, um den betroffenen Code aufzuräumen, bevor die eigentliche Arbeit startet.
  • Große Sprünge im Projekt waren immer experimentell; es gibt zwar geplante Änderungen, aber vermutlich werden die ungeplanten am Ende den größten Einfluss haben.

Dankesworte

  • Dank an NLnet, FUTO, die Unterstützer auf Patreon, die Fürsprecher und die Nutzer.
  • Ohne ihre Unterstützung wäre all das nicht möglich gewesen.

Meinung von GN⁺

  • Die Marginalia-Suchmaschine ist ein Beispiel dafür, wie aus einem kleinen Experiment durch kontinuierliche Verbesserungen und die Unterstützung der Community ein Vollzeitprojekt werden kann.
  • Funktionale Verbesserungen wie die Unterstützung für Anchor-Text-Keywords waren wichtige Änderungen, die die Leistung der Suchmaschine deutlich gesteigert haben.
  • Das Projekt bietet der Open-Source-Community und Entwicklern Möglichkeiten zur Zusammenarbeit und Mitwirkung und trägt zur Weiterentwicklung der Suchmaschinentechnologie bei.

1 Kommentare

 
GN⁺ 2024-02-26
Hacker-News-Kommentare
  • Ein Nutzer hat diese Seite als Lesezeichen gespeichert, um sehr spezifisches Material zum numerischen Modellieren zu finden. Er fand dort Informationen über Solver, Mesh-Generierung und Optimierungsmethoden aus den 1980er- und 1990er-Jahren, die sich über Google nicht finden ließen, und empfand es als sehr wertvoll, von Experten geschriebene Seiten zu entdecken, die Google niemals gefunden hätte.
  • Das Signal-Rausch-Verhältnis des Webs ist schlecht, was es schwieriger macht als erwartet. Einer der Gründe, warum Suchmaschinen relativ gut funktionieren, ist, dass sie bestimmte Dinge gar nicht indexieren.
  • Ein Nutzer fand eine zufällige Website, auf der C&C Tiberian Sun per Binär-Patch IPv6-Unterstützung erhalten hatte, und vermisste daraufhin das alte Web. Es erinnere an Fravias Searchlores und wirke so, als hätte Umberto Eco sich für Computer interessiert. Es sei wie das Erlebnis, im Bibliothekslabyrinth aus „Der Name der Rose“ etwas Erstaunliches zu entdecken und es später für immer wieder zu verlieren.
  • Ein anderer Nutzer sagte, es fühle sich wie früher an. 1998 konnte man selbst mit AltaVista keine Unterschiede zwischen dem Buch und dem Film „Im Westen nichts Neues“ finden, heute aber finde man unzählige persönliche Blogseiten, Universitätsarbeiten, Code-Seiten, Mailinglisten-Diskussionen, Blogs, Rust-Diskussionsgruppen, persönliche Websites und Fachdebatten zu diesem Thema.
  • Ein Nutzer war überrascht, als er nach transformers intuition suchte. Während Google vor allem SEO-optimierte Websites, meist Medium, und aufwendig gestaltete Seiten mit schwächerem Inhalt anzeigte, seien die Ergebnisse dieser Suchmaschine beeindruckend gewesen.
  • Ein Nutzer fragte sich, ob Common Crawl nützlich sein könnte. Der Datensatz umfasst derzeit rund 100 TB mit 3,35 Milliarden Seiten; das Herunterladen würde lange dauern, sofern man ihn nicht direkt in S3 verarbeitet, und wie gut dabei das Signal-Rausch-Verhältnis wäre, wisse er nicht.
  • Es gibt einen Nutzer, der die Funktion „Random Site“ infrage stellt. Er habe eine gleichmäßige Stichprobe erwartet, aber es scheine, als würden bestimmte Websites wiederholt zurückgegeben.
  • Ein Nutzer verwendet es nicht oft, weil er an Google gewöhnt ist, hält Marginalia aber für ein großartiges Projekt und glaubt, dass er es in Zukunft häufiger nutzen wird, da Spam-SEO-Seiten und KI-generierte Antworten immer verbreiteter werden.
  • Abschließend sagte ein Nutzer, er habe es kürzlich mit den Google-Suchergebnissen verglichen: Die Ergebnisse zur niedrigsten Punktzahl im indischen Test-Cricket seien nicht gut gewesen, die Resultate für einen RAID-Rechner seien ordentlich, aber verrauscht gewesen, und zur Suche nach den Unterschieden zwischen Film und Buch von „Im Westen nichts Neues“ habe es überhaupt keine Ergebnisse gegeben.