Die Entwicklung der Marginalia-Suchmaschine
- Die Marginalia-Suche begann als kleines Experiment, ist inzwischen aber zu einem Vollzeitprojekt geworden.
- Die Suchmaschine funktioniert derzeit besser denn je und hat viele Meilensteine erreicht.
- Die Suchmaschine ist aus dem Wohnzimmer in einen richtigen Enterprise-Server umgezogen.
Aufräumen der Codebasis und Straffung der Anwendung
- Ein zentrales Thema dieses Jahres war es, die Codebasis aufzuräumen und die Anwendung zu straffen.
- Der Fokus lag darauf, den operativen Aufwand beherrschbar zu halten und anderen den Zugang zur Anwendung und zur Codebasis zu erleichtern.
- Es war viel Arbeit nötig, aber die Ergebnisse werden langsam sichtbar.
Verbesserungen im Betrieb
- Früher waren beim Wechsel des Indexes mehrtägige Ausfälle nötig, heute ist das nicht mehr so.
- Inzwischen sind sogar Upgrades ohne Downtime möglich.
- Dinge, die im Betrieb früher wochenlange manuelle Prozesse erforderten, wurden nun durch einen Knopfdruck in der GUI ersetzt.
Unterstützung für Anchor-Text-Keywords hinzugefügt
- Die Unterstützung für Anchor-Text-Keywords hatte großen Einfluss auf die Fähigkeit der Suchmaschine, relevante Ergebnisse zu finden.
- Als die Änderung zunächst eingeführt wurde, fiel sie nicht sofort auf, weil die Integration noch nicht gut funktionierte. Doch als sich das neue Relevanzsignal etabliert hatte, gab es einige erstaunliche Momente.
Der Wechsel in die Vollzeit
- Dank der Förderung durch NLnet wurde das Projekt vor etwa acht Monaten zu einer Vollzeittätigkeit.
- Der schwierigste Teil war, nicht zu viel zu arbeiten, und es wird versucht, mindestens einen Tag pro Woche freizunehmen.
- Da bekannt ist, dass man mit ausreichend Erholung klüger arbeitet, ist es theoretisch wichtig, sich gelegentlich frei zu nehmen, um die Arbeit besser zu machen.
Das Ziel: 1 Milliarde indexierte Dokumente
- Die Reise in Richtung 1 Milliarde indexierter Dokumente schreitet langsam voran.
- Nicht weil die Software das nicht bewältigen könnte, sondern weil das Signal-Rausch-Verhältnis im Web schlechter ist als erwartet.
- Einer der großen Gründe, warum die Suchmaschine relativ gut funktioniert, ist das, was nicht indexiert wird.
- Der Index lag vor einem Jahr noch zwischen 50 und 100 Millionen, erreichte beim letzten Crawling aber 220 Millionen und dürfte nach Abschluss der nächsten Crawling-Runde bei 290 bis 300 Millionen liegen.
Verbesserungen bei Query-Parsing und Ausführung
- Beim Query-Parsing und der Ausführung gibt es noch viel Raum für Verbesserungen.
- Es wurde bereits mit vorbereitenden Arbeiten begonnen, um den betroffenen Code aufzuräumen, bevor die eigentliche Arbeit startet.
- Große Sprünge im Projekt waren immer experimentell; es gibt zwar geplante Änderungen, aber vermutlich werden die ungeplanten am Ende den größten Einfluss haben.
Dankesworte
- Dank an NLnet, FUTO, die Unterstützer auf Patreon, die Fürsprecher und die Nutzer.
- Ohne ihre Unterstützung wäre all das nicht möglich gewesen.
Meinung von GN⁺
- Die Marginalia-Suchmaschine ist ein Beispiel dafür, wie aus einem kleinen Experiment durch kontinuierliche Verbesserungen und die Unterstützung der Community ein Vollzeitprojekt werden kann.
- Funktionale Verbesserungen wie die Unterstützung für Anchor-Text-Keywords waren wichtige Änderungen, die die Leistung der Suchmaschine deutlich gesteigert haben.
- Das Projekt bietet der Open-Source-Community und Entwicklern Möglichkeiten zur Zusammenarbeit und Mitwirkung und trägt zur Weiterentwicklung der Suchmaschinentechnologie bei.
1 Kommentare
Hacker-News-Kommentare
C&C Tiberian Sunper Binär-Patch IPv6-Unterstützung erhalten hatte, und vermisste daraufhin das alte Web. Es erinnere an Fravias Searchlores und wirke so, als hätte Umberto Eco sich für Computer interessiert. Es sei wie das Erlebnis, im Bibliothekslabyrinth aus „Der Name der Rose“ etwas Erstaunliches zu entdecken und es später für immer wieder zu verlieren.transformers intuitionsuchte. Während Google vor allem SEO-optimierte Websites, meist Medium, und aufwendig gestaltete Seiten mit schwächerem Inhalt anzeigte, seien die Ergebnisse dieser Suchmaschine beeindruckend gewesen.