- Ein DIY-Projekt, das mit einem privaten Server in der Waschküche eine Suchmaschine namens Searcha Page/Seek Ninja aufgebaut hat und dabei eine mit Google vergleichbare Erfahrung bietet
- Startet mit einem Index von rund 2 Milliarden Seiten und peilt innerhalb von sechs Monaten 4 Milliarden Dokumente an; kombiniert klassische Indexierungsverfahren mit LLM-basierter Keyword-Erweiterung und Kontextverständnis
- Insgesamt 5.000 Dollar wurden in ein aus gebrauchten Serverteilen aufgebautes System der Klasse AMD EPYC 7532 (32 Kerne)·0,5 TB RAM investiert; die Kosten wurden mit einer Strategie der Upgrade-Arbitrage gesenkt
- Die Abhängigkeit von der Cloud wird minimiert, für die LLM-Inferenz kommt jedoch SambaNovas Llama 3 zum Einsatz; Seek Ninja ist eine datenschutzorientierte Version ohne Profilspeicherung und ohne Standortnutzung
- Durch den Einsatz von KI wurde kostengünstige Skalierung möglich; seine Codebasis mit 150.000 Zeilen konnte durch LLMs bei wiederholter Entwicklung beschleunigt werden, sodass eine einzelne Person ein groß angelegtes System aufbauen konnte
- Trotz persönlicher Low-Cost-Konfiguration wurden Genauigkeit und Geschwindigkeit lokaler Suche gesichert; zugleich zeigt das Projekt mit Überlegungen zu einem Umzug in ein Colocation-Rechenzentrum bei künftig steigendem Traffic die experimentellen Möglichkeiten alternativer Suche
Hintergrund: Eine „fast wie Google“ wirkende Suche mit kleiner Hardware
- Im Kontrast zu Googles Geschichte, die in Stanford mit Servern in Duplo-Gehäusen begann, zeigt dieses Beispiel, dass selbst ein einzelner älterer Server einer modernen Sucherfahrung nahekommen kann
- Vor 30 Jahren begann Google auf dem Stanford-Campus als Backrub und nutzte einen experimentellen Server mit 40 GB Daten in einem Gehäuse aus Duplo-Steinen
- Durch Spenden von IBM und Intel wurde später auf ein kleines Server-Rack aufgerüstet, doch im Jahr 2025 ist die Google-Suche auf eine Größenordnung angewachsen, die nicht einmal mehr in ein einzelnes Rechenzentrum passt
- Ryan Pearces Searcha Page setzt auf einer Maschine in etwa der Größe des ursprünglichen Google-Servers eine moderne Sucherfahrung um
- Der Server wurde neben Waschmaschine und Trockner aufgestellt, nachdem er aus dem Schlafzimmer verlegt worden war, um Hitze- und Lärmprobleme zu mindern
- Trotz der Einschränkungen einer Waschküche wird die Qualität der tatsächlichen Suchergebnisse als gefühlt nahe an der Spitzengruppe bewertet
- Der Index umfasst derzeit rund 2 Milliarden Dokumente; innerhalb von sechs Monaten werden 4 Milliarden Dokumente erwartet
- Vergleichswerte: Google hatte 1998 24 Millionen Seiten, 2020 400 Milliarden Seiten
- Die absolute Größe ist zwar klein, für einen selbst gehosteten Einzelserver ist das jedoch ein sehr großer Maßstab
Kerntechnologie: Klassische Indexierung + LLM-Unterstützung
- Die Gesamtarchitektur folgt einer klassischen Suchmaschinenstruktur, ist jedoch hybrid ausgelegt und nutzt LLMs zur Keyword-Erweiterung und Kontextbewertung
- Das erinnert an die lange Geschichte der Integration von KI in große Suchmaschinen wie RankBrain und betont, dass KI bereits unabhängig von der heutigen LLM-Abneigung ein Kernelement der Suche war
- LLMs werden beim Aufbau von Datensätzen und bei der Kontextualisierung als praktisches Werkzeug eingesetzt, um Entwicklungsgeschwindigkeit und Skalierbarkeit zu erhöhen
- Der Betreiber entwickelte zunächst Funktionen mit LLMs und ersetzte sie später durch klassische Logik; so wuchs die Codebasis auf rund 150.000 Zeilen
- Einschließlich der iterativen Entwicklung wird der tatsächliche Arbeitsaufwand auf etwa 500.000 Zeilen geschätzt
Infrastruktur: Selbstständige Indexierung und die „Upgrade-Arbitrage“ gebrauchter Server
- Die Hardware basiert auf einem gebrauchten Server mit AMD EPYC 7532 (32 Kerne); der starke Preisverfall wird aktiv genutzt, da eine CPU, die zum Marktstart über 3.000 Dollar kostete, heute für unter 200 Dollar gehandelt wird
- Die gesamten Aufbaukosten liegen bei etwa 5.000 Dollar, davon flossen rund 3.000 Dollar in Speicher
- Mit einer Ausstattung wie 0,5 TB RAM wurde die Fähigkeit geschaffen, mehrere hundert gleichzeitige Sessions zu verarbeiten
- Entsprechend der Ausrichtung auf Self-Hosting wird die Cloud-Nutzung minimiert; nur für die LLM-Inferenz wird über SambaNova (Llama 3) ein kostengünstiger und schneller Zugang genutzt
- Öffentliche Web-Korpora wie Common Crawl werden genutzt, um Crawler und Indexer zu beschleunigen; langfristig soll die Abhängigkeit weiter sinken
Produkte: Searcha Page und Seek Ninja
- Searcha Page: eine klassische SERP-UX ähnlich wie bei Google, die auch bei lokaler Suche brauchbare Ergebnisse liefert
- Statt Meta-Descriptions kommen LLM-Zusammenfassungen zum Einsatz, um die Erklärung der Relevanz zwischen Anfrage und Dokument zu stärken
- Seek Ninja: eine datenschutzorientierte Variante ohne Profilspeicherung und ohne Standortnutzung
- Ein leichtgewichtig-minimalistischer Ansatz, der sich gut als Ersatz für den Inkognito-Modus eignet
- Für die Monetarisierung werden statt überladener Banner zurückhaltende Affiliate-Anzeigen erprobt; bei stark steigendem Traffic ist ein Wechsel in Colocation geplant
Vergleichsbeispiel: Der Cloud- und Vektoransatz von Wilson Lin
- Als weiteres persönliches Experiment derselben Zeit verfolgt Wilson Lin mit einer Cloud-nativen Strategie und einer eigenen Vektor-Engine (CoreNN) einen ultrakostengünstigen Betrieb
- Für jedes Dokument werden LLM-Zusammenfassungen erzeugt, um Query-Dokument-Matching auf andere Weise darzustellen
- Das gemeinsame Verständnis ist, dass die größere Hürde weniger die Technik als vielmehr Markt und Vertriebskanal sind
- Pearce hatte zeitweise auch eine Vektor-Datenbank ausprobiert, kehrte jedoch zu klassischen Verfahren zurück, weil die Ergebnisse so ungenau waren, dass er sie als vage und künstlerisch beschrieb, insbesondere im Hinblick auf Ranking-Genauigkeit
Betriebsfragen: Hitze, Lärm und die physischen Einschränkungen einer Waschküche
- Der Server verursachte im Schlafzimmer durch Hitze Probleme im Alltag und wurde daher in den Hauswirtschaftsraum verlegt; die Konnektivität wurde unter anderem durch Bohrungen für Kabel sichergestellt
- Wenn die Tür lange geschlossen bleibt, kann Wärmestau zum Problem werden; Belüftung ist daher ein wichtiger Faktor
- Obwohl eine skeptische Haltung gegenüber der Cloud besteht, wird wegen der Grenzen von LLMs und Traffic ein Umzug in ein Colocation-Rechenzentrum auf Trigger-Basis geprüft
Bedeutung: Das Ein-Personen-Experiment, Google herauszufordern, und die reale Rolle von LLMs
- Entgegen der verbreiteten Annahme, LLMs seien Werkzeuge, die die Suchqualität ruinieren, sind sie in der Praxis ein Beschleuniger für Entwicklung und Skalierung, der Einzelpersonen die Fähigkeit zum Aufbau von Suchmaschinen gibt
- Die Kombination aus klassischer Indexierung + LLM-Unterstützung ist ein pragmatischer Kompromiss, der Genauigkeit und Erklärbarkeit zugleich anstrebt
- Die Kombination aus preiswerten gebrauchten Servern + offenen Korpora + günstigen LLM-APIs belegt, dass sich alternative Suche auch ohne die Ressourcen großer Big-Tech-Konzerne versuchen lässt
- Zwar bleiben Hürden wie Spracherweiterung, Kosten für kontinuierliches Crawling und Resistenz gegen Spam, doch zeigt das Projekt im Bereich Nischen-Suche und datenschutzorientierter Suche eine experimentelle Wettbewerbsfähigkeit
Noch keine Kommentare.