21 Punkte von GN⁺ 2025-09-12 | 2 Kommentare | Auf WhatsApp teilen
  • Ein DIY-Projekt, das mit einem privaten Server in der Waschküche eine Suchmaschine namens Searcha Page/Seek Ninja aufgebaut hat und dabei eine mit Google vergleichbare Erfahrung bietet
  • Startet mit einem Index von rund 2 Milliarden Seiten und peilt innerhalb von sechs Monaten 4 Milliarden Dokumente an; kombiniert klassische Indexierungsverfahren mit LLM-basierter Keyword-Erweiterung und Kontextverständnis
  • Insgesamt 5.000 Dollar wurden in ein aus gebrauchten Serverteilen aufgebautes System der Klasse AMD EPYC 7532 (32 Kerne)·0,5 TB RAM investiert; die Kosten wurden mit einer Strategie der Upgrade-Arbitrage gesenkt
  • Die Abhängigkeit von der Cloud wird minimiert, für die LLM-Inferenz kommt jedoch SambaNovas Llama 3 zum Einsatz; Seek Ninja ist eine datenschutzorientierte Version ohne Profilspeicherung und ohne Standortnutzung
  • Durch den Einsatz von KI wurde kostengünstige Skalierung möglich; seine Codebasis mit 150.000 Zeilen konnte durch LLMs bei wiederholter Entwicklung beschleunigt werden, sodass eine einzelne Person ein groß angelegtes System aufbauen konnte
  • Trotz persönlicher Low-Cost-Konfiguration wurden Genauigkeit und Geschwindigkeit lokaler Suche gesichert; zugleich zeigt das Projekt mit Überlegungen zu einem Umzug in ein Colocation-Rechenzentrum bei künftig steigendem Traffic die experimentellen Möglichkeiten alternativer Suche

Hintergrund: Eine „fast wie Google“ wirkende Suche mit kleiner Hardware

  • Im Kontrast zu Googles Geschichte, die in Stanford mit Servern in Duplo-Gehäusen begann, zeigt dieses Beispiel, dass selbst ein einzelner älterer Server einer modernen Sucherfahrung nahekommen kann
  • Vor 30 Jahren begann Google auf dem Stanford-Campus als Backrub und nutzte einen experimentellen Server mit 40 GB Daten in einem Gehäuse aus Duplo-Steinen
    • Durch Spenden von IBM und Intel wurde später auf ein kleines Server-Rack aufgerüstet, doch im Jahr 2025 ist die Google-Suche auf eine Größenordnung angewachsen, die nicht einmal mehr in ein einzelnes Rechenzentrum passt
  • Ryan Pearces Searcha Page setzt auf einer Maschine in etwa der Größe des ursprünglichen Google-Servers eine moderne Sucherfahrung um
    • Der Server wurde neben Waschmaschine und Trockner aufgestellt, nachdem er aus dem Schlafzimmer verlegt worden war, um Hitze- und Lärmprobleme zu mindern
    • Trotz der Einschränkungen einer Waschküche wird die Qualität der tatsächlichen Suchergebnisse als gefühlt nahe an der Spitzengruppe bewertet
  • Der Index umfasst derzeit rund 2 Milliarden Dokumente; innerhalb von sechs Monaten werden 4 Milliarden Dokumente erwartet
    • Vergleichswerte: Google hatte 1998 24 Millionen Seiten, 2020 400 Milliarden Seiten
    • Die absolute Größe ist zwar klein, für einen selbst gehosteten Einzelserver ist das jedoch ein sehr großer Maßstab

Kerntechnologie: Klassische Indexierung + LLM-Unterstützung

  • Die Gesamtarchitektur folgt einer klassischen Suchmaschinenstruktur, ist jedoch hybrid ausgelegt und nutzt LLMs zur Keyword-Erweiterung und Kontextbewertung
    • Das erinnert an die lange Geschichte der Integration von KI in große Suchmaschinen wie RankBrain und betont, dass KI bereits unabhängig von der heutigen LLM-Abneigung ein Kernelement der Suche war
    • LLMs werden beim Aufbau von Datensätzen und bei der Kontextualisierung als praktisches Werkzeug eingesetzt, um Entwicklungsgeschwindigkeit und Skalierbarkeit zu erhöhen
  • Der Betreiber entwickelte zunächst Funktionen mit LLMs und ersetzte sie später durch klassische Logik; so wuchs die Codebasis auf rund 150.000 Zeilen
    • Einschließlich der iterativen Entwicklung wird der tatsächliche Arbeitsaufwand auf etwa 500.000 Zeilen geschätzt

Infrastruktur: Selbstständige Indexierung und die „Upgrade-Arbitrage“ gebrauchter Server

  • Die Hardware basiert auf einem gebrauchten Server mit AMD EPYC 7532 (32 Kerne); der starke Preisverfall wird aktiv genutzt, da eine CPU, die zum Marktstart über 3.000 Dollar kostete, heute für unter 200 Dollar gehandelt wird
    • Die gesamten Aufbaukosten liegen bei etwa 5.000 Dollar, davon flossen rund 3.000 Dollar in Speicher
    • Mit einer Ausstattung wie 0,5 TB RAM wurde die Fähigkeit geschaffen, mehrere hundert gleichzeitige Sessions zu verarbeiten
  • Entsprechend der Ausrichtung auf Self-Hosting wird die Cloud-Nutzung minimiert; nur für die LLM-Inferenz wird über SambaNova (Llama 3) ein kostengünstiger und schneller Zugang genutzt
    • Öffentliche Web-Korpora wie Common Crawl werden genutzt, um Crawler und Indexer zu beschleunigen; langfristig soll die Abhängigkeit weiter sinken

Produkte: Searcha Page und Seek Ninja

  • Searcha Page: eine klassische SERP-UX ähnlich wie bei Google, die auch bei lokaler Suche brauchbare Ergebnisse liefert
    • Statt Meta-Descriptions kommen LLM-Zusammenfassungen zum Einsatz, um die Erklärung der Relevanz zwischen Anfrage und Dokument zu stärken
  • Seek Ninja: eine datenschutzorientierte Variante ohne Profilspeicherung und ohne Standortnutzung
    • Ein leichtgewichtig-minimalistischer Ansatz, der sich gut als Ersatz für den Inkognito-Modus eignet
  • Für die Monetarisierung werden statt überladener Banner zurückhaltende Affiliate-Anzeigen erprobt; bei stark steigendem Traffic ist ein Wechsel in Colocation geplant

Vergleichsbeispiel: Der Cloud- und Vektoransatz von Wilson Lin

  • Als weiteres persönliches Experiment derselben Zeit verfolgt Wilson Lin mit einer Cloud-nativen Strategie und einer eigenen Vektor-Engine (CoreNN) einen ultrakostengünstigen Betrieb
    • Für jedes Dokument werden LLM-Zusammenfassungen erzeugt, um Query-Dokument-Matching auf andere Weise darzustellen
    • Das gemeinsame Verständnis ist, dass die größere Hürde weniger die Technik als vielmehr Markt und Vertriebskanal sind
  • Pearce hatte zeitweise auch eine Vektor-Datenbank ausprobiert, kehrte jedoch zu klassischen Verfahren zurück, weil die Ergebnisse so ungenau waren, dass er sie als vage und künstlerisch beschrieb, insbesondere im Hinblick auf Ranking-Genauigkeit

Betriebsfragen: Hitze, Lärm und die physischen Einschränkungen einer Waschküche

  • Der Server verursachte im Schlafzimmer durch Hitze Probleme im Alltag und wurde daher in den Hauswirtschaftsraum verlegt; die Konnektivität wurde unter anderem durch Bohrungen für Kabel sichergestellt
    • Wenn die Tür lange geschlossen bleibt, kann Wärmestau zum Problem werden; Belüftung ist daher ein wichtiger Faktor
  • Obwohl eine skeptische Haltung gegenüber der Cloud besteht, wird wegen der Grenzen von LLMs und Traffic ein Umzug in ein Colocation-Rechenzentrum auf Trigger-Basis geprüft

Bedeutung: Das Ein-Personen-Experiment, Google herauszufordern, und die reale Rolle von LLMs

  • Entgegen der verbreiteten Annahme, LLMs seien Werkzeuge, die die Suchqualität ruinieren, sind sie in der Praxis ein Beschleuniger für Entwicklung und Skalierung, der Einzelpersonen die Fähigkeit zum Aufbau von Suchmaschinen gibt
    • Die Kombination aus klassischer Indexierung + LLM-Unterstützung ist ein pragmatischer Kompromiss, der Genauigkeit und Erklärbarkeit zugleich anstrebt
  • Die Kombination aus preiswerten gebrauchten Servern + offenen Korpora + günstigen LLM-APIs belegt, dass sich alternative Suche auch ohne die Ressourcen großer Big-Tech-Konzerne versuchen lässt
    • Zwar bleiben Hürden wie Spracherweiterung, Kosten für kontinuierliches Crawling und Resistenz gegen Spam, doch zeigt das Projekt im Bereich Nischen-Suche und datenschutzorientierter Suche eine experimentelle Wettbewerbsfähigkeit

2 Kommentare

 
savvykang 2025-09-12

Paywall-Umgehungslink https://archive.is/dLEl5

 
GN⁺ 2025-09-12
Hacker-News-Kommentare
  • Ich habe selbst einen Domain-Index erstellt. Ich habe nicht alle Unterseiten jeder Domain gecrawlt, aber das war auch nicht das Ziel. Aktuell enthält er 1.542.766 Domains. Das ist nicht besonders viel, aber die Daten wurden ehrlich gesammelt. Das Ganze ist für alle in einem GitHub-Repository verfügbar, also kann es als Referenz dienen, wenn man mit dem Crawling anfangen möchte: Internet-Places-Database

    • Wirklich ein tolles Projekt. Ich frage mich, wovon du dich am Anfang inspirieren lassen hast. Und im Readme gibt es einen kaputten Link: https://rumca-js.github.io/internet full internet search

    • Bekommt man nicht die offizielle Domain-Liste des Tages, wenn man die Zone Files von ICANN anfordert?

  • Ich wollte so etwas 2023 auch versuchen! Der schwierigste Teil beim Bau einer Suchmaschine ist in Wirklichkeit nicht die "Suche" selbst, sondern das Erstellen des Index und, wie andere schon gesagt haben, das Crawlen eines sehr feindseligen Internets — besonders, wenn alles auf einem einzelnen Heimserver ohne IP-Rotation läuft. Ich hoffe, diese Person hat Erfolg und wird in der Community so eine Referenz wie der Ersteller von Marginalia. Wenn ich das lese, bekomme ich selbst wieder Lust, es noch einmal zu versuchen.

    • Es lohnt sich wahrscheinlich, open-webindex von openwebsearch.eu als Lesezeichen zu speichern. Es ist noch nicht Open Source, aber vielleicht wird es veröffentlicht, wenn die Beta-Phase vorbei ist. Der genaue Plan ist allerdings noch unklar.

    • Ich frage mich, ob die Daten von commoncrawl für so ein Projekt brauchbar sind.

    • Ich habe darüber nachgedacht, das Crawling per Crowdsourcing zu organisieren. Das könnte das Problem mit der IP-Rotation lösen und die Last verteilen.

    • Das Thema IP ist interessant. Ich hatte früher mal einen CSGO-Bot gebaut, um Steam-Preise zu scrapen, und sogar Proxy-Dienste ausprobiert, wurde aber von Steam blockiert. Deshalb frage ich mich, ob die Leute echte IPs kaufen.

    • Es macht eindeutig einen Unterschied, ob man einen Index hat oder nicht. Aber die Sortierung der Ergebnisse ist ein ganz anderes Thema. Zum Beispiel: Was sollte auf Seite 200 erscheinen, und sind die Ergebnisse dort überhaupt noch sinnvoll?

  • Ich habe auf https://searcha.page/ zufällig gesucht und die Meldung bekommen: "Beim Erstellen der Suchergebnisse ist ein Fehler aufgetreten."

    • Hoffentlich ist nicht der Hug of Death eingetreten. Im Waschsalon dürfte es jetzt verdammt heiß werden.

    • Meine Nutzung war diese Woche 20-mal höher als letzte Woche. Der eigentliche Suchdienst war überraschenderweise nicht der Flaschenhals, sondern die Kontext-Erweiterung. Der Nutzungsgraph geht fast senkrecht nach oben. Ich weiß ehrlich gesagt nicht, ob das eine gute Woche war oder nicht.

    • Ich habe dasselbe Verhalten auch bei https://seek.ninja/s?q=beatles erlebt.

    • Vor diesem Problem war die erste Suchergebnisseite (SERP) ziemlich beeindruckend.

  • Ich bekam den Hinweis, dass ich mein Artikellimit erreicht habe. Das letzte Mal, dass ich einen Fast-Company-Link gesehen habe, ist bestimmt zehn Jahre her! Ich hatte mich schon gefreut, mal wieder etwas von ihnen lesen zu können, aber am Ende blieb nur Enttäuschung. Ich habe mir den Inhalt bei archive angesehen, und dort steht:

    • Die neue Suchmaschine Search-a-Page hat auch eine auf Privatsphäre fokussierte Version namens Seek Ninja.
    • Das Geheimnis ist ein großes Sprachmodell. Es funktioniert fast wie traditionelle Suche, nur dass KI bei der Keyword-Erweiterung und dem Kontextverständnis hilft.
    • Es gibt einen Blogpost darüber, wie ein ambitionierter Hobbyentwickler namens Wilson Lin auf seine eigene Weise eine Suchmaschine gebaut hat: Blog
    • Es werden auch nichtkommerzielle Toy-Suchmaschinen wie Marginalia erwähnt.
    • "Warum ein Waschsalon? Wegen Hitze und Lärm." Die Maschine läuft auf einem 32-Core AMD EPYC 7532, 0,5 TB RAM, Gesamtkosten $5.000 plus $3.000 für Speicher.
    • Ich habe mich kürzlich regelrecht durch Wilson Lins Blog gelesen; für Amateure mit Interesse an Suchmaschinen und LLMs ist das extrem nützlich und qualitativ hochwertig: Blog

    • Mit dem Firefox-Lesemodus — manchmal hilft zusätzliches Neuladen — kommt man durch die meisten Paywalls, auch bei diesem Artikel.

  • "Für den 32-Core-Prozessor AMD EPYC 7532 musste man bei der Markteinführung noch über $3.000 zahlen, heute bekommt man ihn bei eBay für unter $200." Ich frage mich, warum ich solche Schnäppchen nie sehe, wenn ich nach Homelab-Teilen suche.

    • Man muss Zeit investieren, auch schlecht beschriftete Angebote gründlich durchsuchen und bereit sein, selbst bei Verkäufern ohne Reputation zu kaufen.

    • Wenn man nach 'AMD EPYC 7532' sucht, gibt es jede Menge Angebote im Bereich von $150 bis $200. Vielleicht waren das einfach noch nicht die Preise, als du nach Homelab-Hardware gesucht hast?

    • Kein CPU, aber ich habe Anfang dieses Jahres bei eBay eine ThinkPad-Workstation aus dem Baujahr 2020 für $500 gekauft. Neu hat sie $5.700 gekostet. So funktioniert der Hardware-Markt auf eBay eben. Wartet man fünf Jahre, fällt der Preis auf ein Zehntel.

    • TheServerStore.com hat manchmal gute Deals. Anfang dieses Jahres habe ich mir dort einen neuen 64-Core-EPYC-7702-Server mit 256 GB RAM und 8 TB NVMe für insgesamt rund $3.000 zusammengestellt.

    • Eine Möglichkeit ist auch, QC-bewertete Chips zu kaufen und es selbst zu versuchen. So habe ich meine auch gekauft. Der größte Kostenpunkt waren bei mir die Festplatten, danach der RAM. Die Chips wirkten vergleichsweise günstig.

  • Ich finde das Projekt sehr cool und hoffe, dass es vor allem Spaß macht. Ich selbst habe mir dutzende Male ausgemalt, eine Suchmaschine zu bauen, bin aber immer wieder gegen Wände gelaufen. Das Internet von 1999 und das von heute sind völlig verschieden. Schon das Entdecken selbst hat heute kaum noch denselben Wert. Selbst wenn man etwa einen privaten Blog über Dinosaurier findet, wurde er seit 2004 nicht mehr aktualisiert, die Bilder und Links sind kaputt, und inzwischen sind Wikipedia oder das Smithsonian einfach viel besser. Solche besonderen persönlichen Seiten zu finden, macht zwar noch Spaß, aber es ist nicht mehr so wertvoll wie früher. Realistisch betrachtet bewegen wir uns wieder zu einem hub-zentrierten Netzwerk zurück, in dem Plattformen wie YouTube, TikTok, Medium, Reddit oder die Mayo Clinic bestimmte Inhalte monopolartig bündeln. Diese großen Plattformen sind gegenüber individuellen Crawlern restriktiv, gegenüber dem Google-Crawler aber freundlich — Google bringt ihnen schließlich Nutzerverkehr. Warum sollten sie ausgerechnet meinen Crawler einfach zulassen? Trotzdem gebe ich nicht auf. Vielleicht braucht dieses hub-basierte Internet eine hub-bewusste Suchmaschine.

  • Der Ausdruck "Google-Rivale" ist etwas übertrieben. Einfach "Suchmaschine" zu sagen wäre angesichts all dessen, was Google heute macht, sogar präziser.

  • Ich kann nicht allen direkt antworten, aber ich bin tatsächlich die Person, die diese Suchmaschine betreibt. Ja, sie ist heute wegen des massiven Traffic-Anstiegs ausgefallen. Die Nutzung war 20-mal höher als letzte Woche, und ich war überhaupt nicht darauf vorbereitet. Irgendwie hatte ich vage angenommen, dass das Nutzerwachstum langsam und stetig verlaufen würde. Danke an alle, die es ausprobiert haben, und es tut mir leid, wenn der Dienst nicht richtig funktioniert hat. Heute war das erste echte "Trial by Fire" für mich.

  • Großartige Kombination aus echter Innovation, Cloud-Skepsis und Self-Hosting. Davon sollte es viel mehr geben, finde ich.