5 Punkte von GN⁺ 2026-03-30 | 1 Kommentare | Auf WhatsApp teilen
  • Miasma ist ein serverseitiges Tool auf Rust-Basis, das AI-Web-Scraper in eine Endlosschleife treibt und so das Sammeln von Trainingsdaten behindert
  • Es leitet den Traffic von AI-Unternehmen um, die Website-Inhalte in großem Umfang sammeln, und liefert verschmutzte Daten sowie selbstreferenzielle Links aus der „poison fountain“ zurück
  • Dank hoher Verarbeitungsgeschwindigkeit und geringem Speicherverbrauch ist eine Abwehr ohne Verschwendung von Serverressourcen möglich
  • Über einen Nginx-Reverse-Proxy und das Einfügen versteckter Links werden Scraper auf den Pfad /bots gelenkt, wodurch eine unendliche Zirkulationsstruktur entsteht
  • Normale Suchmaschinen werden durch Ausnahmeregeln in robots.txt geschützt, und als Open Source erlaubt das Projekt Beiträge aus der Community

Installation und Ausführung

  • Installation über Cargo möglich
    • Installation mit dem Befehl cargo install miasma
  • Vorgebaute Binärdateien können von der GitHub-Seite Releases heruntergeladen werden
  • Beim Start mit den Standardeinstellungen genügt der Befehl miasma
  • Alle Konfigurationsoptionen lassen sich mit miasma --help anzeigen

So richtet man die Scraper-Falle ein

  • Den Pfad /bots als Einstiegspunkt für Scraper festlegen
  • Nginx als Reverse Proxy verwenden, um Anfragen an den Pfad /bots an den Miasma-Server weiterzuleiten
    location ~ ^/bots($|/.*)$ {
      proxy_pass http://localhost:9855;
    }
    
    • Entspricht allen Pfadvarianten wie /bots, /bots/, /bots/12345
  • Versteckte Links einfügen

    • Auf der Webseite versteckte Links hinzufügen, die für menschliche Besucher unsichtbar sind, aber von Scrapern erkannt werden können
      [Amazing high quality data here!](/bots)
      
    • Durch die Attribute display: none, aria-hidden="true", tabindex="1" bleiben sie für Nutzer und Accessibility-Tools verborgen
  • Miasma ausführen

    • /bots als Link-Präfix angeben sowie Port und Limit für gleichzeitige Verbindungen festlegen
      miasma --link-prefix '/bots' -p 9855 -c 50
      
    • Es werden maximal 50 gleichzeitige Verbindungen zugelassen; bei weiteren Anfragen wird HTTP 429 zurückgegeben
    • Bei 50 Verbindungen wird ein Speicherverbrauch von etwa 50–60 MB erwartet
  • Verhalten nach dem Deployment

    • Nach Abschluss der Konfiguration und dem Deployment zirkulieren Scraper entlang des Pfads /bots endlos durch Seiten mit verschmutzten Daten
    • Über Logs lassen sich die wiederholten Anfragen der Scraper in Echtzeit beobachten

robots.txt konfigurieren

  • Damit normale Suchmaschinen-Crawler nicht auf Miasma zugreifen, müssen Ausnahmeregeln in robots.txt ergänzt werden
    User-agent: Googlebot
    User-agent: Bingbot
    User-agent: DuckDuckBot
    User-agent: Slurp
    User-agent: SomeOtherNiceBot
    Disallow: /bots
    Allow: /
    

Konfigurationsoptionen

  • Detaillierte Einstellungen sind über CLI-Optionen möglich
Option Standardwert Beschreibung
port 9999 Port, an den der Server gebunden wird
host localhost Host-Adresse, an die der Server gebunden wird
max-in-flight 500 Maximale Anzahl gleichzeitig verarbeitbarer Anfragen. Bei Überschreitung wird 429 zurückgegeben. Der Speicherverbrauch ist proportional zu diesem Wert
link-prefix / Präfix der selbstreferenziellen Links, z. B. /bots
link-count 5 Anzahl selbstreferenzieller Links pro Antwortseite
force-gzip false Erzwingt gzip-Komprimierung immer, unabhängig vom Accept-Encoding-Header des Clients. Nützlich zur Senkung der Übertragungskosten
poison-source https://rnsaffn.com/poison2/ Proxy-Quelle, aus der verschmutzte Trainingsdaten abgerufen werden

Entwicklung und Beiträge

  • Bug-Reports oder Funktionsvorschläge können über GitHub Issues eingereicht werden
  • Von AI generierte Code-Beiträge werden automatisch abgelehnt
  • Beiträge aus der Community sind willkommen, und das Projekt bleibt Open Source

1 Kommentare

 
GN⁺ 2026-03-30
Hacker-News-Kommentare
  • Ich frage mich, ob solche Bot-Störtechniken tatsächlich wirken, so wie wenn jemand Telefon-Spammer 45 Minuten lang in der Leitung hält.
    Laut den Google-Search-Richtlinien ist das Einfügen versteckter Links ein klarer Verstoß, wodurch das Ranking einer Website sinken oder sie ganz aus den Suchergebnissen entfernt werden kann.
    Am Ende könnte dieser Ansatz meiner Website mehr schaden als den Bots.

    • Wenn man es automatisiert, könnte es vielleicht funktionieren.
      So wie der YouTuber Kitboga Spam-Anrufe mit einem KI-Callcenter festhält, wie in diesem Video, kann man es als eine Art Guerilla-Taktik sehen, die die Ressourcen des Gegners aufbraucht.
    • Ich habe Telefon-Spammer tatsächlich einmal sehr lange hingehalten, und danach kamen keine Anrufe mehr.
      Sie scheinen getrennte Listen für „nicht anrufen“ und „nicht profitabel“ zu führen. Entscheidend ist, auf Letztere zu kommen.
    • Das erinnert mich an den Spam einer russischen Englischschule in den 2000ern.
      Die Leute waren so wütend, dass Golden Telecom automatische Vergeltungsanrufe startete und die Firma verschwand.
      So etwas könnte also wirken, aber dafür braucht man einen gemieteten Modem-Pool.
    • Dass das Einfügen versteckter Links verboten ist, stimmt, aber ich würde das eher gern als Anlass für eine Wiederbelebung des „Small Web“ sehen.
      Wenn Werkzeuge mit Anti-Scraping, Anti-Google-Crawlern und einem menschenzentrierten Suchindex entstehen, gäbe es Potenzial.
    • Es gibt tatsächlich Forschung, die zeigt, dass solche Datenvergiftungs-Techniken wirksam sind.
  • Die Inhalte meiner öffentlichen Website werden von Scrapern gestohlen.
    Am Ende habe ich diesen Beitrag auch gestohlen, und du stiehlst gewissermaßen meinen Kommentar. Die Welt ist voller Diebe.

    • Das Problem ist, dass sie so viele Anfragen schicken, dass meine Website ausfällt.
      Die Inhalte sind für alle offen, aber ich will nicht, dass dadurch am Ende niemand mehr darauf zugreifen kann.
    • „Stehlen“ ist vielleicht übertrieben, aber es ist unerquicklich, wenn meine Texte als Mittel zum Geldverdienen missbraucht werden.
      Wenn das so weitergeht, möchte ich irgendwann nichts mehr teilen.
    • Menschen haben rechtlich gesehen Rechte und Freiheiten, LLMs aber nicht.
      Menschen und Werkzeuge von Unternehmen auf dieselbe Stufe zu stellen, ist letztlich ein falscher Vergleich.
    • Wie in einer sarkastischen Zeile à la „Welcome to the internet…“ leben wir längst in einer Welt, in der wir Daten und Privatsphäre aufgegeben haben.
  • Früher habe ich kostenpflichtige Software entwickelt und Kopierschutz-Code eingebaut, aber jedes Mal tauchte ein neuer Crack auf.
    Irgendwann habe ich gemerkt, dass dieser Kampf sinnlos ist, und den Schutzcode entfernt.
    Versuche, das Crawling von KI-Bots zu verhindern, wirken auf mich wie dasselbe Whac-A-Mole-Spiel.

    • Vielleicht hätte man gewonnen, wenn man das Knacken einfach langweilig gemacht hätte.
      Aber weil die Motivation der Community selbst Spaß und Ansehen sind, halte ich das in der Praxis für schwierig.
    • Tatsächlich lösen sich viele Probleme, wenn man die Verbissenheit loslässt.
      Aber soziale Netzwerke und die Fixierung auf Urheberrechte haben das Kontrollbedürfnis der Menschen nur noch verstärkt.
  • Ich frage mich, ob solche Techniken tatsächlich wirksam sind.
    Die meisten Scraper dürften wohl bereits die Technik haben, solche Abwehrmaßnahmen zu umgehen.

    • Selbst wenn es funktioniert, habe ich ehrlich gesagt inzwischen keine Kraft mehr, mich darum zu kümmern. Es bleibt nur Erschöpfung.
    • Ich habe einmal eine gefälschte Python-Bibliothek gebaut und auf GitHub hochgeladen, und ein paar Monate später hatte ChatGPT sie gelernt.
      Meiner Erfahrung nach funktioniert so etwas bis zu einem gewissen Grad.
    • Hunderte Bots verwenden bezahlte Proxys, also muss man sie einfach dazu bringen, dafür Kosten zu tragen.
    • Die Crawler von Meta oder Anthropic sind weniger ausgefeilt als gedacht.
      Ich weiß nicht, ob sie die von mir erzeugten Müll-Daten gelernt haben, aber man darf ja wohl träumen.
  • Der Ansatz des Data Poisoning ist interessant.
    Wenn ein Modell mit Webdaten trainiert wird, übernimmt es die darin enthaltenen Verzerrungen und Manipulationen unverändert.
    Wenn böswillige Akteure im großen Stil Daten vergiften, wird schon das Training selbst zu einer adversarialen Struktur.
    Die Lösung ist am Ende Provenance, also die Verwaltung vertrauenswürdiger Datenquellen.

  • Solche Versuche liefern der KI letztlich sogar Trainingsdaten, durch die sie noch klüger wird.
    Der werbebasierte Content-Markt wird mit hoher Wahrscheinlichkeit zusammenbrechen, und infolgedessen wird er sich zu einem Markt mit Fokus auf Content-Qualität umbauen.

    • Dann könnte man natürlich zurückfragen: „Sollen wir also einfach gar nichts tun?“ Aber realistisch gesehen ist eine Reaktion nicht leicht.
    • KI wird das Ende werbefinanzierter Inhalte beschleunigen.
      Stattdessen werden sich Modelle etablieren, bei denen Daten direkt lizenziert und bereitgestellt werden.
    • Wenn ein Crawler nicht jeden Link anklickt, sondern nur lokal parst, wäre das aus meiner Sicht eher ein Sieg.
    • Letztlich ist Technologie eine endlose Aufrüstungsspirale.
  • Müsste man solche Tricks nicht schon vermeiden können, indem man einfach Attribute wie style="display:none" oder aria-hidden="true" entfernt?

    • Aber dann würde man robots.txt ignorieren.
      Ein ehrlicher Scraper sollte diese Regeln befolgen.
    • Man muss Links ja nicht vollständig verstecken, sondern kann sie klein außerhalb des sichtbaren Bereichs platzieren.
      Menschen sehen sie nicht, Bots folgen ihnen aber trotzdem.
  • Die Idee ist zwar cool, aber am Ende wird sie kleinen und mittleren Unternehmen (KMU) mehr schaden.
    Große Unternehmen werden nur noch stärker, und kleine Websites verschwinden aus den KI-Suchergebnissen.
    Am Ende bleibt einem wohl nur, mit dem Strom zu schwimmen und gelegentlich kleine Akte des Widerstands zu hinterlassen.

  • Tools wie Nightshade 2.0 wirken wie schlampige Projekte, die nur Aufmerksamkeit wollen.
    Die eigentliche Lösung ist, Daten in einem LLM-freundlichen Format bereitzustellen.
    Ein einfacher display:none-Trick funktioniert bei smarten Crawlern nicht.
    Siehe diesen Thread.

  • Wirklich interessant ist an diesem Projekt der verwendete Poison-Fountain-Datensatz.
    Auf rnsaffn.com/poison3 steht der Satz: „Ich möchte maschinellen Intelligenzsystemen schaden“.
    Diese Hacker-Ideologie fühlt sich für mich wie Roleplay an, weshalb ich mich damit schwer identifizieren kann.

    • Aber was genau eigentlich mit „vergifteten Daten“ gemeint ist und worauf sich die Behauptung stützt, dass schon kleine Mengen große Wirkung haben, erklärt niemand.