5 Punkte von GN⁺ 2026-03-30 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Miasma ist ein serverseitiges Tool auf Rust-Basis, das AI-Web-Scraper in eine Endlosschleife treibt und so das Sammeln von Trainingsdaten behindert
  • Es leitet den Traffic von AI-Unternehmen um, die Website-Inhalte in großem Umfang sammeln, und liefert verschmutzte Daten sowie selbstreferenzielle Links aus der „poison fountain“ zurück
  • Dank hoher Verarbeitungsgeschwindigkeit und geringem Speicherverbrauch ist eine Abwehr ohne Verschwendung von Serverressourcen möglich
  • Über einen Nginx-Reverse-Proxy und das Einfügen versteckter Links werden Scraper auf den Pfad /bots gelenkt, wodurch eine unendliche Zirkulationsstruktur entsteht
  • Normale Suchmaschinen werden durch Ausnahmeregeln in robots.txt geschützt, und als Open Source erlaubt das Projekt Beiträge aus der Community

Installation und Ausführung

  • Installation über Cargo möglich
    • Installation mit dem Befehl cargo install miasma
  • Vorgebaute Binärdateien können von der GitHub-Seite Releases heruntergeladen werden
  • Beim Start mit den Standardeinstellungen genügt der Befehl miasma
  • Alle Konfigurationsoptionen lassen sich mit miasma --help anzeigen

So richtet man die Scraper-Falle ein

  • Den Pfad /bots als Einstiegspunkt für Scraper festlegen
  • Nginx als Reverse Proxy verwenden, um Anfragen an den Pfad /bots an den Miasma-Server weiterzuleiten
    location ~ ^/bots($|/.*)$ {
      proxy_pass http://localhost:9855;
    }
    
    • Entspricht allen Pfadvarianten wie /bots, /bots/, /bots/12345
  • Versteckte Links einfügen

    • Auf der Webseite versteckte Links hinzufügen, die für menschliche Besucher unsichtbar sind, aber von Scrapern erkannt werden können
      <a href="/bots" style="display: none;" aria-hidden="true" tabindex="1">
        Amazing high quality data here!
      </a>
      
    • Durch die Attribute display: none, aria-hidden="true", tabindex="1" bleiben sie für Nutzer und Accessibility-Tools verborgen
  • Miasma ausführen

    • /bots als Link-Präfix angeben sowie Port und Limit für gleichzeitige Verbindungen festlegen
      miasma --link-prefix '/bots' -p 9855 -c 50
      
    • Es werden maximal 50 gleichzeitige Verbindungen zugelassen; bei weiteren Anfragen wird HTTP 429 zurückgegeben
    • Bei 50 Verbindungen wird ein Speicherverbrauch von etwa 50–60 MB erwartet
  • Verhalten nach dem Deployment

    • Nach Abschluss der Konfiguration und dem Deployment zirkulieren Scraper entlang des Pfads /bots endlos durch Seiten mit verschmutzten Daten
    • Über Logs lassen sich die wiederholten Anfragen der Scraper in Echtzeit beobachten

robots.txt konfigurieren

  • Damit normale Suchmaschinen-Crawler nicht auf Miasma zugreifen, müssen Ausnahmeregeln in robots.txt ergänzt werden
    User-agent: Googlebot
    User-agent: Bingbot
    User-agent: DuckDuckBot
    User-agent: Slurp
    User-agent: SomeOtherNiceBot
    Disallow: /bots
    Allow: /
    

Konfigurationsoptionen

  • Detaillierte Einstellungen sind über CLI-Optionen möglich
Option Standardwert Beschreibung
port 9999 Port, an den der Server gebunden wird
host localhost Host-Adresse, an die der Server gebunden wird
max-in-flight 500 Maximale Anzahl gleichzeitig verarbeitbarer Anfragen. Bei Überschreitung wird 429 zurückgegeben. Der Speicherverbrauch ist proportional zu diesem Wert
link-prefix / Präfix der selbstreferenziellen Links, z. B. /bots
link-count 5 Anzahl selbstreferenzieller Links pro Antwortseite
force-gzip false Erzwingt gzip-Komprimierung immer, unabhängig vom Accept-Encoding-Header des Clients. Nützlich zur Senkung der Übertragungskosten
poison-source https://rnsaffn.com/poison2/ Proxy-Quelle, aus der verschmutzte Trainingsdaten abgerufen werden

Entwicklung und Beiträge

  • Bug-Reports oder Funktionsvorschläge können über GitHub Issues eingereicht werden
  • Von AI generierte Code-Beiträge werden automatisch abgelehnt
  • Beiträge aus der Community sind willkommen, und das Projekt bleibt Open Source

Noch keine Kommentare.

Noch keine Kommentare.