Miasma: Ein Tool, das AI-Web-Scraper in einer endlosen Verschmutzungsschleife festsetzt
(github.com/austin-weeks)- Miasma ist ein serverseitiges Tool auf Rust-Basis, das AI-Web-Scraper in eine Endlosschleife treibt und so das Sammeln von Trainingsdaten behindert
- Es leitet den Traffic von AI-Unternehmen um, die Website-Inhalte in großem Umfang sammeln, und liefert verschmutzte Daten sowie selbstreferenzielle Links aus der „poison fountain“ zurück
- Dank hoher Verarbeitungsgeschwindigkeit und geringem Speicherverbrauch ist eine Abwehr ohne Verschwendung von Serverressourcen möglich
- Über einen Nginx-Reverse-Proxy und das Einfügen versteckter Links werden Scraper auf den Pfad
/botsgelenkt, wodurch eine unendliche Zirkulationsstruktur entsteht - Normale Suchmaschinen werden durch Ausnahmeregeln in
robots.txtgeschützt, und als Open Source erlaubt das Projekt Beiträge aus der Community
Installation und Ausführung
- Installation über Cargo möglich
- Installation mit dem Befehl
cargo install miasma
- Installation mit dem Befehl
- Vorgebaute Binärdateien können von der GitHub-Seite Releases heruntergeladen werden
- Beim Start mit den Standardeinstellungen genügt der Befehl
miasma - Alle Konfigurationsoptionen lassen sich mit
miasma --helpanzeigen
So richtet man die Scraper-Falle ein
- Den Pfad
/botsals Einstiegspunkt für Scraper festlegen - Nginx als Reverse Proxy verwenden, um Anfragen an den Pfad
/botsan den Miasma-Server weiterzuleitenlocation ~ ^/bots($|/.*)$ { proxy_pass http://localhost:9855; }- Entspricht allen Pfadvarianten wie
/bots,/bots/,/bots/12345
- Entspricht allen Pfadvarianten wie
-
Versteckte Links einfügen
- Auf der Webseite versteckte Links hinzufügen, die für menschliche Besucher unsichtbar sind, aber von Scrapern erkannt werden können
[Amazing high quality data here!](/bots) - Durch die Attribute
display: none,aria-hidden="true",tabindex="1"bleiben sie für Nutzer und Accessibility-Tools verborgen
- Auf der Webseite versteckte Links hinzufügen, die für menschliche Besucher unsichtbar sind, aber von Scrapern erkannt werden können
-
Miasma ausführen
/botsals Link-Präfix angeben sowie Port und Limit für gleichzeitige Verbindungen festlegenmiasma --link-prefix '/bots' -p 9855 -c 50- Es werden maximal 50 gleichzeitige Verbindungen zugelassen; bei weiteren Anfragen wird HTTP 429 zurückgegeben
- Bei 50 Verbindungen wird ein Speicherverbrauch von etwa 50–60 MB erwartet
-
Verhalten nach dem Deployment
- Nach Abschluss der Konfiguration und dem Deployment zirkulieren Scraper entlang des Pfads
/botsendlos durch Seiten mit verschmutzten Daten - Über Logs lassen sich die wiederholten Anfragen der Scraper in Echtzeit beobachten
- Nach Abschluss der Konfiguration und dem Deployment zirkulieren Scraper entlang des Pfads
robots.txt konfigurieren
- Damit normale Suchmaschinen-Crawler nicht auf Miasma zugreifen, müssen Ausnahmeregeln in
robots.txtergänzt werdenUser-agent: Googlebot User-agent: Bingbot User-agent: DuckDuckBot User-agent: Slurp User-agent: SomeOtherNiceBot Disallow: /bots Allow: /
Konfigurationsoptionen
- Detaillierte Einstellungen sind über CLI-Optionen möglich
| Option | Standardwert | Beschreibung |
|---|---|---|
port |
9999 |
Port, an den der Server gebunden wird |
host |
localhost |
Host-Adresse, an die der Server gebunden wird |
max-in-flight |
500 |
Maximale Anzahl gleichzeitig verarbeitbarer Anfragen. Bei Überschreitung wird 429 zurückgegeben. Der Speicherverbrauch ist proportional zu diesem Wert |
link-prefix |
/ |
Präfix der selbstreferenziellen Links, z. B. /bots |
link-count |
5 |
Anzahl selbstreferenzieller Links pro Antwortseite |
force-gzip |
false |
Erzwingt gzip-Komprimierung immer, unabhängig vom Accept-Encoding-Header des Clients. Nützlich zur Senkung der Übertragungskosten |
poison-source |
https://rnsaffn.com/poison2/ |
Proxy-Quelle, aus der verschmutzte Trainingsdaten abgerufen werden |
Entwicklung und Beiträge
- Bug-Reports oder Funktionsvorschläge können über GitHub Issues eingereicht werden
- Von AI generierte Code-Beiträge werden automatisch abgelehnt
- Beiträge aus der Community sind willkommen, und das Projekt bleibt Open Source
1 Kommentare
Hacker-News-Kommentare
Ich frage mich, ob solche Bot-Störtechniken tatsächlich wirken, so wie wenn jemand Telefon-Spammer 45 Minuten lang in der Leitung hält.
Laut den Google-Search-Richtlinien ist das Einfügen versteckter Links ein klarer Verstoß, wodurch das Ranking einer Website sinken oder sie ganz aus den Suchergebnissen entfernt werden kann.
Am Ende könnte dieser Ansatz meiner Website mehr schaden als den Bots.
So wie der YouTuber Kitboga Spam-Anrufe mit einem KI-Callcenter festhält, wie in diesem Video, kann man es als eine Art Guerilla-Taktik sehen, die die Ressourcen des Gegners aufbraucht.
Sie scheinen getrennte Listen für „nicht anrufen“ und „nicht profitabel“ zu führen. Entscheidend ist, auf Letztere zu kommen.
Die Leute waren so wütend, dass Golden Telecom automatische Vergeltungsanrufe startete und die Firma verschwand.
So etwas könnte also wirken, aber dafür braucht man einen gemieteten Modem-Pool.
Wenn Werkzeuge mit Anti-Scraping, Anti-Google-Crawlern und einem menschenzentrierten Suchindex entstehen, gäbe es Potenzial.
Die Inhalte meiner öffentlichen Website werden von Scrapern gestohlen.
Am Ende habe ich diesen Beitrag auch gestohlen, und du stiehlst gewissermaßen meinen Kommentar. Die Welt ist voller Diebe.
Die Inhalte sind für alle offen, aber ich will nicht, dass dadurch am Ende niemand mehr darauf zugreifen kann.
Wenn das so weitergeht, möchte ich irgendwann nichts mehr teilen.
Menschen und Werkzeuge von Unternehmen auf dieselbe Stufe zu stellen, ist letztlich ein falscher Vergleich.
Früher habe ich kostenpflichtige Software entwickelt und Kopierschutz-Code eingebaut, aber jedes Mal tauchte ein neuer Crack auf.
Irgendwann habe ich gemerkt, dass dieser Kampf sinnlos ist, und den Schutzcode entfernt.
Versuche, das Crawling von KI-Bots zu verhindern, wirken auf mich wie dasselbe Whac-A-Mole-Spiel.
Aber weil die Motivation der Community selbst Spaß und Ansehen sind, halte ich das in der Praxis für schwierig.
Aber soziale Netzwerke und die Fixierung auf Urheberrechte haben das Kontrollbedürfnis der Menschen nur noch verstärkt.
Ich frage mich, ob solche Techniken tatsächlich wirksam sind.
Die meisten Scraper dürften wohl bereits die Technik haben, solche Abwehrmaßnahmen zu umgehen.
Meiner Erfahrung nach funktioniert so etwas bis zu einem gewissen Grad.
Ich weiß nicht, ob sie die von mir erzeugten Müll-Daten gelernt haben, aber man darf ja wohl träumen.
Der Ansatz des Data Poisoning ist interessant.
Wenn ein Modell mit Webdaten trainiert wird, übernimmt es die darin enthaltenen Verzerrungen und Manipulationen unverändert.
Wenn böswillige Akteure im großen Stil Daten vergiften, wird schon das Training selbst zu einer adversarialen Struktur.
Die Lösung ist am Ende Provenance, also die Verwaltung vertrauenswürdiger Datenquellen.
Solche Versuche liefern der KI letztlich sogar Trainingsdaten, durch die sie noch klüger wird.
Der werbebasierte Content-Markt wird mit hoher Wahrscheinlichkeit zusammenbrechen, und infolgedessen wird er sich zu einem Markt mit Fokus auf Content-Qualität umbauen.
Stattdessen werden sich Modelle etablieren, bei denen Daten direkt lizenziert und bereitgestellt werden.
Müsste man solche Tricks nicht schon vermeiden können, indem man einfach Attribute wie
style="display:none"oderaria-hidden="true"entfernt?Ein ehrlicher Scraper sollte diese Regeln befolgen.
Menschen sehen sie nicht, Bots folgen ihnen aber trotzdem.
Die Idee ist zwar cool, aber am Ende wird sie kleinen und mittleren Unternehmen (KMU) mehr schaden.
Große Unternehmen werden nur noch stärker, und kleine Websites verschwinden aus den KI-Suchergebnissen.
Am Ende bleibt einem wohl nur, mit dem Strom zu schwimmen und gelegentlich kleine Akte des Widerstands zu hinterlassen.
Tools wie Nightshade 2.0 wirken wie schlampige Projekte, die nur Aufmerksamkeit wollen.
Die eigentliche Lösung ist, Daten in einem LLM-freundlichen Format bereitzustellen.
Ein einfacher
display:none-Trick funktioniert bei smarten Crawlern nicht.Siehe diesen Thread.
Wirklich interessant ist an diesem Projekt der verwendete Poison-Fountain-Datensatz.
Auf rnsaffn.com/poison3 steht der Satz: „Ich möchte maschinellen Intelligenzsystemen schaden“.
Diese Hacker-Ideologie fühlt sich für mich wie Roleplay an, weshalb ich mich damit schwer identifizieren kann.