LWN erleidet den bisher schwersten Scraper-Angriff
(social.kernel.org)- LWN.net ist Ziel eines groß angelegten, Scraping-basierten DDoS-Angriffs aus Zehntausenden von Adressen, wodurch die Reaktionsgeschwindigkeit der Website sinkt
- Jonathan Corbet erklärt, dass man die Seite gegen AI-bezogene Scraper verteidigen müsse; er wolle zwar keine Hürden für Leser einführen, halte dies aber womöglich für nötig
- In der Community wurde vermutet, dass kommerzielle Datensammler wie Bright Data hinter dem Angriff stehen könnten; mehrere Nutzer berichteten zudem von ähnlichen Verkehrsspitzen
- Einige setzen bereits auf RSS-Abonnements, statische Site-Generierung, LLM-Tarpits und ähnliche Gegenmaßnahmen; außerdem wurden Fälle geteilt, in denen der Angriff von großen Cloud-IP-Bereichen wie Azure, Google und AliCloud ausging
- Der Vorfall gilt als Beispiel dafür, wie AI-Datensammlung die Stabilität des Web-Ökosystems und die Nachhaltigkeit kreativer Arbeit beeinträchtigt
Groß angelegter Scraper-Angriff auf LWN.net
-
Jonathan Corbet erklärte, dass LWN.net den schwersten Scraper-Angriff seiner bisherigen Geschichte erlebt
- Der Angriff hat die Form eines DDoS unter Einsatz von Zehntausenden von IP-Adressen, was die Reaktionsfähigkeit der Seite beeinträchtigt
- Er sagte, dass die Verteidigung von LWN gegen AI-bezogene Scraper „nichts ist, was er tun möchte“, und erwähnte, dass er keine Barrieren für den Zugang von Lesern errichten wolle, dies aber notwendig werden könnte
-
Corbet sagte, er könne den Angreifer nicht identifizieren, erwähnte aber die Möglichkeit einer Beteiligung von Bright Data oder einem ähnlichen Wettbewerber
- Teilweise sei die CPU-Last massiv; eine Skalierung der Server sei zwar möglich, aber „für sorgfältig geschriebene Artikel Geld ausgeben zu müssen, nur um sie an solche Leute zu verfüttern, ist ärgerlich“
Reaktionen und Vorschläge aus der Community
- Tristan Colgate-McFarlane wies darauf hin, dass Suchmaschinen gestohlene Inhalte bevorzugt anzeigen und dadurch dem ursprünglichen Autor Traffic und Werbeeinnahmen entziehen
- Mehrere Nutzer berichteten von einem sprunghaften Anstieg des AI-Scraper-Traffics
- Light Owl erwähnte, dass der Traffic auf seiner Website auf das 20-Fache des Üblichen gestiegen sei
- Ben Tasker erklärte, dass er mit einer LLM-Tarpit-Roboterfalle einen Teil der Anfragen blockiere
- Einige berichteten, dass die Angriffe von großen Cloud-IP-Bereichen wie Azure, Google und AliCloud ausgingen
- Dec, mx alex tax1a und David Gerard teilten jeweils Fälle der Blockierung von MSFT-, Google- und Ali-IP-Bereichen
Diskussion über Gegenmaßnahmen
- Riku Voipio schlug die Nutzung eines Servers nur für Abonnenten (subscriber.lwn.net) vor, worauf Corbet antwortete, dass dies die Gewinnung neuer Abonnenten erschweren könnte
- Jani Nikula schlug Zugang nur für registrierte Nutzer vor, doch Corbet entgegnete, dass es bereits das Problem gebe, dass Bots Konten erstellen, weshalb die Wirksamkeit begrenzt sei
- trademark schlug Content-Sharding vor, um die Cache-Effizienz zu erhöhen, worauf Corbet antwortete, dass nicht der Cache das Problem sei
Erfahrungsberichte anderer Website-Betreiber
- Mehrere Betreiber berichteten von ähnlichen Angriffsmustern
- Dec erwähnte, dass Scans nach PHP-Schwachstellen und Login-Versuche auf
wp-adminvon MSFT-IP-Adressen ausgingen - David Gerard erklärte, dass RationalWiki mit einer JavaScript-basierten Cookie-Prüfung dagegen vorgehe, was allerdings den Nebeneffekt habe, dass sogar Googlebot blockiert werde
- Catherine (whitequark) erwähnte, dass allein die Verarbeitung von 404-Antworten die Serverlast mindere
- Dec erwähnte, dass Scans nach PHP-Schwachstellen und Login-Versuche auf
Wahrnehmung innerhalb der Community
- Einige formulierten es so, dass „das Web wirklich kaputtgeht“, und kritisierten, dass AI-Scraping den Zerfall des Web-Ökosystems beschleunigt
- Ayush Agarwal wies darauf hin, dass auch in der Kernel-Community erkannt werden müsse, dass der Einsatz von LLMs kleinen Websites schadet
- Martin Roukala bemerkte selbstironisch, das Problem sei „durch zu hohe Relevanz entstanden“, worauf Jani Nikula antwortete: „Scraper kümmern sich nicht um so etwas“
1 Kommentare
Meinungen auf Hacker News
Ich frage mich, wer solche aggressiven Scraper betreibt
Bei AI-Laboren wäre es zwar effizient, zum Sammeln von Daten viele Websites gleichzeitig abzugrasen, aber ich verstehe nicht, warum man beliebte Seiten so stark überlastet und dabei sogar Reputationsrisiken in Kauf nimmt
Wahrscheinlich wurde ein von AI erzeugter Scraper nur oberflächlich getestet und dann direkt ausgerollt
Außerdem verbergen sie ihre Identität über einen „residential IP provider“, sodass es auch kein Reputationsrisiko gibt
Selbst wenn es große Unternehmen wie OpenAI oder Anthropic wären, würden die Leute das vermutlich einfach hinnehmen
Mit Tools wie Claude Cowork können Nutzer selbst Crawler bauen; ich selbst wurde einmal vorübergehend gesperrt, nachdem ich eine NASA-Seite gecrawlt und dabei 404-Seiten bombardiert hatte
Am Ende verändern selbst Nutzer mit „guten Absichten“ die Web-Traffic-Muster
Zugehörige Statistiken gibt es bei Cloudflare AI Insights
Außer GPTBot von OpenAI waren das meist kleine Firmen, von denen ich noch nie gehört hatte, und manche verschleierten sogar ihren User-Agent
Die Daten sind ohnehin schon in Common Crawl, deshalb verstehe ich nicht, warum sie sie unbedingt noch einmal abgreifen müssen
Ein großes Problem ist, dass AI Open-Source-Code weiterverkauft, als hätte sie ihn selbst geschrieben, und damit Lizenzen umgeht
Nicht nur Code, auch andere Inhalte werden auf dieselbe Weise abgeschöpft
Es wurden nur Variablennamen leicht geändert, die Struktur war identisch
Wenn so etwas in einer Firma passiert wäre, wäre das ein sofortiger Kündigungsgrund
Wenn AI es tut, wird dagegen mit „Fair Use“ moralische Rechtfertigung beansprucht, was ich absurd finde
Dieses Scraping muss nicht bloß Datensammlung für AI sein
FOSS-Seiten werden fortlaufend angegriffen, aber wirtschaftlich ergibt das keinen Sinn
Vielleicht steckt die Absicht dahinter, die Tech-Branche oder die Open-Source-Community zu stören
Obwohl es Non-Profit-Projekte sind, bekamen sie Traffic auf DDOS-Niveau und mussten am Ende sogar eine Login-Schranke einführen
Die meisten nutzten Residential IPs, und die Wurzel des Problems scheint zu sein, dass manche Leute einfach denken: „Alles im Internet gehört mir“
Mein Blog ist zu langweilig, um Scraping-Probleme zu haben
Wie die Formulierung „ein DDOS-Angriff mit Zehntausenden beteiligten Adressen“ andeutet, ist der Angriff extrem verteilt
Selbst kleine Websites bekommen Traffic von Tausenden IPs
BrightData ist ein bekanntes Beispiel; teurer als Rechenzentrums-IPs, aber schwerer zu blockieren
die schlechteste Interpretation ist, dass es einfach asoziale Entwickler sind, die gedankenlos Bots gebaut haben
Residential Proxy sollte praktisch als Malware behandelt werden
Es gehört in Antiviren-Definitionen aufgenommen und aus App-Stores verbannt
Ich frage mich, ob das wirklich Scraping für AI-Training ist
Wenn es sich nicht von einem normalen DDOS unterscheiden lässt, kann man sich doch kaum sicher sein
Im Moment scheint der Angriff aufgehört zu haben
Auch die Startseite lädt wieder normal
Um Blog-Scraper zu blockieren, überschreibe ich per JavaScript-Methodenüberschreibung und leere so den Seiteninhalt
Mit Shadow DOM lassen sich Elemente noch schwerer auffindbar machen
Solche Methoden verursachen allerdings Probleme mit Test-Tools wie Playwright oder Selenium sowie mit der Suchmaschinen-Indexierung
Jemand behauptete, „AI-Firmen legen Konkurrenzseiten per DDOS lahm, um ein Datenmonopol zu erreichen“
Durch das Scrapen einer solchen Seite hätte AI nichts zu gewinnen, weshalb das eher wie übertriebene Paranoia wirkt