LWN erleidet den bisher schwersten Scraper-Angriff

(social.kernel.org)

1 Punkte von GN⁺ 2026-01-19 | 1 Kommentare | Auf WhatsApp teilen

LWN.net ist Ziel eines groß angelegten, Scraping-basierten DDoS-Angriffs aus Zehntausenden von Adressen, wodurch die Reaktionsgeschwindigkeit der Website sinkt
Jonathan Corbet erklärt, dass man die Seite gegen AI-bezogene Scraper verteidigen müsse; er wolle zwar keine Hürden für Leser einführen, halte dies aber womöglich für nötig
In der Community wurde vermutet, dass kommerzielle Datensammler wie Bright Data hinter dem Angriff stehen könnten; mehrere Nutzer berichteten zudem von ähnlichen Verkehrsspitzen
Einige setzen bereits auf RSS-Abonnements, statische Site-Generierung, LLM-Tarpits und ähnliche Gegenmaßnahmen; außerdem wurden Fälle geteilt, in denen der Angriff von großen Cloud-IP-Bereichen wie Azure, Google und AliCloud ausging
Der Vorfall gilt als Beispiel dafür, wie AI-Datensammlung die Stabilität des Web-Ökosystems und die Nachhaltigkeit kreativer Arbeit beeinträchtigt

Groß angelegter Scraper-Angriff auf LWN.net

Jonathan Corbet erklärte, dass LWN.net den schwersten Scraper-Angriff seiner bisherigen Geschichte erlebt
- Der Angriff hat die Form eines DDoS unter Einsatz von Zehntausenden von IP-Adressen, was die Reaktionsfähigkeit der Seite beeinträchtigt
- Er sagte, dass die Verteidigung von LWN gegen AI-bezogene Scraper „nichts ist, was er tun möchte“, und erwähnte, dass er keine Barrieren für den Zugang von Lesern errichten wolle, dies aber notwendig werden könnte
Corbet sagte, er könne den Angreifer nicht identifizieren, erwähnte aber die Möglichkeit einer Beteiligung von Bright Data oder einem ähnlichen Wettbewerber
- Teilweise sei die CPU-Last massiv; eine Skalierung der Server sei zwar möglich, aber „für sorgfältig geschriebene Artikel Geld ausgeben zu müssen, nur um sie an solche Leute zu verfüttern, ist ärgerlich“

Reaktionen und Vorschläge aus der Community

Tristan Colgate-McFarlane wies darauf hin, dass Suchmaschinen gestohlene Inhalte bevorzugt anzeigen und dadurch dem ursprünglichen Autor Traffic und Werbeeinnahmen entziehen
Mehrere Nutzer berichteten von einem sprunghaften Anstieg des AI-Scraper-Traffics
- Light Owl erwähnte, dass der Traffic auf seiner Website auf das 20-Fache des Üblichen gestiegen sei
- Ben Tasker erklärte, dass er mit einer LLM-Tarpit-Roboterfalle einen Teil der Anfragen blockiere
Einige berichteten, dass die Angriffe von großen Cloud-IP-Bereichen wie Azure, Google und AliCloud ausgingen
- Dec, mx alex tax1a und David Gerard teilten jeweils Fälle der Blockierung von MSFT-, Google- und Ali-IP-Bereichen

Diskussion über Gegenmaßnahmen

Riku Voipio schlug die Nutzung eines Servers nur für Abonnenten (subscriber.lwn.net) vor, worauf Corbet antwortete, dass dies die Gewinnung neuer Abonnenten erschweren könnte
Jani Nikula schlug Zugang nur für registrierte Nutzer vor, doch Corbet entgegnete, dass es bereits das Problem gebe, dass Bots Konten erstellen, weshalb die Wirksamkeit begrenzt sei
trademark schlug Content-Sharding vor, um die Cache-Effizienz zu erhöhen, worauf Corbet antwortete, dass nicht der Cache das Problem sei

Erfahrungsberichte anderer Website-Betreiber

Mehrere Betreiber berichteten von ähnlichen Angriffsmustern
- Dec erwähnte, dass Scans nach PHP-Schwachstellen und Login-Versuche auf wp-admin von MSFT-IP-Adressen ausgingen
- David Gerard erklärte, dass RationalWiki mit einer JavaScript-basierten Cookie-Prüfung dagegen vorgehe, was allerdings den Nebeneffekt habe, dass sogar Googlebot blockiert werde
- Catherine (whitequark) erwähnte, dass allein die Verarbeitung von 404-Antworten die Serverlast mindere

Wahrnehmung innerhalb der Community

Einige formulierten es so, dass „das Web wirklich kaputtgeht“, und kritisierten, dass AI-Scraping den Zerfall des Web-Ökosystems beschleunigt
Ayush Agarwal wies darauf hin, dass auch in der Kernel-Community erkannt werden müsse, dass der Einsatz von LLMs kleinen Websites schadet
Martin Roukala bemerkte selbstironisch, das Problem sei „durch zu hohe Relevanz entstanden“, worauf Jani Nikula antwortete: „Scraper kümmern sich nicht um so etwas“

1 Kommentare

GN⁺ 2026-01-19

Meinungen auf Hacker News

Ich frage mich, wer solche aggressiven Scraper betreibt
Bei AI-Laboren wäre es zwar effizient, zum Sammeln von Daten viele Websites gleichzeitig abzugrasen, aber ich verstehe nicht, warum man beliebte Seiten so stark überlastet und dabei sogar Reputationsrisiken in Kauf nimmt
- In solchen Fällen fehlt es oft an technischer Kompetenz oder Rücksichtnahme
  Wahrscheinlich wurde ein von AI erzeugter Scraper nur oberflächlich getestet und dann direkt ausgerollt
  Außerdem verbergen sie ihre Identität über einen „residential IP provider“, sodass es auch kein Reputationsrisiko gibt
  Selbst wenn es große Unternehmen wie OpenAI oder Anthropic wären, würden die Leute das vermutlich einfach hinnehmen
- Anfangs standen große US-Unternehmen wie OpenAI oder Anthropic im Verdacht, tatsächlich sind es aber immer häufiger persönliche AI-Agenten, die Webseiten abgreifen
  Mit Tools wie Claude Cowork können Nutzer selbst Crawler bauen; ich selbst wurde einmal vorübergehend gesperrt, nachdem ich eine NASA-Seite gecrawlt und dabei 404-Seiten bombardiert hatte
  Am Ende verändern selbst Nutzer mit „guten Absichten“ die Web-Traffic-Muster
  Zugehörige Statistiken gibt es bei Cloudflare AI Insights
- Meine private Website wird ebenfalls gelegentlich von Scrapern lahmgelegt
  Außer GPTBot von OpenAI waren das meist kleine Firmen, von denen ich noch nie gehört hatte, und manche verschleierten sogar ihren User-Agent
  Die Daten sind ohnehin schon in Common Crawl, deshalb verstehe ich nicht, warum sie sie unbedingt noch einmal abgreifen müssen
- Vermutlich hat jemand Claude Code angewiesen: „Archiviere ganz LWN“
- LWN enthält mehrere Mailinglisten-Archive, vielleicht liegt es daran
Ein großes Problem ist, dass AI Open-Source-Code weiterverkauft, als hätte sie ihn selbst geschrieben, und damit Lizenzen umgeht
Nicht nur Code, auch andere Inhalte werden auf dieselbe Weise abgeschöpft
- Ich habe an einem Projekt zu alten DOS-Spielen gearbeitet, und Claude hat meinen Code fast unverändert abgegriffen und unter einer anderen Lizenz neu erzeugt
  Es wurden nur Variablennamen leicht geändert, die Struktur war identisch
  Wenn so etwas in einer Firma passiert wäre, wäre das ein sofortiger Kündigungsgrund
  Wenn AI es tut, wird dagegen mit „Fair Use“ moralische Rechtfertigung beansprucht, was ich absurd finde
- Am Ende wird Waschen geistigen Eigentums zur neuen Version von Geldwäsche
- Allerdings gibt es kein Urteil, das bestätigt hätte, dass AI das rechtlich darf; das behauptet nur die AI-Branche
Dieses Scraping muss nicht bloß Datensammlung für AI sein
FOSS-Seiten werden fortlaufend angegriffen, aber wirtschaftlich ergibt das keinen Sinn
Vielleicht steckt die Absicht dahinter, die Tech-Branche oder die Open-Source-Community zu stören
- Sogar eher nischige Game-Modding-Communities wurden auf dieselbe Weise angegriffen
  Obwohl es Non-Profit-Projekte sind, bekamen sie Traffic auf DDOS-Niveau und mussten am Ende sogar eine Login-Schranke einführen
- Vermutlich kümmern sich viele Data Scientists mit AI-erzeugten Scrapern gar nicht darum, wie oft diese eine Website treffen
- Einige Foren, die ich verfolgt habe, kann man inzwischen ebenfalls nur noch mit Login lesen
- Ich betreibe selbst ein kleines Browsergame-Wiki, und unzählige Bots, darunter Claude und OpenAI, scrapen es aggressiv
  Die meisten nutzten Residential IPs, und die Wurzel des Problems scheint zu sein, dass manche Leute einfach denken: „Alles im Internet gehört mir“
- Bei lokal basierten Hobby-Communities ist es immerhin leichter, mutiger zu blockieren
Mein Blog ist zu langweilig, um Scraping-Probleme zu haben
- Durch diesen Blog habe ich allerdings zum ersten Mal von Git Brag erfahren. Ziemlich interessant
- Wenn man ein LLM langweilen kann, ist das eher eine beachtliche Leistung
Wie die Formulierung „ein DDOS-Angriff mit Zehntausenden beteiligten Adressen“ andeutet, ist der Angriff extrem verteilt
Selbst kleine Websites bekommen Traffic von Tausenden IPs
- Solche Angriffe laufen meist über Residential-Proxy-Dienste
  BrightData ist ein bekanntes Beispiel; teurer als Rechenzentrums-IPs, aber schwerer zu blockieren
- Auch git.ardour.org wurde von mehr als einer Million IPs mit sinnlosem git-Scraping überzogen
- Die wohlwollendste Interpretation ist, dass AI-Firmen alternative Ressourcen wie CommonCrawl nicht kennen und deshalb direkt scrapen;
  die schlechteste Interpretation ist, dass es einfach asoziale Entwickler sind, die gedankenlos Bots gebaut haben
- Ich würde solche Angriffe gern „Distributed Intelligence Logic Denial Of Service (DILDOS)“ nennen
Residential Proxy sollte praktisch als Malware behandelt werden
Es gehört in Antiviren-Definitionen aufgenommen und aus App-Stores verbannt
Ich frage mich, ob das wirklich Scraping für AI-Training ist
Wenn es sich nicht von einem normalen DDOS unterscheiden lässt, kann man sich doch kaum sicher sein
- Allerdings gibt es LWN seit fast 30 Jahren, und vor dem AI-Crawling gab es dort keine DDOS-Angriffe
Im Moment scheint der Angriff aufgehört zu haben
Auch die Startseite lädt wieder normal
Um Blog-Scraper zu blockieren, überschreibe ich per JavaScript-Methodenüberschreibung und leere so den Seiteninhalt
Mit Shadow DOM lassen sich Elemente noch schwerer auffindbar machen
Solche Methoden verursachen allerdings Probleme mit Test-Tools wie Playwright oder Selenium sowie mit der Suchmaschinen-Indexierung
- Ob diese Methode tatsächlich wirksam war, kann ich allerdings nicht sicher sagen
- Es wäre auch eine interessante Idee, Funktionen so zu bauen, dass sie Mülldaten erzeugen und Bots dadurch verwirren
Jemand behauptete, „AI-Firmen legen Konkurrenzseiten per DDOS lahm, um ein Datenmonopol zu erreichen“
- Das klingt allerdings nach einer Verschwörungstheorie
- Es könnte eine Art Strategie des „Leiter wegziehen“ sein
- Andererseits ist LWN ohnehin eine alte Newsletter-Website und enthält kaum wertvolle Daten
  Durch das Scrapen einer solchen Seite hätte AI nichts zu gewinnen, weshalb das eher wie übertriebene Paranoia wirkt

LWN erleidet den bisher schwersten Scraper-Angriff

Groß angelegter Scraper-Angriff auf LWN.net

Reaktionen und Vorschläge aus der Community

Diskussion über Gegenmaßnahmen

Erfahrungsberichte anderer Website-Betreiber

Wahrnehmung innerhalb der Community

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News