1 Punkte von GN⁺ 2026-01-19 | 1 Kommentare | Auf WhatsApp teilen
  • LWN.net ist Ziel eines groß angelegten, Scraping-basierten DDoS-Angriffs aus Zehntausenden von Adressen, wodurch die Reaktionsgeschwindigkeit der Website sinkt
  • Jonathan Corbet erklärt, dass man die Seite gegen AI-bezogene Scraper verteidigen müsse; er wolle zwar keine Hürden für Leser einführen, halte dies aber womöglich für nötig
  • In der Community wurde vermutet, dass kommerzielle Datensammler wie Bright Data hinter dem Angriff stehen könnten; mehrere Nutzer berichteten zudem von ähnlichen Verkehrsspitzen
  • Einige setzen bereits auf RSS-Abonnements, statische Site-Generierung, LLM-Tarpits und ähnliche Gegenmaßnahmen; außerdem wurden Fälle geteilt, in denen der Angriff von großen Cloud-IP-Bereichen wie Azure, Google und AliCloud ausging
  • Der Vorfall gilt als Beispiel dafür, wie AI-Datensammlung die Stabilität des Web-Ökosystems und die Nachhaltigkeit kreativer Arbeit beeinträchtigt

Groß angelegter Scraper-Angriff auf LWN.net

  • Jonathan Corbet erklärte, dass LWN.net den schwersten Scraper-Angriff seiner bisherigen Geschichte erlebt

    • Der Angriff hat die Form eines DDoS unter Einsatz von Zehntausenden von IP-Adressen, was die Reaktionsfähigkeit der Seite beeinträchtigt
    • Er sagte, dass die Verteidigung von LWN gegen AI-bezogene Scraper „nichts ist, was er tun möchte“, und erwähnte, dass er keine Barrieren für den Zugang von Lesern errichten wolle, dies aber notwendig werden könnte
  • Corbet sagte, er könne den Angreifer nicht identifizieren, erwähnte aber die Möglichkeit einer Beteiligung von Bright Data oder einem ähnlichen Wettbewerber

    • Teilweise sei die CPU-Last massiv; eine Skalierung der Server sei zwar möglich, aber „für sorgfältig geschriebene Artikel Geld ausgeben zu müssen, nur um sie an solche Leute zu verfüttern, ist ärgerlich“

Reaktionen und Vorschläge aus der Community

  • Tristan Colgate-McFarlane wies darauf hin, dass Suchmaschinen gestohlene Inhalte bevorzugt anzeigen und dadurch dem ursprünglichen Autor Traffic und Werbeeinnahmen entziehen
  • Mehrere Nutzer berichteten von einem sprunghaften Anstieg des AI-Scraper-Traffics
    • Light Owl erwähnte, dass der Traffic auf seiner Website auf das 20-Fache des Üblichen gestiegen sei
    • Ben Tasker erklärte, dass er mit einer LLM-Tarpit-Roboterfalle einen Teil der Anfragen blockiere
  • Einige berichteten, dass die Angriffe von großen Cloud-IP-Bereichen wie Azure, Google und AliCloud ausgingen
    • Dec, mx alex tax1a und David Gerard teilten jeweils Fälle der Blockierung von MSFT-, Google- und Ali-IP-Bereichen

Diskussion über Gegenmaßnahmen

  • Riku Voipio schlug die Nutzung eines Servers nur für Abonnenten (subscriber.lwn.net) vor, worauf Corbet antwortete, dass dies die Gewinnung neuer Abonnenten erschweren könnte
  • Jani Nikula schlug Zugang nur für registrierte Nutzer vor, doch Corbet entgegnete, dass es bereits das Problem gebe, dass Bots Konten erstellen, weshalb die Wirksamkeit begrenzt sei
  • trademark schlug Content-Sharding vor, um die Cache-Effizienz zu erhöhen, worauf Corbet antwortete, dass nicht der Cache das Problem sei

Erfahrungsberichte anderer Website-Betreiber

  • Mehrere Betreiber berichteten von ähnlichen Angriffsmustern
    • Dec erwähnte, dass Scans nach PHP-Schwachstellen und Login-Versuche auf wp-admin von MSFT-IP-Adressen ausgingen
    • David Gerard erklärte, dass RationalWiki mit einer JavaScript-basierten Cookie-Prüfung dagegen vorgehe, was allerdings den Nebeneffekt habe, dass sogar Googlebot blockiert werde
    • Catherine (whitequark) erwähnte, dass allein die Verarbeitung von 404-Antworten die Serverlast mindere

Wahrnehmung innerhalb der Community

  • Einige formulierten es so, dass „das Web wirklich kaputtgeht“, und kritisierten, dass AI-Scraping den Zerfall des Web-Ökosystems beschleunigt
  • Ayush Agarwal wies darauf hin, dass auch in der Kernel-Community erkannt werden müsse, dass der Einsatz von LLMs kleinen Websites schadet
  • Martin Roukala bemerkte selbstironisch, das Problem sei „durch zu hohe Relevanz entstanden“, worauf Jani Nikula antwortete: „Scraper kümmern sich nicht um so etwas“

1 Kommentare

 
GN⁺ 2026-01-19
Meinungen auf Hacker News
  • Ich frage mich, wer solche aggressiven Scraper betreibt
    Bei AI-Laboren wäre es zwar effizient, zum Sammeln von Daten viele Websites gleichzeitig abzugrasen, aber ich verstehe nicht, warum man beliebte Seiten so stark überlastet und dabei sogar Reputationsrisiken in Kauf nimmt

    • In solchen Fällen fehlt es oft an technischer Kompetenz oder Rücksichtnahme
      Wahrscheinlich wurde ein von AI erzeugter Scraper nur oberflächlich getestet und dann direkt ausgerollt
      Außerdem verbergen sie ihre Identität über einen „residential IP provider“, sodass es auch kein Reputationsrisiko gibt
      Selbst wenn es große Unternehmen wie OpenAI oder Anthropic wären, würden die Leute das vermutlich einfach hinnehmen
    • Anfangs standen große US-Unternehmen wie OpenAI oder Anthropic im Verdacht, tatsächlich sind es aber immer häufiger persönliche AI-Agenten, die Webseiten abgreifen
      Mit Tools wie Claude Cowork können Nutzer selbst Crawler bauen; ich selbst wurde einmal vorübergehend gesperrt, nachdem ich eine NASA-Seite gecrawlt und dabei 404-Seiten bombardiert hatte
      Am Ende verändern selbst Nutzer mit „guten Absichten“ die Web-Traffic-Muster
      Zugehörige Statistiken gibt es bei Cloudflare AI Insights
    • Meine private Website wird ebenfalls gelegentlich von Scrapern lahmgelegt
      Außer GPTBot von OpenAI waren das meist kleine Firmen, von denen ich noch nie gehört hatte, und manche verschleierten sogar ihren User-Agent
      Die Daten sind ohnehin schon in Common Crawl, deshalb verstehe ich nicht, warum sie sie unbedingt noch einmal abgreifen müssen
    • Vermutlich hat jemand Claude Code angewiesen: „Archiviere ganz LWN“
    • LWN enthält mehrere Mailinglisten-Archive, vielleicht liegt es daran
  • Ein großes Problem ist, dass AI Open-Source-Code weiterverkauft, als hätte sie ihn selbst geschrieben, und damit Lizenzen umgeht
    Nicht nur Code, auch andere Inhalte werden auf dieselbe Weise abgeschöpft

    • Ich habe an einem Projekt zu alten DOS-Spielen gearbeitet, und Claude hat meinen Code fast unverändert abgegriffen und unter einer anderen Lizenz neu erzeugt
      Es wurden nur Variablennamen leicht geändert, die Struktur war identisch
      Wenn so etwas in einer Firma passiert wäre, wäre das ein sofortiger Kündigungsgrund
      Wenn AI es tut, wird dagegen mit „Fair Use“ moralische Rechtfertigung beansprucht, was ich absurd finde
    • Am Ende wird Waschen geistigen Eigentums zur neuen Version von Geldwäsche
    • Allerdings gibt es kein Urteil, das bestätigt hätte, dass AI das rechtlich darf; das behauptet nur die AI-Branche
  • Dieses Scraping muss nicht bloß Datensammlung für AI sein
    FOSS-Seiten werden fortlaufend angegriffen, aber wirtschaftlich ergibt das keinen Sinn
    Vielleicht steckt die Absicht dahinter, die Tech-Branche oder die Open-Source-Community zu stören

    • Sogar eher nischige Game-Modding-Communities wurden auf dieselbe Weise angegriffen
      Obwohl es Non-Profit-Projekte sind, bekamen sie Traffic auf DDOS-Niveau und mussten am Ende sogar eine Login-Schranke einführen
    • Vermutlich kümmern sich viele Data Scientists mit AI-erzeugten Scrapern gar nicht darum, wie oft diese eine Website treffen
    • Einige Foren, die ich verfolgt habe, kann man inzwischen ebenfalls nur noch mit Login lesen
    • Ich betreibe selbst ein kleines Browsergame-Wiki, und unzählige Bots, darunter Claude und OpenAI, scrapen es aggressiv
      Die meisten nutzten Residential IPs, und die Wurzel des Problems scheint zu sein, dass manche Leute einfach denken: „Alles im Internet gehört mir“
    • Bei lokal basierten Hobby-Communities ist es immerhin leichter, mutiger zu blockieren
  • Mein Blog ist zu langweilig, um Scraping-Probleme zu haben

    • Durch diesen Blog habe ich allerdings zum ersten Mal von Git Brag erfahren. Ziemlich interessant
    • Wenn man ein LLM langweilen kann, ist das eher eine beachtliche Leistung
  • Wie die Formulierung „ein DDOS-Angriff mit Zehntausenden beteiligten Adressen“ andeutet, ist der Angriff extrem verteilt
    Selbst kleine Websites bekommen Traffic von Tausenden IPs

    • Solche Angriffe laufen meist über Residential-Proxy-Dienste
      BrightData ist ein bekanntes Beispiel; teurer als Rechenzentrums-IPs, aber schwerer zu blockieren
    • Auch git.ardour.org wurde von mehr als einer Million IPs mit sinnlosem git-Scraping überzogen
    • Die wohlwollendste Interpretation ist, dass AI-Firmen alternative Ressourcen wie CommonCrawl nicht kennen und deshalb direkt scrapen;
      die schlechteste Interpretation ist, dass es einfach asoziale Entwickler sind, die gedankenlos Bots gebaut haben
    • Ich würde solche Angriffe gern „Distributed Intelligence Logic Denial Of Service (DILDOS)“ nennen
  • Residential Proxy sollte praktisch als Malware behandelt werden
    Es gehört in Antiviren-Definitionen aufgenommen und aus App-Stores verbannt

  • Ich frage mich, ob das wirklich Scraping für AI-Training ist
    Wenn es sich nicht von einem normalen DDOS unterscheiden lässt, kann man sich doch kaum sicher sein

    • Allerdings gibt es LWN seit fast 30 Jahren, und vor dem AI-Crawling gab es dort keine DDOS-Angriffe
  • Im Moment scheint der Angriff aufgehört zu haben
    Auch die Startseite lädt wieder normal

  • Um Blog-Scraper zu blockieren, überschreibe ich per JavaScript-Methodenüberschreibung und leere so den Seiteninhalt
    Mit Shadow DOM lassen sich Elemente noch schwerer auffindbar machen
    Solche Methoden verursachen allerdings Probleme mit Test-Tools wie Playwright oder Selenium sowie mit der Suchmaschinen-Indexierung

    • Ob diese Methode tatsächlich wirksam war, kann ich allerdings nicht sicher sagen
    • Es wäre auch eine interessante Idee, Funktionen so zu bauen, dass sie Mülldaten erzeugen und Bots dadurch verwirren
  • Jemand behauptete, „AI-Firmen legen Konkurrenzseiten per DDOS lahm, um ein Datenmonopol zu erreichen“

    • Das klingt allerdings nach einer Verschwörungstheorie
    • Es könnte eine Art Strategie des „Leiter wegziehen“ sein
    • Andererseits ist LWN ohnehin eine alte Newsletter-Website und enthält kaum wertvolle Daten
      Durch das Scrapen einer solchen Seite hätte AI nichts zu gewinnen, weshalb das eher wie übertriebene Paranoia wirkt