3 Punkte von GN⁺ 2025-07-03 | 2 Kommentare | Auf WhatsApp teilen
  • Cloudflare hat eine neue Einstellung eingeführt, die A.I.-Datenscraper standardmäßig blockiert
  • Für Website-Betreiber wird das Crawling durch AI-Bots automatisch blockiert, sofern sie keine Berechtigung erteilen
  • Damit wird der Schutz von Internetinhalten im Zusammenhang mit der Sammlung hochwertiger Daten für das Training von AI-Modellen verstärkt
  • Content-Ersteller und Medienhäuser äußern weiterhin Bedenken über die unautorisierte Nutzung ihrer Daten
  • Rechtsstreitigkeiten zwischen AI-Unternehmen und Content-Eigentümern nehmen zunehmend zu

Cloudflare führt standardmäßige Blockierung von AI-Datenscrapern ein

  • Cloudflare ist ein Technologieunternehmen, das Online-Traffic-Management und Sicherheitsdienste anbietet
  • Da in letzter Zeit AI-Unternehmen vermehrt ohne Erlaubnis Daten von Websites sammeln, hat Cloudflare eine neue berechtigungsbasierte Einstellung eingeführt, mit der Kunden den Zugriff von AI-Datenscrapern automatisch blockieren können

Die neue Standardrichtlinie und was sich ändert

  • Mit dieser neu eingeführten Funktion können Websites automatisches Crawling (Scraping) durch AI-Bots) standardmäßig blockieren
  • Wenn Data Crawling erforderlich ist, muss der Website-Betreiber den Zugriff separat manuell freigeben
  • Bisher konnten Bots, die Cloudflare nicht als Hacker oder böswillige Akteure einstufte, frei Informationen von Websites sammeln

Warum Cloudflare seine Richtlinie ändert

  • Cloudflare-CEO Matthew Prince betonte, dass diese Maßnahme dazu diene, den "Schutz originärer Inhalte im Internet" zu stärken und die Rechte von Web-Publishern besser zu sichern
  • Wenn AI-Unternehmen Internetdaten ohne Erlaubnis nutzen, entsteht das Problem, dass der Anreiz für Content-Ersteller sinkt, neue Inhalte zu produzieren
  • Das Cloudflare-Netzwerk verarbeitet rund 20 % des weltweiten Internet-Traffics
  • Da die Aktivität von AI-Crawlern im Web zuletzt stark zugenommen hat, wird diese Richtlinie als Gegenmaßnahme vorangetrieben

AI-Daten und sich verschärfende Branchenspannungen

  • Zwischen OpenAI, Anthropic, Google und anderen herrscht ein intensiver Wettbewerb um die großflächige Datensammlung für die Entwicklung von AI-Modellen
  • Hochwertige Webdaten spielen eine zentrale Rolle für die Ausgereiftheit von AI-Modellen und die Qualität ihrer Ergebnisse
  • Infolgedessen protestieren Website-Betreiber, Medienunternehmen und Rechteinhaber gegen unautorisierte Datensammlung und fehlende Vergütung

Beispiele für zunehmende Rechtsstreitigkeiten

  • Im Juni 2025 reichte Reddit Klage gegen Anthropic ein; 2023 reichte The New York Times jeweils Klage gegen OpenAI und Microsoft ein, unter anderem wegen unautorisierter Nutzung von Trainingsdaten für AI und Urheberrechtsverletzungen
  • OpenAI und Microsoft weisen diese Vorwürfe einer Urheberrechtsverletzung zurück

Fazit

  • Cloudflares neue Standardrichtlinie zur Blockierung der AI-Datensammlung hat erhebliche Auswirkungen auf die ethischen und rechtlichen Maßstäbe für Datenzugang und Datennutzung zwischen der AI-Branche und Content-Eigentümern
  • Dieser Richtungswechsel der Richtlinie wird zu einem wichtigen Anlass, innerhalb des AI-Ökosystems Standards für den Schutz von Content-Rechten und vorherige Zustimmung zu etablieren.

2 Kommentare

 
GN⁺ 2025-07-03
Hacker-News-Kommentare
  • Ein oft wenig beachteter Punkt ist, dass fast alles, was wir online tun, bislang im Grunde nur kostenlose Trainingsdaten für Unternehmen wie OpenAI und Anthropic geliefert hat, während die Menschen, die den eigentlichen Wert schaffen, dabei außen vor bleiben. Ich halte die Stoßrichtung zu 100 % für richtig, aber diese Lösung wirkt auf mich nicht besonders innovativ, und ich hoffe auf deutlich mehr Innovation im Kampf gegen den parasitären Charakter von AI.
    • Es wird behauptet, dass Cloudflare und ähnliche Anbieter eher die Freiheit des Internets zerstören. Unter dem Vorwand von Verifizierung werden Websites tatsächlich viel zu oft langsam oder blockiert, sodass man ein quälend langsames Ladeerlebnis wie 1998 bekommt. Wir leben zunehmend in einer Zeit, in der nur noch Browser normal nutzbar sind, die es Werbefirmen erlauben, Nutzer zu verfolgen und zu monetarisieren. Die Kritik lautet, Cloudflare löse das Problem nicht, sondern kassiere als Zwischenhändler mit und verschlechtere die Qualität des gesamten Interneterlebnisses.
    • Ich schreibe online, weil ich meine Gedanken teilen möchte, und ich bin zufrieden, egal ob das als AI-Trainingsdaten genutzt wird oder von Menschen gelesen wird.
    • Ich finde es zu 100 % in Ordnung, frei zugängliche Internetdaten für AI-Training zu verwenden. Absolut inakzeptabel ist es aber, in so hoher Geschwindigkeit zu crawlen, dass der Betrieb kleiner Websites belastet oder unmöglich wird. Das ist für mich eine echte Tragödie der Allmende.
    • Ich bin skeptisch, ob Cloudflare wirklich sämtliches AI-Datenscraping perfekt verhindern kann. Solche Maßnahmen werden Crawling in der Praxis eher schwieriger und teurer machen und wohl verhindern, dass jeden Tag alle Seiten gescraped werden und Kosten beim Betreiber verursachen. Am Ende werden die Daten aber vermutlich trotzdem irgendwo in irgendeinem Datensatz landen.
  • Ich habe die Funktion aktiviert und nur gesehen, dass robots.txt automatisch geändert wurde. Ob darüber hinaus noch etwas passiert, ist unklar. In der robots.txt wurden Einträge ergänzt, die diverse AI-Bots und Crawler blockieren.
    • Beim Eintrag User-agent: CCBot disallow: / stellt sich die Frage, ob CCBot (Common Crawl) überhaupt speziell für AI gedacht ist. CCBot wurde schon lange in vielen robots.txt-Dateien blockiert. Es ist fraglich, ob Common Crawl überhaupt kontrollieren kann, wie Inhalte verwendet werden. Wenn CC sich auf Fair Use stützt, ist unklar, ob daraus überhaupt Rechte entstehen, Lizenzgebühren zu verlangen oder Weiterverwendung zu erlauben. Ich frage mich auch, wie oft Website-AGB Betreibern tatsächlich erlauben, fremde Inhalte ihrer Nutzer für LLM-Zwecke weiter zu lizenzieren und Erlöse daraus zu teilen.
    • Cloudflare begründet die geänderte Voreinstellung zwar mit dem Schutz von Originalinhalten, aber in den eigentlichen robots.txt-Hinweisen wird ausgerechnet der Einsatz für AI RAG (Retrieval Augmented Generation) erlaubt. Das wirkt seltsam, denn RAG kann die Einnahmen von Autoren in Echtzeit womöglich stärker beeinträchtigen als das Training von Sprachmodellen.
    • Auch Google wird am Ende wohl weiter Daten sowohl für Web-Indexierung als auch für AI-Training scrapen und könnte Betreiber damit zu einer Entscheidung zwingen. Wenn Website-Betreiber bei AI-Training nicht mitmachen, dafür aber Sichtbarkeit in der Google-Suche verlieren, entsteht ein äußerst heikles Dilemma.
    • Auf meinen privaten Hobbyseiten antworte ich mit Status 444 (Verbindung sofort schließen), wenn im User-Agent bot vorkommt und etwas anderes als robots.txt, humans.txt oder favicon.ico angefragt wird. Die meisten Suchmaschinen behandle ich per CIDR-Block als Blackhole. Wahrscheinlich bin ich damit ziemlich allein.
    • Manche Zeitungen blockieren nicht nur LLM-Crawler, sondern auch gleich die Suchfunktion von ChatGPT. Dagegen ist die Cloudflare-Einstellung ein deutlich vernünftigerer Standardwert.
  • Diese Überschrift kann etwas irreführend sein. Derzeit können Websites, die Cloudflare nutzen, das vollständige Blockieren von AI-Bots schnell per Opt-in aktivieren, aber es ist nicht der Standard und wird nicht automatisch angewendet. Dass Cloudflare so eine pauschale Maßnahme bei Bedarf überhaupt durchsetzen könnte, zeigt, wie groß seine Macht ist.
    • Es kam die Frage auf, ob es wirklich kein Standardwert ist. Im offiziellen Cloudflare-Blog ist von einer Änderung der Voreinstellungen die Rede.
    • Inzwischen herrscht eine feindselige Beziehung zwischen AI-Bots und Websites. Cloudflare reagiert darauf nur. Ist DDoS-Abwehr nicht letztlich ein ähnlicher Kontext?
    • Cloudflare scheint weniger echte Abwehr zu bieten, als das Internet einfach nur langsamer zu machen. Ich habe noch keine ihrer Challenges erlebt, die ich nicht innerhalb eines halben Tages umgehen konnte. Solche Maßnahmen wirken für mich wie der erste Schritt in einen Vermittlungsmarkt für AI SEO. Im Kern interpretiere ich Cloudflare nicht als Dienst für Websites, sondern als Versuch, zwischen Scraper und Publishern Gebühren abzuschöpfen. Ich hasse Cloudflare.
  • Mein über Cloudflare ausgelieferter Datenverkehr ist in zwei Jahren von 20 GB auf 100 GB gestiegen. Gleichzeitig sind die tatsächlichen Besucherzahlen auf weniger als die Hälfte gefallen. Das zusätzliche Volumen spricht dafür, dass Cloudflare solche Maßnahmen auch zur Senkung eigener Infrastrukturkosten einführt.
    • Dass Bandbreitenkosten bei großem Traffic teuer werden können, erscheint plausibel.
  • Auf HN wird oft darüber geklagt, dass Bot-Traffic Websites verlangsamt, aber als Betreiber verstehe ich das nur schwer. Wenn man standardmäßig den Cloudflare-Cache nutzt, müsste der Großteil des Traffics darüber abgefangen werden und der Server kaum belastet sein. Auch CPU- und Bandbreitenkosten sind heute doch ziemlich günstig. Ich frage mich, warum alle so empfindlich darauf reagieren.
    • Ich betreibe ebenfalls eine große Website mit Hunderttausenden Seiten in zehn Sprachen, insgesamt mehreren Millionen Seiten und fast 1000 RPS. Wenn AI-Crawler gleichzeitig 100 bis 200 RPS über mehrere IPs verteilt schicken, dabei teure Endpunkte gezielt bearbeiten und sich durch bestehende Bot-Sperren nicht aufhalten lassen, hat das einen ähnlichen Effekt wie ein DDoS.
    • Ich hatte durch AI-Traffic ebenfalls schon Ausfälle. Selbst mit mehrstufigem Caching gibt es bei öffentlichen APIs ohne Authentifizierung einige Endpunkte, die sich nicht cachen lassen. Wenn genau diese wiederholt bearbeitet werden, geht die Website irgendwann down. Wenn Millionen Seiten in kurzer Zeit gleichzeitig einen Cache-Miss erzeugen, stauen sich Requests, Fehler treten auf, und die Fehler führen zu einem Teufelskreis unvollständiger Caches. Wenn AI-Traffic diese Endpunkte weiter trifft, bleibt das Problem bestehen.
    • Schon die Grundannahme, dass man Cloudflare verwendet, ist problematisch. Seit wann ist das selbst für den simplen Betrieb einer Website ein Muss?
    • Das AI-Traffic-Problem, auf das die Leute meist hinweisen, konzentriert sich oft auf Crawler, die APIs endlos mit Dingen wie „alle Posts über einen date range abrufen“ bombardieren.
    • Auch ich finde diese starke Reaktion etwas überraschend, aber ich kann verstehen, dass Betreiber schlecht optimierter Websites AI-Crawler loswerden wollen. Unter den zugehörigen Tools scheint sich besonders schnell Anubis checker verbreitet zu haben: github link. Angesichts der verteilten Natur von AI-Traffic wäre mehr kollaborativ einschränkende Open-Source-Software wünschenswert. Das Web braucht mehr Antworten nach dem Muster des HTTP-Statuscodes 420 Enhance Your Calm: Referenzlink
  • Wenn AI-Unternehmen ohne Erlaubnis Daten von vielen Websites verwenden, wird die Motivation sinken, digitale Inhalte zu produzieren. Am Ende könnte die Wachstumslogik von AI andere digitale Aktivitäten untergraben und schließlich sogar das Web selbst zerstören. Ironischerweise ist das Web für AI gewissermaßen Beute.
    • Weltweit liegt die Nutzung von Adblockern bei rund 30 %, daher ist die Logik, digitale Inhalte würden nur durch AI beeinträchtigt, wohl komplexer.
    • Wenn AI am Ende nicht das tun kann, was sie eigentlich will, nämlich vielfältige Interaktionen mit Menschen und wirtschaftliche Aktivität, werden auch für AI selbst irgendwann die Datenressourcen versiegen.
    • So wie der Kapitalismus heute in erster Linie Menschen ausbeutet, schlägt auch AI strukturell einen ähnlichen Weg ein.
  • Cloudflare kann über vorkonfigurierte Regeln ehrliche AI-Bots oder Crawler erfassen, die sich an robots.txt halten, aber einige Unternehmen wie Perplexity tarnen ihren Traffic bereits. Es ist daher fraglich, ob solche Sperren am Ende nur ehrliche Bots treffen und Verschleierung sogar fördern. Dieses Wettrüsten gibt es allerdings schon seit 20 Jahren und es ist nichts grundlegend Neues. Dank globaler Signale, Bot-Scoring und Traffic-Fingerprinting kann Cloudflare auch getarnte AI-Bots gut erkennen. Dazu wurde auch ein erläuternder Link geteilt: blog.cloudflare.com Referenz
    • Auf die Frage, ob man mit der Regulierung ehrlicher und transparenter Bots nicht nur mehr verschleiertes Crawling fördere, lautet die Antwort: Diese Auseinandersetzung läuft seit über 20 Jahren, und weder das Problem noch die Antwort sind wirklich neu.
    • Die Option Block AI Bots im Super Bot Fight Mode hat in der Praxis den Großteil des Bot-Traffics gut herausgefiltert. Der Ansatz beruhte nicht auf robots.txt oder User-Agent-Strings, sondern auf der Analyse von Traffic-Mustern. Dadurch brauchte sogar mein eigenes Tool zusätzliche Umgehungsregeln, um zu funktionieren.
    • Cloudflare weiß sehr genau, wie man es Nutzern, die man nicht mag, extrem schwer machen kann, das Internet zu verwenden. Wenn man in robots.txt dafür sorgt, nicht als bösartiger Bot eingestuft zu werden, bleibt auf Website-Ebene etwas Spielraum, aber ansonsten kommt Cloudflares eigene Behandlungsmethode zum Einsatz.
    • AI-Bots, die massenhaft scrapen, lassen sich aus Sicht von Cloudflare kaum wirklich verbergen. Sie können auf Fingerprinting- und Netzwerkebene anhand zahlreicher Signale erkannt werden. Große Unternehmen stehen zudem ohnehin in direktem Kontakt mit Cloudflare, sodass es am Ende verschiedene Mittel wie Warnungen oder Gegenmaßnahmen geben dürfte.
  • Respektieren die großen AI-Unternehmen robots.txt wirklich? Vielleicht nur bei einigen offengelegten Crawlern. Unter der Oberfläche besteht der Verdacht, dass sie weiterhin auf versteckte Weise crawlen. Schließlich haben sie in der Vergangenheit tatsächlich Bücher, Bilder und Nutzerdaten illegal abgescrapt und genutzt.
    • Kleinere Crawler geben sich oft als große Unternehmen aus, um Sperren zu umgehen, was die Unterscheidung schwierig macht.
    • Die Einhaltung von robots.txt ist letztlich nur Konvention und weder rechtlich noch technisch wirklich erzwungen. Man könnte in den AGB zwar festschreiben, dass robots.txt-Regeln einzuhalten sind, aber wie wirksam das tatsächlich wäre, ist fraglich.
    • Ein erheblicher Teil dieses Traffics könnte auch daher kommen, dass AI nicht direkt scrapet, sondern erst dann im Internet recherchiert, wenn ein Mensch eine Frage stellt. Dann ist unklar, ob robots.txt auch für browserähnliche Recherche gelten sollte oder nur für Indexierung.
    • Die Gatekeeper-Rolle von Cloudflare gefällt mir zwar nicht, aber Cloudflare ist tatsächlich in einer Position, gegenüber AI-Unternehmen echten Einfluss auszuüben.
  • Die aktuelle Liste blockierter AI-Bots ist sehr kurz: Referenzlink
    • Laut Cloudflare wird auch Common Crawl (CCBot) als AI Bot klassifiziert und in die Blockieroption aufgenommen. Common Crawl ist aber kein speziell auf AI ausgerichteter Bot, sondern eine offene Crawling-Infrastruktur: Referenzlink
    • Cloudflare beobachtet enorme Mengen an Web-Traffic, daher umfasst die derzeitige Bot-Liste wohl vor allem häufig auftretende Bots. Neu entdeckte Bots werden vermutlich fortlaufend ergänzt. Es wird zwar unmöglich sein, alle Crawler zu blockieren, aber gemessen am gesamten Internet gibt es nur wenige Stellen, die so viele Bots erkennen können wie Cloudflare.
    • Schon diese Art von Sperre dürfte bei den meisten Websites den Traffic um mehr als die Hälfte reduzieren.
  • Die großen Entwicklungsschritte des Webs — die Einzäunung von Web2, die Leere von Web3 und nun die aktuelle Phase — entfernen es zunehmend von seiner Rolle als Gemeinschafts- und Wissensspeicher. Qualität und Technik haben sich zwar weiterentwickelt, aber ebenso ging dabei vieles verloren.