- Cloudflare hat eine neue Einstellung eingeführt, die A.I.-Datenscraper standardmäßig blockiert
- Für Website-Betreiber wird das Crawling durch AI-Bots automatisch blockiert, sofern sie keine Berechtigung erteilen
- Damit wird der Schutz von Internetinhalten im Zusammenhang mit der Sammlung hochwertiger Daten für das Training von AI-Modellen verstärkt
- Content-Ersteller und Medienhäuser äußern weiterhin Bedenken über die unautorisierte Nutzung ihrer Daten
- Rechtsstreitigkeiten zwischen AI-Unternehmen und Content-Eigentümern nehmen zunehmend zu
Cloudflare führt standardmäßige Blockierung von AI-Datenscrapern ein
- Cloudflare ist ein Technologieunternehmen, das Online-Traffic-Management und Sicherheitsdienste anbietet
- Da in letzter Zeit AI-Unternehmen vermehrt ohne Erlaubnis Daten von Websites sammeln, hat Cloudflare eine neue berechtigungsbasierte Einstellung eingeführt, mit der Kunden den Zugriff von AI-Datenscrapern automatisch blockieren können
Die neue Standardrichtlinie und was sich ändert
- Mit dieser neu eingeführten Funktion können Websites automatisches Crawling (Scraping) durch AI-Bots) standardmäßig blockieren
- Wenn Data Crawling erforderlich ist, muss der Website-Betreiber den Zugriff separat manuell freigeben
- Bisher konnten Bots, die Cloudflare nicht als Hacker oder böswillige Akteure einstufte, frei Informationen von Websites sammeln
Warum Cloudflare seine Richtlinie ändert
- Cloudflare-CEO Matthew Prince betonte, dass diese Maßnahme dazu diene, den "Schutz originärer Inhalte im Internet" zu stärken und die Rechte von Web-Publishern besser zu sichern
- Wenn AI-Unternehmen Internetdaten ohne Erlaubnis nutzen, entsteht das Problem, dass der Anreiz für Content-Ersteller sinkt, neue Inhalte zu produzieren
- Das Cloudflare-Netzwerk verarbeitet rund 20 % des weltweiten Internet-Traffics
- Da die Aktivität von AI-Crawlern im Web zuletzt stark zugenommen hat, wird diese Richtlinie als Gegenmaßnahme vorangetrieben
AI-Daten und sich verschärfende Branchenspannungen
- Zwischen OpenAI, Anthropic, Google und anderen herrscht ein intensiver Wettbewerb um die großflächige Datensammlung für die Entwicklung von AI-Modellen
- Hochwertige Webdaten spielen eine zentrale Rolle für die Ausgereiftheit von AI-Modellen und die Qualität ihrer Ergebnisse
- Infolgedessen protestieren Website-Betreiber, Medienunternehmen und Rechteinhaber gegen unautorisierte Datensammlung und fehlende Vergütung
Beispiele für zunehmende Rechtsstreitigkeiten
- Im Juni 2025 reichte Reddit Klage gegen Anthropic ein; 2023 reichte The New York Times jeweils Klage gegen OpenAI und Microsoft ein, unter anderem wegen unautorisierter Nutzung von Trainingsdaten für AI und Urheberrechtsverletzungen
- OpenAI und Microsoft weisen diese Vorwürfe einer Urheberrechtsverletzung zurück
Fazit
- Cloudflares neue Standardrichtlinie zur Blockierung der AI-Datensammlung hat erhebliche Auswirkungen auf die ethischen und rechtlichen Maßstäbe für Datenzugang und Datennutzung zwischen der AI-Branche und Content-Eigentümern
- Dieser Richtungswechsel der Richtlinie wird zu einem wichtigen Anlass, innerhalb des AI-Ökosystems Standards für den Schutz von Content-Rechten und vorherige Zustimmung zu etablieren.
2 Kommentare
Cloudflare führt ein Pay-per-Crawl-Modell für KI-Bots ein
Hacker-News-Kommentare
robots.txtautomatisch geändert wurde. Ob darüber hinaus noch etwas passiert, ist unklar. In derrobots.txtwurden Einträge ergänzt, die diverse AI-Bots und Crawler blockieren.User-agent: CCBot disallow: /stellt sich die Frage, ob CCBot (Common Crawl) überhaupt speziell für AI gedacht ist. CCBot wurde schon lange in vielenrobots.txt-Dateien blockiert. Es ist fraglich, ob Common Crawl überhaupt kontrollieren kann, wie Inhalte verwendet werden. Wenn CC sich auf Fair Use stützt, ist unklar, ob daraus überhaupt Rechte entstehen, Lizenzgebühren zu verlangen oder Weiterverwendung zu erlauben. Ich frage mich auch, wie oft Website-AGB Betreibern tatsächlich erlauben, fremde Inhalte ihrer Nutzer für LLM-Zwecke weiter zu lizenzieren und Erlöse daraus zu teilen.robots.txt-Hinweisen wird ausgerechnet der Einsatz für AI RAG (Retrieval Augmented Generation) erlaubt. Das wirkt seltsam, denn RAG kann die Einnahmen von Autoren in Echtzeit womöglich stärker beeinträchtigen als das Training von Sprachmodellen.444(Verbindung sofort schließen), wenn im User-Agentbotvorkommt und etwas anderes alsrobots.txt,humans.txtoderfavicon.icoangefragt wird. Die meisten Suchmaschinen behandle ich per CIDR-Block als Blackhole. Wahrscheinlich bin ich damit ziemlich allein.420 Enhance Your Calm: Referenzlinkrobots.txthalten, aber einige Unternehmen wie Perplexity tarnen ihren Traffic bereits. Es ist daher fraglich, ob solche Sperren am Ende nur ehrliche Bots treffen und Verschleierung sogar fördern. Dieses Wettrüsten gibt es allerdings schon seit 20 Jahren und es ist nichts grundlegend Neues. Dank globaler Signale, Bot-Scoring und Traffic-Fingerprinting kann Cloudflare auch getarnte AI-Bots gut erkennen. Dazu wurde auch ein erläuternder Link geteilt: blog.cloudflare.com ReferenzBlock AI Botsim Super Bot Fight Mode hat in der Praxis den Großteil des Bot-Traffics gut herausgefiltert. Der Ansatz beruhte nicht aufrobots.txtoder User-Agent-Strings, sondern auf der Analyse von Traffic-Mustern. Dadurch brauchte sogar mein eigenes Tool zusätzliche Umgehungsregeln, um zu funktionieren.robots.txtdafür sorgt, nicht als bösartiger Bot eingestuft zu werden, bleibt auf Website-Ebene etwas Spielraum, aber ansonsten kommt Cloudflares eigene Behandlungsmethode zum Einsatz.robots.txtwirklich? Vielleicht nur bei einigen offengelegten Crawlern. Unter der Oberfläche besteht der Verdacht, dass sie weiterhin auf versteckte Weise crawlen. Schließlich haben sie in der Vergangenheit tatsächlich Bücher, Bilder und Nutzerdaten illegal abgescrapt und genutzt.robots.txtist letztlich nur Konvention und weder rechtlich noch technisch wirklich erzwungen. Man könnte in den AGB zwar festschreiben, dassrobots.txt-Regeln einzuhalten sind, aber wie wirksam das tatsächlich wäre, ist fraglich.robots.txtauch für browserähnliche Recherche gelten sollte oder nur für Indexierung.