1 Punkte von GN⁺ 2025-09-02 | 1 Kommentare | Auf WhatsApp teilen
  • Zu Cloudflare Radar wurde eine eigene Seite für AI Insights hinzugefügt, auf der sich AI-Bot- und Crawler-Traffic, die DNS-basierte Beliebtheit generativer AI-Dienste, robots.txt-Direktiven und Nutzungstrends von Workers-AI-Modellen auf einen Blick erfassen lassen
  • Das Traffic-Diagramm für AI-Bots und Crawler bietet auf Basis der Liste von ai.robots.txt Zeitreihen- und Zusammenfassungsdaten der wichtigsten UAs und unterstützt über die Radar API und den Data Explorer eine detaillierte Analyse
  • Das Ranking generativer AI-Dienste mithilfe von 1.1.1.1-DNS-Daten zeigt Veränderungen in täglichen Aggregationen; dabei lassen sich starke Ausschläge neuer Dienste erkennen, etwa der sprunghafte Anstieg von DeepSeek Ende Januar 2025 (Auftauchen am 26.1. → Platz 3 am 29.1.)
  • Die robots.txt-Analyse aggregiert AI-bezogene Allow-/Disallow-Direktiven der Top-10.000-Domains, visualisiert Sperrtrends nach Kategorien und zeigt im Bereich News und Medien einen breiten Nichtzulassungstrend
  • Die Beliebtheit von Workers-AI-Modellen und -Tasks liefert auf Basis gemeinsam genutzter Daten Nutzungstrends nach Modell und Task sowie Zeitvergleiche und hilft so, die Entwicklung des schnell wandelnden Modell-Ökosystems zu verstehen

Überblick

  • Cloudflare hat in Radar eine neue AI-Insights-Seite eingerichtet, die AI-bezogene Traffic-Trends, Dienstbeliebtheit, Zugriffskontrolle und Modellnutzung gebündelt bereitstellt
  • Datenquellen sind 1.1.1.1-DNS-Traffic, die User-Agent-Liste von ai.robots.txt, gemeinsam genutzte Daten von Workers AI sowie die Anbindung an die Radar-API/den Data Explorer

Traffic-Trends bei AI-Bots und Crawlern

  • Die Aktivität der Top 5 AI-Bots/Crawler wird nach Zeitraum visualisiert, sodass sich Anfrageintensität und Periodizität erkennen lassen
    • Für die Erfassung der User-Agents wird die Liste von ai.robots.txt herangezogen und fortlaufend aktualisiert
    • Über Zeitreihen- und Summary-API-Endpunkte ist ein programmatischer Zugriff möglich
  • Im Data Explorer lassen sich breitere Trends für die gesamte Menge der AI-Bots untersuchen
    • Betreiber können auffälligen Traffic nach Region, Zeitraum und UA prüfen
    • Das lässt sich für Korrelationsanalysen mit internen Reaktionsrichtlinien nutzen

Beliebtheit generativer AI-Dienste

  • Auf Basis des 1.1.1.1-DNS-Anfragevolumens wird das relative Ranking öffentlicher generativer AI-Dienste täglich bereitgestellt
    • In den Jahresrückblicken 2023/2024 blieb ChatGPT durchgehend auf Platz 1
    • Ende Januar 2025 wurde besonders bei den Plätzen 6 bis 10 eine hohe Volatilität beobachtet
  • DeepSeek tauchte am 26. Januar erstmals auf und stieg bis zum 29. Januar auf Platz 3
    • Das liefert hochfrequente Ranking-Daten, die zur Erkennung schnell wachsender neuer Dienste nützlich sind
    • Über die Radar API ist mit dem Parameter serviceCategory=Generative%20AI Zugriff auf die rohen Zeitreihendaten möglich

Analyse von robots.txt-Dateien

  • Die Top 10.000 Domains werden regelmäßig erfasst, um AI-bezogene Allow-/Disallow-Direktiven zu aggregieren
    • Die Diagramme fassen vollständige Erlaubnis/Nichterlaubnis sowie partielle Erlaubnis/Nichterlaubnis je User-Agent zusammen
    • Die Kategorie News und Medien zeigt einen breiten Trend zur Nichtzulassung gegenüber AI-UAs
  • Bei der Betrachtung von Allow-Direktiven ist die Zahl der explizit erlaubenden Websites deutlich zurückgegangen
    • Wenn kein UA angegeben ist und kein Wildcard verwendet wird, gilt standardmäßig vollständige Erlaubnis
    • Radar API und Data Explorer unterstützen gefilterte Analysen nach Bot und Direktive

Beliebtheit von Workers-AI-Modellen und -Tasks

  • Für öffentlich unterstützte Modelle und Tasks in Workers AI werden Nutzungstrends auf Basis gemeinsam genutzter Daten visualisiert
    • Modellbeliebtheit und Task-Beliebtheit werden jeweils als Zeitreihe und Zusammenfassung bereitgestellt
    • Im Data Explorer lassen sich mit der Funktion timeCompare Veränderungen gegenüber dem Vormonat analysieren
  • Modellbeispiele: Textgenerierung, Bildgenerierung, Spracherkennung, Bildklassifikation und weitere vielfältige Tasks
    • Beim Start neuer leistungsstarker Modelle ist durch frühe Sichtbarkeit ein proaktives Reagieren möglich

Fazit und Implikationen

  • Das AI-Ökosystem zeigt starke Volatilität, und neue Dienste erleben häufig innerhalb kurzer Zeit starkes Wachstum
    • Mit der Verbreitung generativer Dienste bleiben Themen wie Content-Scraping, Urheberrecht und Zugriffskontrolle ein anhaltendes Spannungsfeld
  • Die AI-Insights-Seite bietet Traffic, Beliebtheit, Zugriffskontrolle und Modellnutzung in integrierter Form und ist damit nützlich für Branchenbeobachter und Praktiker, um aktuelle Trends zu erfassen
    • Betreiber können über Radar API und Data Explorer automatisierte Monitoring- und Reporting-Systeme aufbauen
    • Durch die Verknüpfung von robots.txt-Strategien mit CDN-/Sicherheitsrichtlinien lässt sich die Reaktion auf AI-Bots verfeinern

1 Kommentare

 
GN⁺ 2025-09-02
Hacker-News-Kommentare
  • OpenAI hat über WebBotAuth bestätigt, dass der Authentifizierungsstatus "In Progress" ist. Es wirkt, als wolle sich Cloudflare als Türsteher für „gute Bots“ positionieren. Schon die Existenz eines Status wie "In Progress" ist aussagekräftig. Bei anderen Unternehmen heißt es offenbar einfach nur "No", während OpenAI zu hören bekommt: „Noch nicht, aber ihr habt CF über eure Pläne informiert.“
    • Es wirkt, als würde Cloudflare auf doppelte Monetarisierung setzen: erst kassieren sie von CDN-Kunden Gebühren, und jetzt wollen sie auch noch dafür bezahlt werden, dass jemand auf die Inhalte dieser Kunden zugreifen darf. Es hat zwar etwas Befriedigendes, OpenAI in dieser Lage zu sehen, aber dabei wird es wohl nicht bleiben. Ich frage mich, ob Kagi oder andere Suchmaschinen auf Dauer weiter günstig und nützlich bleiben können. Und wie Dienste wie das Internet Archive in so einer Lage arbeiten sollen, ist ebenfalls spannend.
    • Ich verstehe nicht, warum es so überraschend wirkt, dass Cloudflare unerwünschten Traffic zu Websites blockiert. Genau das ist doch ihr Geschäftsmodell.
    • Ehrlich gesagt brauchten wir schon seit sehr langer Zeit eine vernünftigere Art, Bots zu authentifizieren. Das ist nicht nur bei AI-Bots ein Thema.
    • Cloudflare ist damit nun offenbar in die Reihe der Gatekeeper des Internets aufgestiegen. Im Moment versucht nur OpenAI, so eine Authentifizierung zu bekommen, und Amazon scheint ein Stück weit nachgezogen zu haben. Hoffentlich stellen sich andere Unternehmen gegen solche Forderungen.
    • Eastdakota (Cloudflare-CEO) sagte sinngemäß: „Im Moment sind alle fieberhaft damit beschäftigt, ins Spiel der nächsten Ära einzusteigen. Ich kann dir wieder einen Platz am Tisch verschaffen.“ Sam (vermutlich von OpenAI) antwortete: „Mir war nicht klar, dass ich meinen Platz verloren hatte.“ Darauf Eastdakota: „Nicht vollständig, aber es ist schon eine Lage, die man später bereuen könnte.“
  • Wirklich bemerkenswerte Daten. Dass ChatGPT im Diagramm "Generative AI services popularity" auf Platz 1 liegt, überrascht nicht, aber dass Character.AI noch vor Anthropic, Perplexity und xAI auf Platz 2 liegt, ist erstaunlich. Ich denke, diese Daten könnten stark von der DNS-Cache-Strategie der jeweiligen Dienste beeinflusst sein. Ein weiteres interessantes Diagramm ist "Workers AI model popularity". Dort liegt llama-3-8b-instruct seit April mit 30–40 % Anteil auf Platz 1, und ein so populäres kleines LLM ist eher selten. Eigentlich hätte ich erwartet, dass so etwas wie Metas m2m100-1.2b oder Alphabets Gemma 3 270M stärker genutzt wird. Wahrscheinlich liegt es daran, dass man einfach das leistungsfähigste Modell einsetzt, das sich auf einen CF worker deployen lässt. Für breitere Popularitätsanalysen siehe meinen Blogpost "LLM Assistant Census"
    Generative-AI-Service-Ranking ansehen
    Workers-AI-Modell-Ranking ansehen
    LLM Assistant Census
    • Ich frage mich, warum DNS-Caches die Ergebnisse verzerren würden. Wenn Cloudflare eine Website proxyt, können sie doch sämtliche HTTP-Requests sehen; es wirkt unwahrscheinlich, dass sie die Statistik allein aus DNS-Anfragen erstellen würden. In einem anderen Kommentar wurde DNS erwähnt, aber ich frage mich, ob bei der Beschreibung der Methodik etwas ausgelassen wurde.
    • Character.AI ist unter jungen Nutzern extrem beliebt, daher ist Platz 2 gar nicht so überraschend.
  • Ich wollte kürzlich herausfinden, wie tief die einzelnen Unternehmen das Web crawlen. Dabei war der Bot von OpenAI am gründlichsten: Er ist 405 Links gefolgt
    Crawling-Daten im Detail ansehen
    • Interessante Statistik. In meinem Honeypot ging GPTBot bis zu einer Tiefe von 92 Ebenen, vermutlich weil meine Website weniger interessant ist.
  • Cloudflare legt selbst fest, wie ein AI-Bot bei der Bot-Klassifizierung definiert wird. Zum Beispiel wird der CCBot von Common Crawl für viele verschiedene Zwecke genutzt und in mehr als 10.000 Forschungsarbeiten zitiert, doch Cloudflare behandelt CCBot schlicht als "AI Bot". Die meisten Website-Betreiber wissen wahrscheinlich weder genau, welche Bots als AI-Bots gelten, noch warum diese Liste so zusammengestellt wurde.
  • Es ist traurig, dass Firefox bei "Top Browser & user agents" nur 3,8 % Anteil hat
    Cloudflare-Browser-Statistik
    • Soweit ich das sehe, ist Firefox der einzige der fünf größten Browser, der nicht standardmäßig vorinstalliert ist. Die meisten Menschen empfinden den Standardzustand nicht als störend genug, um davon abzuweichen. Deshalb suchen wohl über 90 % gar nicht erst nach einem alternativen Browser wie Firefox.
    • In den Anfangsjahren war Firefox der bessere Browser und gewann Marktanteile durch echte Funktionen, die bestehende Browser nicht boten. Das heutige Firefox ist nur noch ein Chrome-Abklatsch ohne Alleinstellungsmerkmal. Normale Nutzer, die nichts über Add-ons wissen, haben keinen Grund, Firefox zu wählen. Wenn Firefox wirklich nützliche Funktionen hätte, etwa einen eingebauten Werbe-/Störelemente-Blocker, könnte es den Markt vielleicht zurückerobern, aber es wirkt nicht so, als wollten sie das tatsächlich.
    • Ich verstehe nicht, wie man freiwillig einen Browser eines Werbeunternehmens nutzen kann. Die meisten Chrome-Nutzer wissen das vermutlich nicht, aber selbst unter den Leuten hier, die den Beitrag lesen, dürften viele Google und die Natur von Chrome kennen und ihn trotzdem verwenden.
    • Ich frage mich, wie stark es sich auf den Anteil auswirkt, wenn Firefox in Cloudflare-Statistiken automatisch als Bot klassifiziert und deshalb herausgerechnet wird.
    • Firefox liefert die User-Agent-Informationen nicht korrekt oder vielleicht nicht einmal standardmäßig, daher könnte dieser Anteil noch niedriger erscheinen, als er tatsächlich ist.
  • Die auf DNS-Requests basierenden AI-Ranking-Daten sind interessant. Auf 4-Wochen-Basis liegt Character.AI an Wochenenden konstant auf Platz 2, Claude auf Platz 3, und an Werktagen tauschen die beiden ihre Positionen. Im Aggregationsdiagramm erscheint der Wechsel aber im Abschnitt Sonntag–Montag, was vermutlich auf die Differenz zwischen US-Zeitzonen und UTC zurückgeht.
  • Diese Daten sind sowohl für AI-Unternehmen als auch für Publisher enorm wertvoll. Cloudflare erhält damit eine beispiellose Sichtbarkeit darüber, wer wann was wie stark crawlt. Ich könnte mir vorstellen, dass daraus bald ein Premium-Bezahlprodukt wird, zunächst vielleicht Bot-Authentifizierung und detaillierte Crawling-Analysen.
    • Das wird für Cloudflare ein sehr großer Wachstumhebel sein. Sie planen offenbar, aus großen Anbietern wie OpenAI maximal viel Umsatz herauszuholen.
  • Wenn nach einer Suche über die Anthropic API der Nutzer-Traffic unverändert per Link an die Zielseite weitergeleitet wird, kann Cloudflare diese Suche nicht Anthropic zuordnen. Deshalb könnte das Verhältnis von Crawling zu empfohlenem Traffic in Wirklichkeit anders aussehen.
  • Wahrscheinlich enthalten solche Statistiken keine bösartigen Crawler, die ihre Identität mit Residential Proxies oder ähnlichen Methoden verschleiern.
  • Ich hoffe aufrichtig, dass sich niemand der WebBotAuth-Authentifizierung von Cloudflare unterwirft und dieser Versuch scheitert.