6 Punkte von GN⁺ 2025-07-02 | 5 Kommentare | Auf WhatsApp teilen
  • Cloudflare hat einen neuen Dienst angekündigt, mit dem Eigentümer von Inhalten für AI-Crawler beim Zugriff Gebühren verlangen können
  • Content-Ersteller haben drei Optionen: kostenlos erlauben, vollständig blockieren oder kostenpflichtigen Zugriff erlauben
  • Die Abrechnung basiert auf der standardisierten Antwort HTTP 402 Payment Required, wobei Cloudflare die Zahlungs- und Abrechnungsinfrastruktur bereitstellt
  • Crawler und Inhaltseigentümer gewährleisten Transparenz und Sicherheit durch programmatische Authentifizierung und Bezahlung
  • Der Dienst startet als Private Beta und soll künftig auf verschiedene Anwendungsfälle sowie dynamische Preisgestaltung ausgeweitet werden

Wandel im AI-Konsumumfeld

  • Viele Publisher, Content-Ersteller und Website-Betreiber konnten bei AI-Crawlern bislang nur zwischen zwei Extremen wählen: jeden Zugriff erlauben oder alles blockieren
  • Cloudflare verfolgt mit dem Grundprinzip einer stärkeren Kontrolle für Inhaltseigentümer ein Umfeld, in dem sich AI-Crawler vollständig blockieren, kostenlos zulassen oder auch nur ausgewählten Crawlern gezielt Zugriff gewähren lassen
  • Gespräche mit Hunderten von Medienunternehmen, Publishern und großen Social-Plattformen haben gezeigt, dass ein großes Bedürfnis besteht, AI-Crawlern Zugriff zu gewähren und dafür vergütet zu werden
  • Bisher musste der Zugriff nach individueller Verhandlung mit Crawlern erlaubt werden, was für kleinere Websites wegen fehlender Skalierung und Verhandlungsmacht praktisch kaum möglich war

Einführung des Modells „Pay per Crawl“

  • Als dritte Option neben den Extremen kostenlos oder blockiert schlägt Cloudflare kostenpflichtigen Zugriff vor
  • Damit können Inhaltseigentümer ihre digitalen Assets im Internetmaßstab monetarisieren
  • Die zentrale technische Grundlage ist der fast vergessene Statuscode HTTP 402 Payment Required: Signalisiert ein Crawler Zahlungsbereitschaft, wird der Inhalt mit 200 OK ausgeliefert, andernfalls informiert eine 402-Antwort über den Preis
  • Cloudflare übernimmt als Merchant of Record die Zahlungsabwicklung und die technische Infrastruktur

Steuerungsmöglichkeiten für Publisher und Preismodell

  • Publisher können für die gesamte Website einen festen Einheitspreis festlegen
    • Erlauben (kostenlose Bereitstellung)
    • Abrechnen (Bereitstellung nach Zahlung zum festgelegten Preis)
    • Blockieren (kein Zugriff und Hinweis auf mögliche künftige Beziehungen)
  • Unterstützt werden flexible Richtlinien wie Abrechnungsausnahmen pro Crawler, kostenloser Zugriff oder individuelle Verhandlungen
  • Die Lösung ist mit den Sicherheitsrichtlinien von Cloudflare (WAF, Bot-Management usw.) integriert; bestehende Firewall-Regeln werden zuerst angewendet, danach greifen die Pay-per-Crawl-Regeln

Authentifizierungs- und Zahlungsprotokoll: Web Bot Auth

  • Das System ist so ausgelegt, dass nur bestimmte Crawler Zahlung und Zugriff erhalten, um Manipulationen der Crawler-Identität (Spoofing) zu verhindern
  • Crawler müssen ein Ed25519-Schlüsselpaar erzeugen, den öffentlichen Schlüssel in einem Verzeichnis im JWK-Format registrieren und die Informationen an Cloudflare übermitteln
  • Über HTTP Message Signatures-Header (Signature-Agent, Signature-Input, Signature) werden Identität und Zahlungsabsicht nachgewiesen

Zugriff auf kostenpflichtige Inhalte

  • Unterstützt werden zwei Protokolle
    • Reaktiv (Discovery-first): Fordert ein Crawler eine kostenpflichtige URL an, antwortet der Server mit 402 und Preisangabe → bei Zustimmung erfolgt eine erneute Anfrage mit dem Header crawler-exact-price
    • Proaktiv (Intent-first): Bereits bei der ersten Anfrage wird mit dem Header crawler-max-price eine Preisobergrenze übermittelt → liegt der Preis darunter, folgt 200 OK zusammen mit den Abrechnungsdetails
  • Preisverhandlungen und das Signalisieren der Zahlungsbereitschaft werden programmierbar unterstützt

Abrechnung und finanzielle Verarbeitung

  • Sowohl Crawler-Betreiber als auch Inhaltseigentümer müssen in ihrem Cloudflare-Konto Zahlungsinformationen hinterlegen
  • Für jede authentifizierte Zahlungsanfrage und jede 200 OK-Antwort wird ein Abrechnungsereignis protokolliert; Cloudflare aggregiert diese, stellt sie den Crawlern in Rechnung und rechnet sie mit den Publishern ab

Der Beginn des Wandels in Richtung Agent-Ära

  • Pay per Crawl steht sinnbildlich für die Weiterentwicklung von Technologien zur Kontrolle über Online-Inhalte
  • Es weckt Erwartungen an den Schutz von Urhebern und an neue Geschäftsmodelle durch programmierbare Bewertung des Werts von Assets
  • Künftig werden verschiedene Erweiterungen diskutiert, darunter dynamische Preise nach Inhaltstyp/Pfad, Preisberechnung nach Umfang des AI-Traffics und Management großer Lizenzbestände
  • Durch die Einführung von HTTP 402 lässt sich auf eine Zukunft vorbereiten, in der AI-Systeme und Agenten die Bedingungen für den Zugriff auf digitale Ressourcen programmatisch aushandeln

Hinweise zum Start

  • Die Funktion Pay per Crawl wird zunächst als Private Beta angeboten
  • Crawler und Content-Ersteller, die sie nutzen möchten, können sich über einen separaten Bewerbungslink melden
  • Cloudflare unterstützt außerdem DDoS-Abwehr, Beschleunigung des Internetzugangs, Aufbau von Internetanwendungen, Blockieren von Hackern und die Umsetzung von Zero Trust

Zusätzliche Informationen und Trends

  • Parallel laufen Initiativen wie „Content Independence Day“ zur Blockierung unbezahlten Crawlings sowie der Ausbau von Cloudflares Bot-Management-Lösungen
  • Für den Zeitraum 2024 bis 2025 wurden 18 % mehr AI-Crawler-Traffic gemeldet, darunter Wachstum von GPTBot um 305 % und Googlebot um 96 %
  • Gleichzeitig wurde auch eine stärkere Crawler-Authentifizierung über nachrichtensignaturen auf Basis öffentlicher Schlüssel eingeführt

5 Kommentare

 
kimjoin2 2025-07-02

Woran wird unterschieden, ob es ein KI-Bot ist oder nicht?

 
kimjoin2 2025-07-02

Unabhängig davon, ob es KI ist oder nicht: Wenn Crawling gezielt betrieben wird, lässt es sich ohnehin nicht erkennen.

 
howudoin 2025-07-02

Cloudflare will damit Geld verdienen.
Letztlich werden sich alle, die Geld verdienen wollen, dort sammeln.
Das Volumen von Cloudflare wird wachsen.
Und die Daten werden qualitativ schlechter werden.
Dasselbe Muster war auch bei Naver, Instagram und YouTube zu sehen – überall dort, wo Geld im Spiel ist.

 
GN⁺ 2025-07-02
Hacker-News-Kommentare
  • Ich denke, das ist die Form von Micropayments, die wir uns gewünscht haben. Coinbase hat kürzlich eine Bibliothek vorgestellt, die Kryptowährungen und den Statuscode 402 nutzt, nämlich x402 x402 GitHub-Link

    • Ich denke, das Web-Geschäftsmodell sollte eher so aussehen statt über Werbevermittler zu laufen. Die Adtech-Branche hat unsere Daten dauerhaft ausgebeutet, die Medien vergiftet und der Demokratie geschadet. Ich hoffe, dass man in einigen Jahrzehnten erkennt, wie schädlich das heutige Werbemodell war, und die beteiligten Firmen ähnlich reguliert und bestraft wie Big Tobacco. BAT von Brave ist auch ein guter Versuch, aber x402 wirkt wie die allgemeinere Lösung. Wegen des negativen Images von Kryptowährungen und des starken Einflusses der Werbebranche scheint es aber schwer, so etwas zu etablieren

    • Ich möchte keine Kryptowährungen nutzen, keine Inhalte in Kryptowährungen bezahlt bekommen und auch keine Gebühren an Mittelsmänner zahlen. Kryptowährungen für Micropayments zu verwenden, wirkt in der Praxis wie ein Mittel, um das Krypto-Ökosystem anzukurbeln. Außerdem ist es schwer, dass sich alle darauf einigen, mit welcher Coin bezahlt werden soll. Wenn jede Website nur andere Coins akzeptiert oder nur eine einzelne Stablecoin angenommen wird, ist das ebenfalls schwer zu kontrollieren. Der Ansatz von Cloudflare ist besser. Hier trägt die profitierende Seite die Kosten, und normale Nutzer werden nicht zur Kasse gebeten. Und Kryptowährungen kommen auch nicht zum Einsatz

    • Ich hoffe, dass ich falsch liege, aber ich habe das Gefühl, dass die Chance für Micropayments bereits verpasst wurde. Wenn es wie bei früheren Prepaid-Handys ein Modell gegeben hätte, bei dem man „10.000 Won fürs Internet auflädt“ und Websites davon Micropayments abbuchen, hätte sich das vielleicht richtig etabliert. Aber heute braucht man zu viel Infrastruktur und zu viel Einigung im gesamten Markt, um so ein System umzusetzen, deshalb scheint das Zeitfenster verpasst

    • Diese Technik wirkt wirklich interessant. Wenn ich es richtig verstehe, frage ich mich, warum das Protokoll nicht so entworfen wurde, dass es unmittelbar antwortet, wenn Adresse und Zahlungsbetrag übermittelt werden. Wenn spätere Versuche blockiert würden, bis eine Prüfsumme für Betrag und Wallet-Adresse zurückgegeben wird, und diese Prüfsumme dann von Dritten verifiziert werden könnte, müsste nicht jeder Server seine eigene Verifizierungslogik implementieren. Um eine echte digitale Ökonomie aufzubauen, braucht man zwei Dinge: 1) Inhalte dürfen nur vom Anfordernden konsumiert werden und dürfen nicht kopiert oder gespeichert werden, 2) Inhalte brauchen ein von Menschen vergebenes Reputations- oder Bewertungssystem. Das Erste könnte man mit DRM oder homomorpher Verschlüsselung lösen, das Zweite mit DAO-artigen Bewertungsinstitutionen. Um als Bewerter an einer DAO teilzunehmen, könnte man blockchainbasierte Leistungsnachweise offenlegen und teure Kryptowährungen hinterlegen (=Lizenz), um Vertrauen zu schaffen. So ließen sich Inhalte und Bewerter wie bei einem BitTorrent-Index verbinden und Vermittlerwerbung abschaffen. Wenn diese Struktur fertig wäre, könnten fachkundige Menschen an der Wertschöpfung teilnehmen und Intermediäre ausschließen, sodass Menschen wieder im Zentrum der Content-Ökonomie stehen. Wenn das Problem der doppelten Zahlung für Inhalte gelöst wird, könnten Menschen fortlaufend entlohnt werden und gleichzeitig ihre Offline-Expertise weiterentwickeln. Wenn ich zum Beispiel gute Bücher oder Filme suche, orientiere ich mich an Bewertungen bei Amazon oder Goodreads, aber die heutigen Bewertungsanbieter haben daran nicht genug eigenes Interesse. Wenn Bewertungsinhalte so glaubwürdig würden wie Bewertungsinstitutionen, könnte auch der Wert einzelner Werke steigen. Jeder hätte dann einen Anreiz, den eigenen Ruf zu bewahren

    • Das Konzept selbst ist nicht neu. Ich habe 2018 selbst ein Projekt namens ln-paywall gebaut, das den Statuscode 402 verwendet

  • Ich halte das für einen völlig falschen Ansatz. Cloudflare sagt im Grunde nur: „Ihr könnt weiter crawlen wie bisher, müsst jetzt aber mehr bezahlen“, ohne dafür einen entsprechenden Mehrwert zu bieten. Crawling ist für AI-Firmen oder neue Suchmaschinen kein Wettbewerbsvorteil. Es verursacht nur Kosten und bindet Aufmerksamkeit. Sinnvoller wäre es, wenn sie Infrastruktur teilen und zusammenarbeiten. Statt dass jede Firma jede Website separat besucht, wäre ideal ein einziges Crawlersystem, das alle Websites besucht, während die Firmen eigene Filter setzen und proportional zu den passenden URLs beitragen. Statt mehrfachen Traffics gäbe es einen einzelnen Crawler, und robots.txt-Regeln würden technisch und vertraglich durchgesetzt. Unerwünschte Inhalte würden dann nicht ausgeliefert, und wer das umgehen will, müsste selbst technisch einen eigenen Crawler betreiben, was eine erhebliche Last wäre. Selbst wenn man hier noch Zahlungen hinzufügt, ist es wenig wertvoll, weil man vermutlich für zahllose nie zuvor gesehene Müllseiten zahlen würde. Mit so einem Modell könnten AI-Firmen oder Suchmaschinen günstiger und einfacher crawlen, und Websites könnten die Last massiv senken und gleichzeitig besser blockieren. Cloudflare sagt aber nur „Zahlt“, und das ist zu fantasielos und wenig überzeugend

    • Ich denke, wenn man hier die richtige Anreizstruktur sehen will, muss man auf die andere Marktseite schauen. Für Content-Produzenten ist nicht das Problem, dass viel Traffic auf ihre Website kommt, sondern dass sie dafür keine angemessene Vergütung bekommen. Selbst wenn acht Firmen alle Seiten meiner Website zehnmal täglich besuchen, wäre das kein Problem, solange ich dafür marktüblich bezahlt werde. Dann hätten diese acht Firmen auch einen Anreiz, zusammenzuarbeiten und Crawling zu bündeln, weil die Kosten nicht mehr externalisiert würden. Das wäre letztlich für alle vernünftiger

    • Common Crawl sollte diese Rolle eigentlich übernehmen, aber ironischerweise ist die Last inzwischen so hoch, weil AI-Startups die Daten zu gierig abziehen, dass es zuletzt kaum noch nutzbar ist. Genau wegen solcher Probleme könnte ein Markt für ausgelagertes Web-Crawling entstehen, und für Unternehmen wäre es in vieler Hinsicht vorteilhaft, Crawler auszulagern. Ob der Bedarf groß genug ist, um wirklich einen relevanten Markt zu bilden, ist noch nicht sicher, aber dass man ordentlichen Zugang zu Webdaten oder Crawling-Kompetenz braucht, ist eindeutig

    • Anders als die Aussage, Web-Crawling sei für AI-Firmen kein Wettbewerbsvorteil, ist die Fähigkeit, aktuelle Informationen oder bestimmte Quellen schnell einzubeziehen, sehr wohl ein Wettbewerbsvorteil. Das Problem ist, dass diese Firmen Inhalte von Websites übernehmen, ohne die Websites dafür zu entschädigen oder Traffic zurückzuführen, und damit das Web-Ökosystem zerstören. Aus Sicht der Websites ist der Wert einfach null, wenn ein AI-Bot meine Informationen liest und mir nichts zurückgibt

    • Wenn Crawling-Traffic auch nur ein gewisses Maß an Geld einbrächte, wäre die Finanzierung der Infrastruktur kein Problem. Auch früher sind Websites wegen hohen Traffics nur selten ausgefallen. Heute gilt eher: 1) Immer mehr Websites blockieren Bots, Scraper usw. direkt, oder 2) die, die das nicht können (weil Zugriffskontrolle schwierig ist oder ein Erlösmodell fehlt), werden bombardiert. Wenn in so einem Modell tatsächlich Geld an Websites fließen würde, könnte das zumindest die Belastung durch übermäßigen Bot-Traffic abdecken und darüber hinaus noch etwas bringen

    • Trotzdem könnte so eine Kostenstruktur doch ein direkter Anreiz zur Zusammenarbeit sein

  • Genau deshalb wird Google am Ende wohl auch bei AI im Vorteil bleiben. Die meisten wollen, dass der Googlebot ihre Website crawlt. Er bringt Traffic, und Google nutzt diesen Index auch fürs AI-Training. Das mag monopolistisch sein, aber es ist für beide Seiten vorteilhaft. Aber bei Firmen wie OpenAI, Anthropic oder Meta, die crawlen und keinerlei Gegenleistung bieten, dürfte kaum jemand wollen, dass die eigene Website gecrawlt wird. Deshalb finde ich diese Policy von Cloudflare zeitgemäß. Wenn sie funktioniert, ist das auch für Cloudflare selbst eine enorme Chance

    • Wegen Googles „AI Overview“ brechen die Klickraten stark ein. Früher brachte Google etwa einen Besucher pro zwei gecrawlte Seiten, vor sechs Monaten war es 6:1, jetzt ist es 18:1. Der Unterschied sind die AI Overviews. Bei OpenAI ist es noch schlimmer: vor sechs Monaten 250:1, jetzt 1.500:1, weil AI den Zufluss zum Originallink fast komplett abfängt. (Twitter-Referenz: https://twitter.com/ethanhays/status/1938651733976310151)

    • Ich bin ein Startup und möchte im Gegenteil, dass meine Website von AI gecrawlt wird. Wenn Leute ChatGPT fragen: „Was ist $CompanyName?“, möchte ich, dass die Stärken und Kernbotschaften unseres Unternehmens korrekt wiedergegeben werden. Traditionelle SEO-Inhalte können ebenfalls als Trainingsdaten für AI dienen. Wenn man AI-Tools bittet, Vor- und Nachteile des Webs zusammenzufassen, stammen Quellen oft aus Listenartikeln wie „top 10 tools for X“, die Unternehmen selbst auf ihren Blogs veröffentlichen. Dasselbe gilt für große Organisationen wie Tourismusbehörden oder andere Akteure, die ihre Sichtweise überzeugend in der Welt verbreiten wollen

    • Es wurde erwähnt, dass OpenAI, Anthropic und Meta von Menschen geschriebene Inhalte crawlen, ohne irgendeine Vergütung zu leisten. Tatsächlich profitieren aber staatliche Stellen oder Großunternehmen in manchen Fällen sogar davon, gecrawlt zu werden. Wenn eine globale AI auf die Frage „Wie kann ich Kängurus sehen?“ statt Australien einen Zoo in Neuseeland empfiehlt, wäre das ein Problem. Es ist wichtig, dass korrekte Informationen in AI-Modelle einfließen, weil man damit auf sehr viele Menschen Einfluss nehmen kann

    • Google hat zudem Projekte wie Google Books, daher ist es für andere westliche Unternehmen deutlich schwerer, in vergleichbarem Umfang Trainingsmaterial zu beschaffen, während chinesische Unternehmen sich um Urheberrechte oft weit weniger kümmern. Das ist ein großer Unterschied

    • Ich glaube nicht unbedingt, dass Google bei AI klar im Vorteil ist. Aus Verbrauchersicht liegt Googles AI Overview oft spektakulär falsch. Technisch können sie hervorragende APIs, Qualität oder Funktionen liefern, aber die wichtigste sichtbare AI-Erfahrung für normale Nutzer ist eher schwach

  • Die Technik selbst ist cool, aber mir gefällt nicht, dass alle Crawler dafür Cloudflare nutzen müssten. Ich meine mich zu erinnern, dass Google-Chrome-Entwickler einmal eine Web Monetization API vorgeschlagen haben; mit einer dezentralen Zahlungsstruktur wäre man nicht von einem einzelnen Unternehmen abhängig

    • Ich habe kein großes Vertrauen in Cloudflare. Ich versuche seit Langem, meinen RSS-Reader in ihre Liste der Verified Bots aufnehmen zu lassen, aber es ist nicht einmal klar, wo der Support-Antrag landet
  • Die Richtung ist gut, aber es gibt noch viele Schwächen. Am idealsten wäre eine differenzierte Preisgestaltung je nach Nutzungszweck. Wenn jemand eine Website „für Forschungszwecke“ crawlt, sollte das fast kostenlos sein. Für „AI-Training zur Kommerzialisierung“ sollte es dagegen sehr teuer sein. Es ist bedauerlich, dass man überhaupt in diese Richtung denken muss, aber inzwischen ist das frühere Modell faktisch so gut wie verboten, daher ist eine kostenlose vollständige Offenheit ohne Gegenleistung realistisch nicht mehr möglich. Eigentlich wäre die ganze Menschheit besser dran, wenn jemand eine Weltbibliothek aufbauen würde, in der alle Informationen frei verfügbar sind, zusammen mit einem passenden IP-Vergütungssystem. Die meisten technischen Hürden sind heute längst gelöst, aber stattdessen bleiben nur die faktischen „kartellartigen“ Beschränkungen. Daher läuft es im Moment notgedrungen eher auf „Dann zahlt eben dafür“ hinaus

    • Dann würden am Ende Leute mit Gewinnabsicht alle möglichen Schlupflöcher finden und ausnutzen, Daten entgegen der Absicht weiterverkaufen oder in das System eindringen. Wenn man etwa sagt „Für Forschung kostenlos“, kann jemand einfach behaupten „Ich bin hier zum Forschen!“, die Daten in Wirklichkeit aber gewinnbringend an verbundene Unternehmen verkaufen

    • Selbst wenn so eine „Bibliothek, die alle Daten frei teilt“ technisch machbar erscheint, ist die wirtschaftliche Nachhaltigkeit das Kernproblem. Wenn die Zugangskosten zu niedrig werden, führt das eher zu endloser Vervielfältigung oder exzessivem Missbrauch, wodurch das System kollabiert. Ein gewisses Maß an Begrenzung schafft eher Anreize für Kooperation und Qualitätssteigerung. (Ähnlich wie bei r/K-Strategien in der Biologie.) Wenn es Beschränkungen gibt, steigt der Wert pro Einheit, und hochwertige Informationen und Services können sich stärker entwickeln. Am Ende lagen öffentliche Offline-Bibliotheken diesem Optimum wahrscheinlich recht nahe

  • Ich glaube, HN unterschätzt das hier, aber das ist eine riesige Veränderung. 20 % des gesamten Webs liegen bei Cloudflare. Wenn diese Funktion allen Kunden angeboten wird, sogar kostenlosen Blogbetreibern, dann ist das eine interessante Struktur, in der auch Blogbesitzer Geld verdienen könnten

    • Realistisch gesehen werden Blogbetreiber wahrscheinlich nur Bruchteile von 0,1 Cent erhalten, und es liegt der Verdacht nahe, dass Cloudflare den Großteil der Einnahmen abschöpft. Am Ende könnte dieses System überall eingeführt werden, und es entstünde so etwas wie ein geschlossenes „Cloudflare-Netz“, das man ohne Kreditkartenverifizierung nicht lesen kann. Der Markt könnte sich auf konkurrierende Infrastrukturen wie Akamai, AWS usw. aufspalten. Für AI-Modelle steigen die Crawling-Kosten, und diese Belastung wird letztlich an die Nutzer weitergereicht, also an uns alle. Gleichzeitig wird es für kleinere Firmen schwerer, Neues zu schaffen. Auch die durchschnittliche Verfügbarkeit von Informationen für AI-Modelle sinkt. Letztlich hängt das mit derselben Problematik wie bei der Debatte um Netzneutralität zusammen: Das einst völlig offene Web verliert seine ursprüngliche Offenheit zunehmend durch Zahlungsbedingungen oder Unternehmens-Gatekeeping. Es sind also nicht so gute Nachrichten für das ganze Web, wie es zunächst klingt
  • Ich habe Sorge, dass sich das bald zu einem Modell entwickelt, bei dem man beim Nutzen des Browsers ständig Micropayments zahlen muss, und das Internet verschwindet

    • Ich verliere schon jetzt viel Zeit durch Cloudflares Bot-Erkennung. Ich nutze Chrome + uBlock, und wahrscheinlich sehe ich bald auch noch Zahlungsaufforderungen. Wenn ein CAPTCHA erscheint, nutze ich die Website einfach nicht und gehe woanders hin

    • Eigentlich könnte das trotzdem besser sein, als von Dutzenden Werbeanzeigen und Paywalls geplagt zu werden

  • Man muss auch Fälle bedenken, in denen AI-Crawler als Hilfsmittel für barrierefreie Webnavigation eingesetzt werden. UI-Automatisierung stößt schon jetzt in vielen Verifizierungsprozessen auf Hürden

    • Website-Betreiber können solche Crawler zulassen. Das Problem, dass böswillige Akteure sich als gutwillig ausgeben, existiert schon heute, etwa wenn man den Google-Webcrawler zulassen, aber das Training von Gemini blockieren will. Dafür braucht es technische Lösungen

    • Ich bin mir nicht sicher, was genau gemeint ist, wenn einzelne Nutzer mit einem Crawler das Web „durchsuchen“ können. Ein AI-Browser ist nicht automatisch ein Crawler. Ein Crawler ist ein Werkzeug, das ganze Websites in großem Umfang einsammelt

    • Es gibt bereits den Barrierefreiheitsstandard ARIA, und große Websites setzen ihn alle um. Für Barrierefreiheit sollte man AI eigentlich weder brauchen noch einsetzen

  • Früher hielt ich Unternehmen, die nützliche Suche im Internet angeboten haben, für „gute Unternehmen“. Und heute wirkt es so, als ob Cloudflare mit DDoS-Abwehr, CDN und Schutz vor AI ebenfalls „gute Dinge“ tut. Aber vermutlich wird man auch solche Unternehmen später irgendwann nicht mehr mögen

    • Cloudflare ist nicht ein Unternehmen, das wirklich alle hassen, aber je mehr Einfluss es gewinnt, desto größer wird die Anspannung. Bluesky sagte einmal „the company is tomorrow's adversary“, und Cloudflare wächst ebenfalls zu einem mächtigen Gegenspieler heran

    • Meine realen Freunde in meinem Umfeld hassen Cloudflare bereits

    • Man sagt, Cloudflare tue dem Internet etwas Gutes, aber durch die von Cloudflare verursachte Authentifizierungs- und Verifizierungsreibung nutze ich inzwischen häufiger LLMs als Stack Exchange

  • Insgesamt stimme ich der Idee zu, aber Großunternehmen werden irgendwelche Wege finden, an die Daten vorbeizukommen, und besonders Google wird wohl unter dem Vorwand der Suchmaschine gratis crawlen. Und wenn das Modell tatsächlich erfolgreich ist, werden die Kosten am Ende wahrscheinlich an uns Endnutzer weitergereicht

    • Selbst wenn Google Daten kostenlos unter dem Vorwand der Suche crawlt, könnte man in einer zweiten Stufe Google pro Seite zahlen lassen. Für jeden Artikel könnte man unterschiedliche, für Crawler unzugängliche Bereiche nach Preisstufe definieren, sodass etwa für wichtige Nachrichten hohe Gebühren verlangt werden, während allgemeine Informationen, LLM-Training oder interne Forschung je nach Zweck mit jeweils ausgewiesenen Preisen lizenziert werden. Wenn Cloudflare als Zwischenhub für Millionen von Websites fungiert, wäre so eine Struktur durchaus machbar

    • Mehr Publisher werden auch den Googlebot blockieren. Der Grund ist, dass Google durch AI-Antworten in der Suche bereits Einnahmen von Publishern abschöpft