8 Punkte von GN⁺ 2024-07-25 | 1 Kommentare | Auf WhatsApp teilen
  • Google ist nun die einzige Suchmaschine, die Ergebnisse von Reddit anzeigen kann
  • Reddit hat kürzlich seine robots.txt-Datei aktualisiert und blockiert damit das Crawling durch alle Suchmaschinen außer Google
  • In alternativen Suchmaschinen, die nicht auf Googles Indexierung angewiesen sind, darunter Bing, DuckDuckGo, Mojeek und Qwant, sind in der vergangenen Woche keine Reddit-Suchergebnisse mehr zu sehen
    • DuckDuckGo zeigt bei einer Reddit-Suche sieben Links an, liefert aber keine Informationen zum Ziel der Links oder warum sie angezeigt werden
    • Kagi kann Reddit durchsuchen, weil es Teile von Googles Suchindex einkauft
  • Dies geschieht zu einem Zeitpunkt, an dem Googles Suchmonopol die Wettbewerbsfähigkeit anderer Unternehmen bereits beeinträchtigt
  • Reddit und Google reagierten nicht auf Presseanfragen zur Stellungnahme, doch der Ausschluss anderer Suchmaschinen scheint mit einem millionenschweren Vertrag zusammenzuhängen, der Google das Recht einräumt, Reddit-Daten zum Training von AI-Produkten zu scrapen

Reaktion des Mojeek-CEO

  • Colin Hayhurst, CEO von Mojeek, sagte, Mojeek habe Anfang Juni entdeckt, dass das Crawling von Reddit blockiert wurde, und habe per E-Mail Kontakt aufgenommen, aber keine Antwort erhalten
  • Hayhurst sagte: „Es kommt vor, dass man aus Unwissenheit oder Dummheit blockiert wird, aber wenn man Kontakt aufnimmt, konnte man das bislang immer klären. Diesmal hat jedoch niemand geantwortet – das ist beispiellos.“
  • Reddit soll nicht nur Crawler allgemein blockieren, sondern den Crawler von Mojeek auch aktiv aussperren

Zunehmender Trend, das Scraping von Daten durch AI-Unternehmen zu blockieren

  • Viele Websites aktualisieren ihre robots.txt-Dateien, und die Versuche, Bots von AI-Unternehmen am Scraping von Trainingsdaten zu hindern, nehmen stark zu
  • Google hat kürzlich zwei Crawler eingeführt: Googlebot zur Verbesserung der Suchergebnisse und Google-Extended zur Verbesserung der Gemini-App
  • robots.txt-Dateien sind lediglich Richtlinien, und Crawler können sie ignorieren

Hintergrund zu Reddits Maßnahme

  • Reddit war verärgert über AI-Unternehmen, die die Website zum Training großer Sprachmodelle scrapen, und ist öffentlich sowie aktiv dagegen vorgegangen
  • Im vergangenen Jahr begann Reddit, den API-Zugang zu bepreisen, wodurch viele Third-Party-Apps im Betrieb zu teuer wurden und eingestellt werden mussten
  • Anfang dieses Jahres schloss Reddit einen Vertrag über 60 Millionen Dollar mit Google, der Google erlaubt, Reddit-Inhalte für das Training von AI-Produkten zu lizenzieren

Änderungen an Reddits robots.txt-Datei

  • Früher war sie komplex aufgebaut und enthielt sogar Scherze, inzwischen ist sie einfach und streng geworden
  • Derzeit enthält sie nur noch die Anweisung User-agent: *, Disallow: /, was bedeutet, dass kein Bot irgendeinen Teil der Website scrapen darf
  • Reddit erklärte, man glaube an das offene Internet, toleriere aber keinen Missbrauch öffentlicher Inhalte

Reddits Position

  • In letzter Zeit gibt es immer mehr Fälle, in denen kommerzielle Akteure Reddit scrapen und behaupten, nicht an die Nutzungsbedingungen oder Richtlinien gebunden zu sein
  • Sich hinter robots.txt zu verstecken und zu behaupten, man dürfe Reddit-Inhalte für beliebige Zwecke verwenden, sei ein noch schwerwiegenderes Problem
  • Man werde weiterhin alles daransetzen, böswillige Akteure zu identifizieren und proaktiv zu blockieren, doch zum Schutz der Beiträge der Redditorinnen und Redditoren sei mehr nötig
  • Künftig wolle Reddit die robots.txt-Vorgaben so klar wie möglich aktualisieren. Wer mit automatisierten Agenten auf Reddit zugreift, müsse die Nutzungsbedingungen und Richtlinien einhalten und mit Reddit kommunizieren

Nicht-kommerzieller Zugang zu Reddit-Daten bleibt weiterhin möglich

  • Reddit erklärte: „Gutwillige Akteure (Forschende, das Internet Archive usw.) werden auch weiterhin für nicht-kommerzielle Zwecke auf Reddit-Inhalte zugreifen können.“
  • Laut Reddit werden vertrauenswürdige Akteure gezielt ausgewählt, wenn es um umfangreichen Zugriff auf Reddit-Daten geht
  • Laut den Richtlinien für den Zugriff auf Reddit-Daten gelten „Suche oder Werbung auf Websites“ als „kommerzielle Nutzung“; ohne Genehmigung oder Gebührenzahlung dürfen Reddit-Daten dafür nicht verwendet werden

Was es bedeutet, dass nur Google die Reddit-Suche unterstützt

  • Während die Relevanz der Google-Suche zunehmend nachlässt, besteht eine der wenigen Methoden, weiterhin gute Suchergebnisse zu erhalten, darin, dem Suchbegriff „Reddit“ hinzuzufügen
  • Der Grund ist, dass echte Nutzerinnen und Nutzer dort seit fast 20 Jahren Ratschläge und Empfehlungen hinterlassen
  • Dass nun nur noch Google Nutzerinnen und Nutzer zu diesen Informationen führen kann – und dass dies das Ergebnis eines 60-Millionen-Dollar-Vertrags im Zusammenhang mit AI-Trainingsdaten ist – zeigt ein weiteres Mal eine unbeabsichtigte Folge des massenhaften, unterschiedslosen Scrapings des gesamten Internets zur Stärkung generativer AI-Tools

Sorge des Mojeek-CEO

  • Mojeek crawlt das Web seit 20 Jahren respektvoll und ist eine traditionelle Suchmaschine, die keine AI trainiert und kein Tracking betreibt
  • Reddits Vertrag mit Google macht es schwieriger, alternative Wege für die Websuche anzubieten
  • Das ist Teil eines breiteren Trends, der das Web schrittweise zerstört und aushöhlt
  • Für kleinere Unternehmen ist dieser Vorfall nicht hilfreich

Meinung von GN⁺

  • Reddits Maßnahme soll die Rechte von Content-Erstellern schützen und kommerziellen Missbrauch verhindern, könnte aber den Wettbewerb im Suchmaschinenmarkt behindern
  • Insbesondere die Situation, in der Google Reddit-Daten für AI-Training exklusiv nutzen kann, weckt Sorgen über einen Missbrauch von Googles Marktmacht
  • Langfristig scheint es dringend nötig, Regeln und Richtlinien zu schaffen, die ein Zusammenwirken von Content-Anbietern, Suchmaschinen und AI-Unternehmen ermöglichen
  • Zugleich ist es ironisch, dass ausgerechnet die Reddit-Suche als Alternative zum Qualitätsverlust bei Suchmaschinen an Bedeutung gewinnt. Grundsätzlich sind Anstrengungen nötig, um Relevanz und Vielfalt von Suchmaschinen zu verbessern
  • Auch das Wachstum neuer Suchmaschinen wie Kagi, die teilweise auf Googles Suchindex zurückgreifen und zugleich einen eigenen Ansatz verfolgen, verdient Aufmerksamkeit

1 Kommentare

 
GN⁺ 2024-07-25
Hacker-News-Kommentar
  • Die Änderung der robots.txt von Reddit ist im KI-Kontext nachvollziehbar, gegenüber anderen Suchmaschinen aber wettbewerbswidrig
  • Das könnte ein gefährlicher Präzedenzfall für das Internet werden
  • Viele Websites könnten die Macht bekommen, Gebühren für die Indexierung zu verlangen
  • Es könnte eine Welt entstehen, in der man eine bestimmte Suchmaschine nutzen muss, um Antworten von bestimmten Websites zu erhalten
  • Unter Effizienzgesichtspunkten wäre es besser, wenn Websites ihre Daten an Suchmaschinen vermieten
  • Realistisch gesehen gibt es derzeit nur zwei Suchmaschinen
  • Das ist eine sehr schlechte Situation für Kagi, aber es könnte auch zur Wiederentdeckung des nichtkommerziellen Webs führen, das als Hobby betrieben wurde
  • Nach US-Recht sind Änderungen an robots.txt oder den Nutzungsbedingungen für Web-Scraper nicht bindend
    • Weil die Daten öffentlich zugänglich sind
    • Selbst wenn beim Besuch der Website ein Banner zur Zustimmung zu den Nutzungsbedingungen angezeigt wird, ist das nicht bindend
    • Erst wenn der Datenzugang beschränkt wird und man nur mit einem Account darauf zugreifen kann, wird es bindend
  • Reddit hat vor einem Monat seine robots.txt geändert
    • 19 Jahre lang wurde eine sehr großzügige robots.txt verwendet
    • Offenbar wurde sie wegen Datenmissbrauchs geändert
    • Wenn Suchmaschinen zustimmen, die Daten nicht fürs Training zu verwenden, könnte sie wieder geöffnet werden
  • Das Problem, dass KI-Bots Websites scrapen, um LLMs zu trainieren, wird immer gravierender
    • Beispiel: Die Website thegreatestbooks.org erhielt innerhalb von 24 Stunden 1,2 Millionen Bot-/Automatisierungsanfragen
  • Reddit ist zur einzigen Suchmaschine geworden, die auf Google funktioniert
  • Ich kann nicht nachvollziehen, dass das Verhalten von Reddit nicht wettbewerbswidrig sein soll
    • Es sollte auch den Konkurrenten von Google zu ähnlichen Bedingungen angeboten werden