Google wird dank AI-Deal zur einzigen Suchmaschine, die auf Reddit funktioniert

(404media.co)

8 Punkte von GN⁺ 2024-07-25 | 1 Kommentare | Auf WhatsApp teilen

Google ist nun die einzige Suchmaschine, die Ergebnisse von Reddit anzeigen kann
Reddit hat kürzlich seine robots.txt-Datei aktualisiert und blockiert damit das Crawling durch alle Suchmaschinen außer Google
In alternativen Suchmaschinen, die nicht auf Googles Indexierung angewiesen sind, darunter Bing, DuckDuckGo, Mojeek und Qwant, sind in der vergangenen Woche keine Reddit-Suchergebnisse mehr zu sehen
- DuckDuckGo zeigt bei einer Reddit-Suche sieben Links an, liefert aber keine Informationen zum Ziel der Links oder warum sie angezeigt werden
- Kagi kann Reddit durchsuchen, weil es Teile von Googles Suchindex einkauft
Dies geschieht zu einem Zeitpunkt, an dem Googles Suchmonopol die Wettbewerbsfähigkeit anderer Unternehmen bereits beeinträchtigt
Reddit und Google reagierten nicht auf Presseanfragen zur Stellungnahme, doch der Ausschluss anderer Suchmaschinen scheint mit einem millionenschweren Vertrag zusammenzuhängen, der Google das Recht einräumt, Reddit-Daten zum Training von AI-Produkten zu scrapen

Reaktion des Mojeek-CEO

Colin Hayhurst, CEO von Mojeek, sagte, Mojeek habe Anfang Juni entdeckt, dass das Crawling von Reddit blockiert wurde, und habe per E-Mail Kontakt aufgenommen, aber keine Antwort erhalten
Hayhurst sagte: „Es kommt vor, dass man aus Unwissenheit oder Dummheit blockiert wird, aber wenn man Kontakt aufnimmt, konnte man das bislang immer klären. Diesmal hat jedoch niemand geantwortet – das ist beispiellos.“
Reddit soll nicht nur Crawler allgemein blockieren, sondern den Crawler von Mojeek auch aktiv aussperren

Zunehmender Trend, das Scraping von Daten durch AI-Unternehmen zu blockieren

Viele Websites aktualisieren ihre robots.txt-Dateien, und die Versuche, Bots von AI-Unternehmen am Scraping von Trainingsdaten zu hindern, nehmen stark zu
Google hat kürzlich zwei Crawler eingeführt: Googlebot zur Verbesserung der Suchergebnisse und Google-Extended zur Verbesserung der Gemini-App
robots.txt-Dateien sind lediglich Richtlinien, und Crawler können sie ignorieren

Hintergrund zu Reddits Maßnahme

Reddit war verärgert über AI-Unternehmen, die die Website zum Training großer Sprachmodelle scrapen, und ist öffentlich sowie aktiv dagegen vorgegangen
Im vergangenen Jahr begann Reddit, den API-Zugang zu bepreisen, wodurch viele Third-Party-Apps im Betrieb zu teuer wurden und eingestellt werden mussten
Anfang dieses Jahres schloss Reddit einen Vertrag über 60 Millionen Dollar mit Google, der Google erlaubt, Reddit-Inhalte für das Training von AI-Produkten zu lizenzieren

Änderungen an Reddits `robots.txt`-Datei

Früher war sie komplex aufgebaut und enthielt sogar Scherze, inzwischen ist sie einfach und streng geworden
Derzeit enthält sie nur noch die Anweisung User-agent: *, Disallow: /, was bedeutet, dass kein Bot irgendeinen Teil der Website scrapen darf
Reddit erklärte, man glaube an das offene Internet, toleriere aber keinen Missbrauch öffentlicher Inhalte

Reddits Position

In letzter Zeit gibt es immer mehr Fälle, in denen kommerzielle Akteure Reddit scrapen und behaupten, nicht an die Nutzungsbedingungen oder Richtlinien gebunden zu sein
Sich hinter robots.txt zu verstecken und zu behaupten, man dürfe Reddit-Inhalte für beliebige Zwecke verwenden, sei ein noch schwerwiegenderes Problem
Man werde weiterhin alles daransetzen, böswillige Akteure zu identifizieren und proaktiv zu blockieren, doch zum Schutz der Beiträge der Redditorinnen und Redditoren sei mehr nötig
Künftig wolle Reddit die robots.txt-Vorgaben so klar wie möglich aktualisieren. Wer mit automatisierten Agenten auf Reddit zugreift, müsse die Nutzungsbedingungen und Richtlinien einhalten und mit Reddit kommunizieren

Nicht-kommerzieller Zugang zu Reddit-Daten bleibt weiterhin möglich

Reddit erklärte: „Gutwillige Akteure (Forschende, das Internet Archive usw.) werden auch weiterhin für nicht-kommerzielle Zwecke auf Reddit-Inhalte zugreifen können.“
Laut Reddit werden vertrauenswürdige Akteure gezielt ausgewählt, wenn es um umfangreichen Zugriff auf Reddit-Daten geht
Laut den Richtlinien für den Zugriff auf Reddit-Daten gelten „Suche oder Werbung auf Websites“ als „kommerzielle Nutzung“; ohne Genehmigung oder Gebührenzahlung dürfen Reddit-Daten dafür nicht verwendet werden

Was es bedeutet, dass nur Google die Reddit-Suche unterstützt

Während die Relevanz der Google-Suche zunehmend nachlässt, besteht eine der wenigen Methoden, weiterhin gute Suchergebnisse zu erhalten, darin, dem Suchbegriff „Reddit“ hinzuzufügen
Der Grund ist, dass echte Nutzerinnen und Nutzer dort seit fast 20 Jahren Ratschläge und Empfehlungen hinterlassen
Dass nun nur noch Google Nutzerinnen und Nutzer zu diesen Informationen führen kann – und dass dies das Ergebnis eines 60-Millionen-Dollar-Vertrags im Zusammenhang mit AI-Trainingsdaten ist – zeigt ein weiteres Mal eine unbeabsichtigte Folge des massenhaften, unterschiedslosen Scrapings des gesamten Internets zur Stärkung generativer AI-Tools

Sorge des Mojeek-CEO

Mojeek crawlt das Web seit 20 Jahren respektvoll und ist eine traditionelle Suchmaschine, die keine AI trainiert und kein Tracking betreibt
Reddits Vertrag mit Google macht es schwieriger, alternative Wege für die Websuche anzubieten
Das ist Teil eines breiteren Trends, der das Web schrittweise zerstört und aushöhlt
Für kleinere Unternehmen ist dieser Vorfall nicht hilfreich

Meinung von GN⁺

Reddits Maßnahme soll die Rechte von Content-Erstellern schützen und kommerziellen Missbrauch verhindern, könnte aber den Wettbewerb im Suchmaschinenmarkt behindern
Insbesondere die Situation, in der Google Reddit-Daten für AI-Training exklusiv nutzen kann, weckt Sorgen über einen Missbrauch von Googles Marktmacht
Langfristig scheint es dringend nötig, Regeln und Richtlinien zu schaffen, die ein Zusammenwirken von Content-Anbietern, Suchmaschinen und AI-Unternehmen ermöglichen
Zugleich ist es ironisch, dass ausgerechnet die Reddit-Suche als Alternative zum Qualitätsverlust bei Suchmaschinen an Bedeutung gewinnt. Grundsätzlich sind Anstrengungen nötig, um Relevanz und Vielfalt von Suchmaschinen zu verbessern
Auch das Wachstum neuer Suchmaschinen wie Kagi, die teilweise auf Googles Suchindex zurückgreifen und zugleich einen eigenen Ansatz verfolgen, verdient Aufmerksamkeit

1 Kommentare

GN⁺ 2024-07-25

Hacker-News-Kommentar

Die Änderung der robots.txt von Reddit ist im KI-Kontext nachvollziehbar, gegenüber anderen Suchmaschinen aber wettbewerbswidrig
Das könnte ein gefährlicher Präzedenzfall für das Internet werden
Viele Websites könnten die Macht bekommen, Gebühren für die Indexierung zu verlangen
Es könnte eine Welt entstehen, in der man eine bestimmte Suchmaschine nutzen muss, um Antworten von bestimmten Websites zu erhalten
Unter Effizienzgesichtspunkten wäre es besser, wenn Websites ihre Daten an Suchmaschinen vermieten
Realistisch gesehen gibt es derzeit nur zwei Suchmaschinen
Das ist eine sehr schlechte Situation für Kagi, aber es könnte auch zur Wiederentdeckung des nichtkommerziellen Webs führen, das als Hobby betrieben wurde
Nach US-Recht sind Änderungen an robots.txt oder den Nutzungsbedingungen für Web-Scraper nicht bindend
- Weil die Daten öffentlich zugänglich sind
- Selbst wenn beim Besuch der Website ein Banner zur Zustimmung zu den Nutzungsbedingungen angezeigt wird, ist das nicht bindend
- Erst wenn der Datenzugang beschränkt wird und man nur mit einem Account darauf zugreifen kann, wird es bindend
Reddit hat vor einem Monat seine robots.txt geändert
- 19 Jahre lang wurde eine sehr großzügige robots.txt verwendet
- Offenbar wurde sie wegen Datenmissbrauchs geändert
- Wenn Suchmaschinen zustimmen, die Daten nicht fürs Training zu verwenden, könnte sie wieder geöffnet werden
Das Problem, dass KI-Bots Websites scrapen, um LLMs zu trainieren, wird immer gravierender
- Beispiel: Die Website thegreatestbooks.org erhielt innerhalb von 24 Stunden 1,2 Millionen Bot-/Automatisierungsanfragen
Reddit ist zur einzigen Suchmaschine geworden, die auf Google funktioniert
Ich kann nicht nachvollziehen, dass das Verhalten von Reddit nicht wettbewerbswidrig sein soll
- Es sollte auch den Konkurrenten von Google zu ähnlichen Bedingungen angeboten werden

Google wird dank AI-Deal zur einzigen Suchmaschine, die auf Reddit funktioniert

Reaktion des Mojeek-CEO

Zunehmender Trend, das Scraping von Daten durch AI-Unternehmen zu blockieren

Hintergrund zu Reddits Maßnahme

Änderungen an Reddits robots.txt-Datei

Reddits Position

Nicht-kommerzieller Zugang zu Reddit-Daten bleibt weiterhin möglich

Was es bedeutet, dass nur Google die Reddit-Suche unterstützt

Sorge des Mojeek-CEO

Meinung von GN⁺

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentar

Änderungen an Reddits `robots.txt`-Datei