- Google ist nun die einzige Suchmaschine, die Ergebnisse von Reddit anzeigen kann
- Reddit hat kürzlich seine
robots.txt-Datei aktualisiert und blockiert damit das Crawling durch alle Suchmaschinen außer Google - In alternativen Suchmaschinen, die nicht auf Googles Indexierung angewiesen sind, darunter Bing, DuckDuckGo, Mojeek und Qwant, sind in der vergangenen Woche keine Reddit-Suchergebnisse mehr zu sehen
- DuckDuckGo zeigt bei einer Reddit-Suche sieben Links an, liefert aber keine Informationen zum Ziel der Links oder warum sie angezeigt werden
- Kagi kann Reddit durchsuchen, weil es Teile von Googles Suchindex einkauft
- Dies geschieht zu einem Zeitpunkt, an dem Googles Suchmonopol die Wettbewerbsfähigkeit anderer Unternehmen bereits beeinträchtigt
- Reddit und Google reagierten nicht auf Presseanfragen zur Stellungnahme, doch der Ausschluss anderer Suchmaschinen scheint mit einem millionenschweren Vertrag zusammenzuhängen, der Google das Recht einräumt, Reddit-Daten zum Training von AI-Produkten zu scrapen
Reaktion des Mojeek-CEO
- Colin Hayhurst, CEO von Mojeek, sagte, Mojeek habe Anfang Juni entdeckt, dass das Crawling von Reddit blockiert wurde, und habe per E-Mail Kontakt aufgenommen, aber keine Antwort erhalten
- Hayhurst sagte: „Es kommt vor, dass man aus Unwissenheit oder Dummheit blockiert wird, aber wenn man Kontakt aufnimmt, konnte man das bislang immer klären. Diesmal hat jedoch niemand geantwortet – das ist beispiellos.“
- Reddit soll nicht nur Crawler allgemein blockieren, sondern den Crawler von Mojeek auch aktiv aussperren
Zunehmender Trend, das Scraping von Daten durch AI-Unternehmen zu blockieren
- Viele Websites aktualisieren ihre
robots.txt-Dateien, und die Versuche, Bots von AI-Unternehmen am Scraping von Trainingsdaten zu hindern, nehmen stark zu - Google hat kürzlich zwei Crawler eingeführt:
Googlebotzur Verbesserung der Suchergebnisse undGoogle-Extendedzur Verbesserung der Gemini-App robots.txt-Dateien sind lediglich Richtlinien, und Crawler können sie ignorieren
Hintergrund zu Reddits Maßnahme
- Reddit war verärgert über AI-Unternehmen, die die Website zum Training großer Sprachmodelle scrapen, und ist öffentlich sowie aktiv dagegen vorgegangen
- Im vergangenen Jahr begann Reddit, den API-Zugang zu bepreisen, wodurch viele Third-Party-Apps im Betrieb zu teuer wurden und eingestellt werden mussten
- Anfang dieses Jahres schloss Reddit einen Vertrag über 60 Millionen Dollar mit Google, der Google erlaubt, Reddit-Inhalte für das Training von AI-Produkten zu lizenzieren
Änderungen an Reddits robots.txt-Datei
- Früher war sie komplex aufgebaut und enthielt sogar Scherze, inzwischen ist sie einfach und streng geworden
- Derzeit enthält sie nur noch die Anweisung
User-agent: *, Disallow: /, was bedeutet, dass kein Bot irgendeinen Teil der Website scrapen darf - Reddit erklärte, man glaube an das offene Internet, toleriere aber keinen Missbrauch öffentlicher Inhalte
Reddits Position
- In letzter Zeit gibt es immer mehr Fälle, in denen kommerzielle Akteure Reddit scrapen und behaupten, nicht an die Nutzungsbedingungen oder Richtlinien gebunden zu sein
- Sich hinter
robots.txtzu verstecken und zu behaupten, man dürfe Reddit-Inhalte für beliebige Zwecke verwenden, sei ein noch schwerwiegenderes Problem - Man werde weiterhin alles daransetzen, böswillige Akteure zu identifizieren und proaktiv zu blockieren, doch zum Schutz der Beiträge der Redditorinnen und Redditoren sei mehr nötig
- Künftig wolle Reddit die
robots.txt-Vorgaben so klar wie möglich aktualisieren. Wer mit automatisierten Agenten auf Reddit zugreift, müsse die Nutzungsbedingungen und Richtlinien einhalten und mit Reddit kommunizieren
Nicht-kommerzieller Zugang zu Reddit-Daten bleibt weiterhin möglich
- Reddit erklärte: „Gutwillige Akteure (Forschende, das Internet Archive usw.) werden auch weiterhin für nicht-kommerzielle Zwecke auf Reddit-Inhalte zugreifen können.“
- Laut Reddit werden vertrauenswürdige Akteure gezielt ausgewählt, wenn es um umfangreichen Zugriff auf Reddit-Daten geht
- Laut den Richtlinien für den Zugriff auf Reddit-Daten gelten „Suche oder Werbung auf Websites“ als „kommerzielle Nutzung“; ohne Genehmigung oder Gebührenzahlung dürfen Reddit-Daten dafür nicht verwendet werden
Was es bedeutet, dass nur Google die Reddit-Suche unterstützt
- Während die Relevanz der Google-Suche zunehmend nachlässt, besteht eine der wenigen Methoden, weiterhin gute Suchergebnisse zu erhalten, darin, dem Suchbegriff „Reddit“ hinzuzufügen
- Der Grund ist, dass echte Nutzerinnen und Nutzer dort seit fast 20 Jahren Ratschläge und Empfehlungen hinterlassen
- Dass nun nur noch Google Nutzerinnen und Nutzer zu diesen Informationen führen kann – und dass dies das Ergebnis eines 60-Millionen-Dollar-Vertrags im Zusammenhang mit AI-Trainingsdaten ist – zeigt ein weiteres Mal eine unbeabsichtigte Folge des massenhaften, unterschiedslosen Scrapings des gesamten Internets zur Stärkung generativer AI-Tools
Sorge des Mojeek-CEO
- Mojeek crawlt das Web seit 20 Jahren respektvoll und ist eine traditionelle Suchmaschine, die keine AI trainiert und kein Tracking betreibt
- Reddits Vertrag mit Google macht es schwieriger, alternative Wege für die Websuche anzubieten
- Das ist Teil eines breiteren Trends, der das Web schrittweise zerstört und aushöhlt
- Für kleinere Unternehmen ist dieser Vorfall nicht hilfreich
Meinung von GN⁺
- Reddits Maßnahme soll die Rechte von Content-Erstellern schützen und kommerziellen Missbrauch verhindern, könnte aber den Wettbewerb im Suchmaschinenmarkt behindern
- Insbesondere die Situation, in der Google Reddit-Daten für AI-Training exklusiv nutzen kann, weckt Sorgen über einen Missbrauch von Googles Marktmacht
- Langfristig scheint es dringend nötig, Regeln und Richtlinien zu schaffen, die ein Zusammenwirken von Content-Anbietern, Suchmaschinen und AI-Unternehmen ermöglichen
- Zugleich ist es ironisch, dass ausgerechnet die Reddit-Suche als Alternative zum Qualitätsverlust bei Suchmaschinen an Bedeutung gewinnt. Grundsätzlich sind Anstrengungen nötig, um Relevanz und Vielfalt von Suchmaschinen zu verbessern
- Auch das Wachstum neuer Suchmaschinen wie Kagi, die teilweise auf Googles Suchindex zurückgreifen und zugleich einen eigenen Ansatz verfolgen, verdient Aufmerksamkeit
1 Kommentare
Hacker-News-Kommentar
robots.txtvon Reddit ist im KI-Kontext nachvollziehbar, gegenüber anderen Suchmaschinen aber wettbewerbswidrigrobots.txtoder den Nutzungsbedingungen für Web-Scraper nicht bindendrobots.txtgeändertrobots.txtverwendet