- Große Medienhäuser blockieren oder beschränken den Zugang zum Internet Archive, um Datensammlung für AI-Training zu verhindern
- The Guardian schließt Artikelseiten aus der API des Internet Archive und der Wayback Machine aus und lässt nur einige Start- und Themenseiten bestehen
- The New York Times hat seit Ende 2025
archive.org_bot in die robots.txt aufgenommen und das Crawling vollständig blockiert
- 241 Nachrichtenseiten, darunter Gannett (USA Today Co.), blockieren mindestens einen Bot des Internet Archive; viele blockieren zusätzlich Common Crawl, OpenAI und Google AI
- Diese Maßnahmen sind eine Reaktion auf die unautorisierte Datennutzung durch AI-Unternehmen und zeigen zugleich das Spannungsfeld zwischen der Bewahrung digitaler Aufzeichnungen und dem Zugang zu Informationen auf
Zugangsbeschränkungen großer Medienhäuser zum Internet Archive
- The Guardian beschränkt den Zugang aus Sorge, dass AI-Unternehmen Inhalte über das Internet Archive sammeln könnten
- Eigene Artikelseiten wurden aus der API und der Artikelseiten-Oberfläche der Wayback Machine ausgeschlossen
- Regionale Start- und Themenseiten bleiben in der Wayback Machine weiterhin zugänglich
- Robert Hahn sagte, „AI-Unternehmen bevorzugen strukturierte Datenbanken, und die API des Internet Archive könnte dieser Zugangsweg sein“
- The Guardian erklärte, keine vollständige Sperre verhängt zu haben, und betonte den Respekt für den Auftrag des Internet Archive, Informationen zu demokratisieren
- Man überprüfe die eigene Position jedoch im Zuge einer künftigen Überarbeitung der Bot-Richtlinien erneut
Reaktion von The New York Times und Financial Times
- The New York Times hat
archive.org_bot zur robots.txt hinzugefügt und die Crawler des Internet Archive per „Hard Block“ gesperrt
- Begründung: „Die Wayback Machine stellt Times-Inhalte Dritten, einschließlich AI-Unternehmen, unbegrenzt zur Verfügung“
- Die Financial Times blockiert zum Schutz von Bezahlinhalten alle relevanten Bots, darunter OpenAI, Anthropic, Perplexity und das Internet Archive
- Da die meisten FT-Artikel hinter einer Paywall liegen, verbleiben in der Wayback Machine nur öffentlich zugängliche Artikel
Konflikt zwischen Reddit und dem Internet Archive
- Reddit hat im August 2025 den Zugang des Internet Archive blockiert
- Hintergrund waren Fälle, in denen AI-Unternehmen Reddit-Daten über die Wayback Machine gescrapt hatten
- Reddit erklärte, die Beschränkung diene dazu, Aktivitäten von AI-Unternehmen zu verhindern, die gegen die Plattformrichtlinien verstoßen
- Reddit hat mit Google bereits einen Lizenzvertrag für Trainingsdaten für AI abgeschlossen
Position und Reaktion des Internet Archive
- Gründer Brewster Kahle warnte, dass der öffentliche Zugang zu historischen Aufzeichnungen abnimmt, wenn Verlage Bibliotheken wie das Internet Archive einschränken
- Kahle erklärte auf Mastodon, dass für einige Sammlungen keine Massendownloads möglich seien und bereits Rate Limits, Filterung und Cloudflare-Sicherheitsdienste eingesetzt würden
- Im Mai 2023 kam es zu einem Fall, in dem ein AI-Unternehmen mit Massenanfragen die Server überlastete und das Internet Archive vorübergehend ausfiel
- Das betreffende Unternehmen entschuldigte sich später und spendete
Datenanalyse: Blockierungen bei Nachrichtenseiten weltweit
- Nieman Lab analysierte Ben Welshs Datenbank mit 1.167 Nachrichtenseiten, um den Stand der Blockierungen im Zusammenhang mit dem Internet Archive zu untersuchen
- 241 Nachrichtenseiten blockieren mindestens einen Bot des Internet Archive
- 87 % davon sind Medien im Besitz von USA Today Co. (Gannett), die 2025
archive.org_bot und ia_archiver-web.archive.org in ihre robots.txt aufgenommen haben
- Einige Gannett-Seiten zeigen in der Wayback Machine die Meldung „Diese URL wurde ausgeschlossen“
- Gannett erklärte, ein neues Protokoll zur Verhinderung unautorisierter Datensammlung eingeführt zu haben, und berichtete, im September 2025 75 Millionen AI-Bots blockiert zu haben, davon 70 Millionen von OpenAI
- Drei Seiten der Group Le Monde, darunter Le Monde und Le Huffington Post, blockieren alle drei Crawler des Internet Archive
Ausweitung der Blockierung von AI-Crawlern
- Neben dem Internet Archive werden zunehmend auch große AI-Crawler wie Common Crawl, OpenAI und Google AI blockiert
- Von den 241 Seiten blockieren 240 Common Crawl, 231 blockieren Bots von OpenAI und Google AI
- Common Crawl gilt als eng mit der kommerziellen Entwicklung von LLMs verbunden
Das Gleichgewicht zwischen Internet-Archivierung und Informationszugang
- Das Internet Archive ist das umfassendste Projekt zur Web-Archivierung in den USA, während viele Nachrichtenorganisationen nicht über eigene ausreichende Archivierungsfähigkeiten verfügen
- Im Dezember 2025 kündigten Poynter und das Internet Archive gemeinsam ein Trainingsprogramm zur Bewahrung lokaler Nachrichten an
- Hahn sagte, das Internet Archive werde zwar in guter Absicht betrieben, doch es entstünden Nebenwirkungen, wenn gute Absichten missbraucht würden
Noch keine Kommentare.