Nachrichtenmedien beschränken aus Sorge vor AI-Scraping den Zugang zum Internet Archive

(niemanlab.org)

2 Punkte von GN⁺ 2026-02-15 | Noch keine Kommentare. | Auf WhatsApp teilen

Große Medienhäuser blockieren oder beschränken den Zugang zum Internet Archive, um Datensammlung für AI-Training zu verhindern
The Guardian schließt Artikelseiten aus der API des Internet Archive und der Wayback Machine aus und lässt nur einige Start- und Themenseiten bestehen
The New York Times hat seit Ende 2025 archive.org_bot in die robots.txt aufgenommen und das Crawling vollständig blockiert
241 Nachrichtenseiten, darunter Gannett (USA Today Co.), blockieren mindestens einen Bot des Internet Archive; viele blockieren zusätzlich Common Crawl, OpenAI und Google AI
Diese Maßnahmen sind eine Reaktion auf die unautorisierte Datennutzung durch AI-Unternehmen und zeigen zugleich das Spannungsfeld zwischen der Bewahrung digitaler Aufzeichnungen und dem Zugang zu Informationen auf

Zugangsbeschränkungen großer Medienhäuser zum Internet Archive

The Guardian beschränkt den Zugang aus Sorge, dass AI-Unternehmen Inhalte über das Internet Archive sammeln könnten
- Eigene Artikelseiten wurden aus der API und der Artikelseiten-Oberfläche der Wayback Machine ausgeschlossen
- Regionale Start- und Themenseiten bleiben in der Wayback Machine weiterhin zugänglich
- Robert Hahn sagte, „AI-Unternehmen bevorzugen strukturierte Datenbanken, und die API des Internet Archive könnte dieser Zugangsweg sein“
The Guardian erklärte, keine vollständige Sperre verhängt zu haben, und betonte den Respekt für den Auftrag des Internet Archive, Informationen zu demokratisieren
- Man überprüfe die eigene Position jedoch im Zuge einer künftigen Überarbeitung der Bot-Richtlinien erneut

The New York Times hat archive.org_bot zur robots.txt hinzugefügt und die Crawler des Internet Archive per „Hard Block“ gesperrt
- Begründung: „Die Wayback Machine stellt Times-Inhalte Dritten, einschließlich AI-Unternehmen, unbegrenzt zur Verfügung“
Die Financial Times blockiert zum Schutz von Bezahlinhalten alle relevanten Bots, darunter OpenAI, Anthropic, Perplexity und das Internet Archive
- Da die meisten FT-Artikel hinter einer Paywall liegen, verbleiben in der Wayback Machine nur öffentlich zugängliche Artikel

Reddit hat im August 2025 den Zugang des Internet Archive blockiert
- Hintergrund waren Fälle, in denen AI-Unternehmen Reddit-Daten über die Wayback Machine gescrapt hatten
- Reddit erklärte, die Beschränkung diene dazu, Aktivitäten von AI-Unternehmen zu verhindern, die gegen die Plattformrichtlinien verstoßen
Reddit hat mit Google bereits einen Lizenzvertrag für Trainingsdaten für AI abgeschlossen

Gründer Brewster Kahle warnte, dass der öffentliche Zugang zu historischen Aufzeichnungen abnimmt, wenn Verlage Bibliotheken wie das Internet Archive einschränken
Kahle erklärte auf Mastodon, dass für einige Sammlungen keine Massendownloads möglich seien und bereits Rate Limits, Filterung und Cloudflare-Sicherheitsdienste eingesetzt würden
Im Mai 2023 kam es zu einem Fall, in dem ein AI-Unternehmen mit Massenanfragen die Server überlastete und das Internet Archive vorübergehend ausfiel
- Das betreffende Unternehmen entschuldigte sich später und spendete

Nieman Lab analysierte Ben Welshs Datenbank mit 1.167 Nachrichtenseiten, um den Stand der Blockierungen im Zusammenhang mit dem Internet Archive zu untersuchen
- 241 Nachrichtenseiten blockieren mindestens einen Bot des Internet Archive
- 87 % davon sind Medien im Besitz von USA Today Co. (Gannett), die 2025 archive.org_bot und ia_archiver-web.archive.org in ihre robots.txt aufgenommen haben
- Einige Gannett-Seiten zeigen in der Wayback Machine die Meldung „Diese URL wurde ausgeschlossen“
Gannett erklärte, ein neues Protokoll zur Verhinderung unautorisierter Datensammlung eingeführt zu haben, und berichtete, im September 2025 75 Millionen AI-Bots blockiert zu haben, davon 70 Millionen von OpenAI
Drei Seiten der Group Le Monde, darunter Le Monde und Le Huffington Post, blockieren alle drei Crawler des Internet Archive

Neben dem Internet Archive werden zunehmend auch große AI-Crawler wie Common Crawl, OpenAI und Google AI blockiert
- Von den 241 Seiten blockieren 240 Common Crawl, 231 blockieren Bots von OpenAI und Google AI
Common Crawl gilt als eng mit der kommerziellen Entwicklung von LLMs verbunden

Das Internet Archive ist das umfassendste Projekt zur Web-Archivierung in den USA, während viele Nachrichtenorganisationen nicht über eigene ausreichende Archivierungsfähigkeiten verfügen
Im Dezember 2025 kündigten Poynter und das Internet Archive gemeinsam ein Trainingsprogramm zur Bewahrung lokaler Nachrichten an
Hahn sagte, das Internet Archive werde zwar in guter Absicht betrieben, doch es entstünden Nebenwirkungen, wenn gute Absichten missbraucht würden