2 Punkte von GN⁺ 2026-02-15 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Große Medienhäuser blockieren oder beschränken den Zugang zum Internet Archive, um Datensammlung für AI-Training zu verhindern
  • The Guardian schließt Artikelseiten aus der API des Internet Archive und der Wayback Machine aus und lässt nur einige Start- und Themenseiten bestehen
  • The New York Times hat seit Ende 2025 archive.org_bot in die robots.txt aufgenommen und das Crawling vollständig blockiert
  • 241 Nachrichtenseiten, darunter Gannett (USA Today Co.), blockieren mindestens einen Bot des Internet Archive; viele blockieren zusätzlich Common Crawl, OpenAI und Google AI
  • Diese Maßnahmen sind eine Reaktion auf die unautorisierte Datennutzung durch AI-Unternehmen und zeigen zugleich das Spannungsfeld zwischen der Bewahrung digitaler Aufzeichnungen und dem Zugang zu Informationen auf

Zugangsbeschränkungen großer Medienhäuser zum Internet Archive

  • The Guardian beschränkt den Zugang aus Sorge, dass AI-Unternehmen Inhalte über das Internet Archive sammeln könnten
    • Eigene Artikelseiten wurden aus der API und der Artikelseiten-Oberfläche der Wayback Machine ausgeschlossen
    • Regionale Start- und Themenseiten bleiben in der Wayback Machine weiterhin zugänglich
    • Robert Hahn sagte, „AI-Unternehmen bevorzugen strukturierte Datenbanken, und die API des Internet Archive könnte dieser Zugangsweg sein“
  • The Guardian erklärte, keine vollständige Sperre verhängt zu haben, und betonte den Respekt für den Auftrag des Internet Archive, Informationen zu demokratisieren
    • Man überprüfe die eigene Position jedoch im Zuge einer künftigen Überarbeitung der Bot-Richtlinien erneut

Reaktion von The New York Times und Financial Times

  • The New York Times hat archive.org_bot zur robots.txt hinzugefügt und die Crawler des Internet Archive per „Hard Block“ gesperrt
    • Begründung: „Die Wayback Machine stellt Times-Inhalte Dritten, einschließlich AI-Unternehmen, unbegrenzt zur Verfügung“
  • Die Financial Times blockiert zum Schutz von Bezahlinhalten alle relevanten Bots, darunter OpenAI, Anthropic, Perplexity und das Internet Archive
    • Da die meisten FT-Artikel hinter einer Paywall liegen, verbleiben in der Wayback Machine nur öffentlich zugängliche Artikel

Konflikt zwischen Reddit und dem Internet Archive

  • Reddit hat im August 2025 den Zugang des Internet Archive blockiert
    • Hintergrund waren Fälle, in denen AI-Unternehmen Reddit-Daten über die Wayback Machine gescrapt hatten
    • Reddit erklärte, die Beschränkung diene dazu, Aktivitäten von AI-Unternehmen zu verhindern, die gegen die Plattformrichtlinien verstoßen
  • Reddit hat mit Google bereits einen Lizenzvertrag für Trainingsdaten für AI abgeschlossen

Position und Reaktion des Internet Archive

  • Gründer Brewster Kahle warnte, dass der öffentliche Zugang zu historischen Aufzeichnungen abnimmt, wenn Verlage Bibliotheken wie das Internet Archive einschränken
  • Kahle erklärte auf Mastodon, dass für einige Sammlungen keine Massendownloads möglich seien und bereits Rate Limits, Filterung und Cloudflare-Sicherheitsdienste eingesetzt würden
  • Im Mai 2023 kam es zu einem Fall, in dem ein AI-Unternehmen mit Massenanfragen die Server überlastete und das Internet Archive vorübergehend ausfiel
    • Das betreffende Unternehmen entschuldigte sich später und spendete

Datenanalyse: Blockierungen bei Nachrichtenseiten weltweit

  • Nieman Lab analysierte Ben Welshs Datenbank mit 1.167 Nachrichtenseiten, um den Stand der Blockierungen im Zusammenhang mit dem Internet Archive zu untersuchen
    • 241 Nachrichtenseiten blockieren mindestens einen Bot des Internet Archive
    • 87 % davon sind Medien im Besitz von USA Today Co. (Gannett), die 2025 archive.org_bot und ia_archiver-web.archive.org in ihre robots.txt aufgenommen haben
    • Einige Gannett-Seiten zeigen in der Wayback Machine die Meldung „Diese URL wurde ausgeschlossen“
  • Gannett erklärte, ein neues Protokoll zur Verhinderung unautorisierter Datensammlung eingeführt zu haben, und berichtete, im September 2025 75 Millionen AI-Bots blockiert zu haben, davon 70 Millionen von OpenAI
  • Drei Seiten der Group Le Monde, darunter Le Monde und Le Huffington Post, blockieren alle drei Crawler des Internet Archive

Ausweitung der Blockierung von AI-Crawlern

  • Neben dem Internet Archive werden zunehmend auch große AI-Crawler wie Common Crawl, OpenAI und Google AI blockiert
    • Von den 241 Seiten blockieren 240 Common Crawl, 231 blockieren Bots von OpenAI und Google AI
  • Common Crawl gilt als eng mit der kommerziellen Entwicklung von LLMs verbunden

Das Gleichgewicht zwischen Internet-Archivierung und Informationszugang

  • Das Internet Archive ist das umfassendste Projekt zur Web-Archivierung in den USA, während viele Nachrichtenorganisationen nicht über eigene ausreichende Archivierungsfähigkeiten verfügen
  • Im Dezember 2025 kündigten Poynter und das Internet Archive gemeinsam ein Trainingsprogramm zur Bewahrung lokaler Nachrichten an
  • Hahn sagte, das Internet Archive werde zwar in guter Absicht betrieben, doch es entstünden Nebenwirkungen, wenn gute Absichten missbraucht würden

Noch keine Kommentare.

Noch keine Kommentare.