Nachrichtenmedien beschränken aus Sorge vor AI-Scraping den Zugang zum Internet Archive
(niemanlab.org)- Große Medienhäuser blockieren oder beschränken den Zugang zum Internet Archive, um Datensammlung für AI-Training zu verhindern
- The Guardian schließt Artikelseiten aus der API des Internet Archive und der Wayback Machine aus und lässt nur einige Start- und Themenseiten bestehen
- The New York Times hat seit Ende 2025
archive.org_botin dierobots.txtaufgenommen und das Crawling vollständig blockiert - 241 Nachrichtenseiten, darunter Gannett (USA Today Co.), blockieren mindestens einen Bot des Internet Archive; viele blockieren zusätzlich Common Crawl, OpenAI und Google AI
- Diese Maßnahmen sind eine Reaktion auf die unautorisierte Datennutzung durch AI-Unternehmen und zeigen zugleich das Spannungsfeld zwischen der Bewahrung digitaler Aufzeichnungen und dem Zugang zu Informationen auf
Zugangsbeschränkungen großer Medienhäuser zum Internet Archive
- The Guardian beschränkt den Zugang aus Sorge, dass AI-Unternehmen Inhalte über das Internet Archive sammeln könnten
- Eigene Artikelseiten wurden aus der API und der Artikelseiten-Oberfläche der Wayback Machine ausgeschlossen
- Regionale Start- und Themenseiten bleiben in der Wayback Machine weiterhin zugänglich
- Robert Hahn sagte, „AI-Unternehmen bevorzugen strukturierte Datenbanken, und die API des Internet Archive könnte dieser Zugangsweg sein“
- The Guardian erklärte, keine vollständige Sperre verhängt zu haben, und betonte den Respekt für den Auftrag des Internet Archive, Informationen zu demokratisieren
- Man überprüfe die eigene Position jedoch im Zuge einer künftigen Überarbeitung der Bot-Richtlinien erneut
Reaktion von The New York Times und Financial Times
- The New York Times hat
archive.org_botzurrobots.txthinzugefügt und die Crawler des Internet Archive per „Hard Block“ gesperrt- Begründung: „Die Wayback Machine stellt Times-Inhalte Dritten, einschließlich AI-Unternehmen, unbegrenzt zur Verfügung“
- Die Financial Times blockiert zum Schutz von Bezahlinhalten alle relevanten Bots, darunter OpenAI, Anthropic, Perplexity und das Internet Archive
- Da die meisten FT-Artikel hinter einer Paywall liegen, verbleiben in der Wayback Machine nur öffentlich zugängliche Artikel
Konflikt zwischen Reddit und dem Internet Archive
- Reddit hat im August 2025 den Zugang des Internet Archive blockiert
- Hintergrund waren Fälle, in denen AI-Unternehmen Reddit-Daten über die Wayback Machine gescrapt hatten
- Reddit erklärte, die Beschränkung diene dazu, Aktivitäten von AI-Unternehmen zu verhindern, die gegen die Plattformrichtlinien verstoßen
- Reddit hat mit Google bereits einen Lizenzvertrag für Trainingsdaten für AI abgeschlossen
Position und Reaktion des Internet Archive
- Gründer Brewster Kahle warnte, dass der öffentliche Zugang zu historischen Aufzeichnungen abnimmt, wenn Verlage Bibliotheken wie das Internet Archive einschränken
- Kahle erklärte auf Mastodon, dass für einige Sammlungen keine Massendownloads möglich seien und bereits Rate Limits, Filterung und Cloudflare-Sicherheitsdienste eingesetzt würden
- Im Mai 2023 kam es zu einem Fall, in dem ein AI-Unternehmen mit Massenanfragen die Server überlastete und das Internet Archive vorübergehend ausfiel
- Das betreffende Unternehmen entschuldigte sich später und spendete
Datenanalyse: Blockierungen bei Nachrichtenseiten weltweit
- Nieman Lab analysierte Ben Welshs Datenbank mit 1.167 Nachrichtenseiten, um den Stand der Blockierungen im Zusammenhang mit dem Internet Archive zu untersuchen
- 241 Nachrichtenseiten blockieren mindestens einen Bot des Internet Archive
- 87 % davon sind Medien im Besitz von USA Today Co. (Gannett), die 2025
archive.org_botundia_archiver-web.archive.orgin ihrerobots.txtaufgenommen haben - Einige Gannett-Seiten zeigen in der Wayback Machine die Meldung „Diese URL wurde ausgeschlossen“
- Gannett erklärte, ein neues Protokoll zur Verhinderung unautorisierter Datensammlung eingeführt zu haben, und berichtete, im September 2025 75 Millionen AI-Bots blockiert zu haben, davon 70 Millionen von OpenAI
- Drei Seiten der Group Le Monde, darunter Le Monde und Le Huffington Post, blockieren alle drei Crawler des Internet Archive
Ausweitung der Blockierung von AI-Crawlern
- Neben dem Internet Archive werden zunehmend auch große AI-Crawler wie Common Crawl, OpenAI und Google AI blockiert
- Von den 241 Seiten blockieren 240 Common Crawl, 231 blockieren Bots von OpenAI und Google AI
- Common Crawl gilt als eng mit der kommerziellen Entwicklung von LLMs verbunden
Das Gleichgewicht zwischen Internet-Archivierung und Informationszugang
- Das Internet Archive ist das umfassendste Projekt zur Web-Archivierung in den USA, während viele Nachrichtenorganisationen nicht über eigene ausreichende Archivierungsfähigkeiten verfügen
- Im Dezember 2025 kündigten Poynter und das Internet Archive gemeinsam ein Trainingsprogramm zur Bewahrung lokaler Nachrichten an
- Hahn sagte, das Internet Archive werde zwar in guter Absicht betrieben, doch es entstünden Nebenwirkungen, wenn gute Absichten missbraucht würden
1 Kommentare
Hacker-News-Kommentare
Ob AI-Scraping erlaubt ist oder nicht, ist mir egal, aber Inhalte müssen unbedingt extern und unabhängig archiviert werden können
Vorgaben wie SOC 2 oder HIPAA verlangen Audit-Trails und die Aufbewahrung von Nachweisen
Ich habe aber erlebt, dass Sicherheitsdokumente oder Incident-Response-Berichte aus dem Web verschwinden, wodurch Audit-Nachweise abbrechen und Unternehmen bei Zertifizierungsprüfungen durchfallen
Dass das Web nicht mehr archiviert werden kann, ist am Ende nicht nur ein kultureller Verlust, sondern auch ein operatives Risiko
Die Seite AWS Compliance Reports ist genau so ein Fall
Selbst bei simplen Log-Bereinigungsarbeiten entstanden Debatten über die Relevanz
Nach ein paar großen Schadensfällen dürfte das Realität werden
In letzter Zeit gibt es auf HN viele Accounts mit diesem Muster, was mir Sorgen macht
Am Ende trifft der Schaden normale Nutzer, die nicht die Ressourcen haben, das gesamte Web zu scrapen
Ich habe immer von einem Web geträumt, in dem Inhalte hashbasiert neu gehostet werden — IPFS hat das versucht, ist aber leider gescheitert
Trotzdem frage ich mich, warum AI-Unternehmen weiter direkt crawlen, obwohl es Common Crawl gibt
Ohne separates Archiving sind auch Artikel von Nachrichtenmedien letztlich zum Verschwinden verurteilt
Wenn etwa Wikipedia-Editoren keine stabilen Links zu Times-Artikeln sichern können, werden sie diese am Ende durch WaPo-Artikel ersetzen
Das ist die wahre Tragödie der Allmende
Es ist ein Tool, das Teams hilft, URLs zuverlässig zu erhalten, ohne von externen Diensten abhängig zu sein
Gespeichert wird in verschiedenen Formaten wie HTML-Snapshots, Screenshots, PDFs und Reader View
Es gibt eine Cloud-Hosting-Version (linkwarden.app) und eine Self-Hosting-Version (GitHub-Repository)
Aus UX-Sicht wäre allerdings eine Markierung für „gelesen/archiviert“ wünschenswert
Metadatenfehler nehmen zu, und wissenschaftliche Suchmaschinen wie Google Scholar brechen ebenfalls ein
Einige große wissenschaftliche Verlage scheinen ebenfalls AI-Bots zu blockieren
20 % aller Nachrichtenseiten blockieren beide
Als Beispiel lässt sich dieser Artikel auf realtor.com im IA wegen eines 429-Fehlers nicht archivieren
Am Ende werden also die Guten blockiert und nur die Schlechten bleiben übrig
Die Herausforderung wäre allerdings, Seiten mit personenbezogenen Informationen herauszufiltern
Seit AI-Firmen angefangen haben, Proxies zu verwenden, blockiere ich pauschal alle nicht relevanten Länder
Das Internet ist zu einem kranken Ökosystem geworden
Wenn die Bedingung wäre, dass sie auf keinen Fall für das Training kommerzieller Modelle genutzt werden, könnte das vielleicht möglich sein
Das Problem ist, dass LLMs die Wertschöpfungskette aufsaugen und keinen Rückfluss an Wert liefern
Es würde nur Domains protokollieren, die der Nutzer erlaubt hat, und als Open Source wären auch Datenschutzsorgen geringer
Es wäre kein automatisiertes Crawling, sondern nur das Hochladen eines Teils realer Seitenaufrufe
Allerdings könnten Websites nutzeridentifizierende Informationen versteckt einbetten, was ein Risiko für die Privatsphäre darstellt
Für die Nutzung als historische Aufzeichnung ist die Vertrauenswürdigkeit daher schwer sicherzustellen