2 Punkte von GN⁺ 2026-02-15 | 1 Kommentare | Auf WhatsApp teilen
  • Große Medienhäuser blockieren oder beschränken den Zugang zum Internet Archive, um Datensammlung für AI-Training zu verhindern
  • The Guardian schließt Artikelseiten aus der API des Internet Archive und der Wayback Machine aus und lässt nur einige Start- und Themenseiten bestehen
  • The New York Times hat seit Ende 2025 archive.org_bot in die robots.txt aufgenommen und das Crawling vollständig blockiert
  • 241 Nachrichtenseiten, darunter Gannett (USA Today Co.), blockieren mindestens einen Bot des Internet Archive; viele blockieren zusätzlich Common Crawl, OpenAI und Google AI
  • Diese Maßnahmen sind eine Reaktion auf die unautorisierte Datennutzung durch AI-Unternehmen und zeigen zugleich das Spannungsfeld zwischen der Bewahrung digitaler Aufzeichnungen und dem Zugang zu Informationen auf

Zugangsbeschränkungen großer Medienhäuser zum Internet Archive

  • The Guardian beschränkt den Zugang aus Sorge, dass AI-Unternehmen Inhalte über das Internet Archive sammeln könnten
    • Eigene Artikelseiten wurden aus der API und der Artikelseiten-Oberfläche der Wayback Machine ausgeschlossen
    • Regionale Start- und Themenseiten bleiben in der Wayback Machine weiterhin zugänglich
    • Robert Hahn sagte, „AI-Unternehmen bevorzugen strukturierte Datenbanken, und die API des Internet Archive könnte dieser Zugangsweg sein“
  • The Guardian erklärte, keine vollständige Sperre verhängt zu haben, und betonte den Respekt für den Auftrag des Internet Archive, Informationen zu demokratisieren
    • Man überprüfe die eigene Position jedoch im Zuge einer künftigen Überarbeitung der Bot-Richtlinien erneut

Reaktion von The New York Times und Financial Times

  • The New York Times hat archive.org_bot zur robots.txt hinzugefügt und die Crawler des Internet Archive per „Hard Block“ gesperrt
    • Begründung: „Die Wayback Machine stellt Times-Inhalte Dritten, einschließlich AI-Unternehmen, unbegrenzt zur Verfügung“
    Anzeige
  • Die Financial Times blockiert zum Schutz von Bezahlinhalten alle relevanten Bots, darunter OpenAI, Anthropic, Perplexity und das Internet Archive
    • Da die meisten FT-Artikel hinter einer Paywall liegen, verbleiben in der Wayback Machine nur öffentlich zugängliche Artikel

Konflikt zwischen Reddit und dem Internet Archive

  • Reddit hat im August 2025 den Zugang des Internet Archive blockiert
    • Hintergrund waren Fälle, in denen AI-Unternehmen Reddit-Daten über die Wayback Machine gescrapt hatten
    • Reddit erklärte, die Beschränkung diene dazu, Aktivitäten von AI-Unternehmen zu verhindern, die gegen die Plattformrichtlinien verstoßen
  • Reddit hat mit Google bereits einen Lizenzvertrag für Trainingsdaten für AI abgeschlossen

Position und Reaktion des Internet Archive

  • Gründer Brewster Kahle warnte, dass der öffentliche Zugang zu historischen Aufzeichnungen abnimmt, wenn Verlage Bibliotheken wie das Internet Archive einschränken
  • Kahle erklärte auf Mastodon, dass für einige Sammlungen keine Massendownloads möglich seien und bereits Rate Limits, Filterung und Cloudflare-Sicherheitsdienste eingesetzt würden
  • Im Mai 2023 kam es zu einem Fall, in dem ein AI-Unternehmen mit Massenanfragen die Server überlastete und das Internet Archive vorübergehend ausfiel
    • Das betreffende Unternehmen entschuldigte sich später und spendete
Anzeige

Datenanalyse: Blockierungen bei Nachrichtenseiten weltweit

  • Nieman Lab analysierte Ben Welshs Datenbank mit 1.167 Nachrichtenseiten, um den Stand der Blockierungen im Zusammenhang mit dem Internet Archive zu untersuchen
    • 241 Nachrichtenseiten blockieren mindestens einen Bot des Internet Archive
    • 87 % davon sind Medien im Besitz von USA Today Co. (Gannett), die 2025 archive.org_bot und ia_archiver-web.archive.org in ihre robots.txt aufgenommen haben
    • Einige Gannett-Seiten zeigen in der Wayback Machine die Meldung „Diese URL wurde ausgeschlossen“
  • Gannett erklärte, ein neues Protokoll zur Verhinderung unautorisierter Datensammlung eingeführt zu haben, und berichtete, im September 2025 75 Millionen AI-Bots blockiert zu haben, davon 70 Millionen von OpenAI
  • Drei Seiten der Group Le Monde, darunter Le Monde und Le Huffington Post, blockieren alle drei Crawler des Internet Archive

Ausweitung der Blockierung von AI-Crawlern

  • Neben dem Internet Archive werden zunehmend auch große AI-Crawler wie Common Crawl, OpenAI und Google AI blockiert
    • Von den 241 Seiten blockieren 240 Common Crawl, 231 blockieren Bots von OpenAI und Google AI
  • Common Crawl gilt als eng mit der kommerziellen Entwicklung von LLMs verbunden

Das Gleichgewicht zwischen Internet-Archivierung und Informationszugang

  • Das Internet Archive ist das umfassendste Projekt zur Web-Archivierung in den USA, während viele Nachrichtenorganisationen nicht über eigene ausreichende Archivierungsfähigkeiten verfügen
  • Im Dezember 2025 kündigten Poynter und das Internet Archive gemeinsam ein Trainingsprogramm zur Bewahrung lokaler Nachrichten an
  • Hahn sagte, das Internet Archive werde zwar in guter Absicht betrieben, doch es entstünden Nebenwirkungen, wenn gute Absichten missbraucht würden

1 Kommentare

 
GN⁺ 2026-02-15
Hacker-News-Kommentare
  • Wenn es sich um Medien handelt, die eine unabhängige Archivierung verweigern, kann ich ihren Nachrichten nicht vertrauen
    Ob AI-Scraping erlaubt ist oder nicht, ist mir egal, aber Inhalte müssen unbedingt extern und unabhängig archiviert werden können
    • Sehe ich genauso. Unabhängige Archivierung ist essenziell
    • Ich habe das Gefühl, dass es keine einzige vertrauenswürdige Nachrichtenquelle gibt. Die meisten verfolgen eine beabsichtigte Agenda und verstecken das inzwischen nicht einmal mehr
  • Dieses Problem hat auch eine Compliance- bzw. Regulierungsseite
    Vorgaben wie SOC 2 oder HIPAA verlangen Audit-Trails und die Aufbewahrung von Nachweisen
    Ich habe aber erlebt, dass Sicherheitsdokumente oder Incident-Response-Berichte aus dem Web verschwinden, wodurch Audit-Nachweise abbrechen und Unternehmen bei Zertifizierungsprüfungen durchfallen
    Dass das Web nicht mehr archiviert werden kann, ist am Ende nicht nur ein kultureller Verlust, sondern auch ein operatives Risiko
    • Ich habe nach Beispielen gesucht, und schon das erste Ergebnis war ein 404
      Die Seite AWS Compliance Reports ist genau so ein Fall
    • Ich habe bei einem großen Finanzunternehmen mehrfach SOC-Audits mitgemacht, und schon bei der Definition, welche Aufgaben als „kritisch (critical)“ gelten, gab es heftige Konflikte zwischen Abteilungen
      Selbst bei simplen Log-Bereinigungsarbeiten entstanden Debatten über die Relevanz
    • Am Ende werden Versicherer wohl verlangen, dass Papierkopien von Dokumenten aufbewahrt werden, um solche Probleme zu vermeiden
      Nach ein paar großen Schadensfällen dürfte das Realität werden
    • Firmen wie Page Vault existieren bereits, um genau dieses Problem zu lösen
    • Es gibt allerdings auch den Verdacht, dass der Verfasser dieses Kommentars wie ein AI-Tool-Account wirkt
      In letzter Zeit gibt es auf HN viele Accounts mit diesem Muster, was mir Sorgen macht
  • Statt das Internet Archive einmal komplett zu crawlen, werden AI-Unternehmen wahrscheinlich Residential Proxies verwenden und jede Seite wiederholt selbst scrapen
    Am Ende trifft der Schaden normale Nutzer, die nicht die Ressourcen haben, das gesamte Web zu scrapen
    Ich habe immer von einem Web geträumt, in dem Inhalte hashbasiert neu gehostet werden — IPFS hat das versucht, ist aber leider gescheitert
    • Tatsächlich scrapen AI-Firmen dieselbe Seite immer wieder. Selbst meine private Website bekommt laufend Requests, obwohl sich nichts ändert
    • IPFS war ein Projekt mit genau diesem Ziel
    • Proxy-Traffic aus Vietnam und Korea legt meinen Server lahm. 3500 Requests pro Sekunde sind nicht tragbar
    • AI-Unternehmen nutzen bereits Proxy-Netzwerke über infizierte Geräte oder Apps
    • Ich glaube nicht, dass solche Proxies lange bestehen. Durch kommerziellen Druck werden sie zurückgehen
      Trotzdem frage ich mich, warum AI-Unternehmen weiter direkt crawlen, obwohl es Common Crawl gibt
  • Brewsters Sorge um die Bewahrung historischer Aufzeichnungen ist realistisch
    Ohne separates Archiving sind auch Artikel von Nachrichtenmedien letztlich zum Verschwinden verurteilt
    Wenn etwa Wikipedia-Editoren keine stabilen Links zu Times-Artikeln sichern können, werden sie diese am Ende durch WaPo-Artikel ersetzen
    Das ist die wahre Tragödie der Allmende
  • Ich betreibe ein Open-Source-Projekt namens Linkwarden
    Es ist ein Tool, das Teams hilft, URLs zuverlässig zu erhalten, ohne von externen Diensten abhängig zu sein
    Gespeichert wird in verschiedenen Formaten wie HTML-Snapshots, Screenshots, PDFs und Reader View
    Es gibt eine Cloud-Hosting-Version (linkwarden.app) und eine Self-Hosting-Version (GitHub-Repository)
    • Linkwarden ist großartig. Zusammen mit der SingleFile-Erweiterung kann man damit auch Seiten speichern, die Scraper blockieren
      Aus UX-Sicht wäre allerdings eine Markierung für „gelesen/archiviert“ wünschenswert
    • Ich frage mich, wie die Integration mit archive.org funktioniert. Wird einfach nur die URL gesendet, oder werden die vom Client geholten Daten direkt gespeichert?
  • Dieses Problem betrifft auch die Wissenschaft
    Metadatenfehler nehmen zu, und wissenschaftliche Suchmaschinen wie Google Scholar brechen ebenfalls ein
    Einige große wissenschaftliche Verlage scheinen ebenfalls AI-Bots zu blockieren
    • Dazu kommt, dass auch die Suchqualität von Google selbst kaputtgegangen ist. Es fühlt sich an, als würde der Informationshorizont immer enger
    • Wenn wissenschaftliche Ergebnisse aus öffentlich finanzierter Forschung wegen AI-Blockaden nicht zugänglich sind, ist das ein Eingriff in das öffentliche Interesse
    • Immerhin halten mich PubMed und präzise Suchoperatoren bisher noch über Wasser
  • Medien wie The Guardian und die NYT blockieren Internet Archive und Common Crawl
    20 % aller Nachrichtenseiten blockieren beide
    Als Beispiel lässt sich dieser Artikel auf realtor.com im IA wegen eines 429-Fehlers nicht archivieren
    • IA stellt das Archivieren auf Anfrage ein, aber bösartige Scraper tun das nicht
      Am Ende werden also die Guten blockiert und nur die Schlechten bleiben übrig
    • Es wird nach Belegen dafür gefragt, dass The Guardian IA wirklich blockiert. Bei einer eigenen Prüfung hat es funktioniert
    • Ich fände ein crowdgesourctes Archiv auf Basis einer Browser-Erweiterung gut
      Die Herausforderung wäre allerdings, Seiten mit personenbezogenen Informationen herauszufiltern
  • Mein erster Eindruck ist, dass Nachrichtenunternehmen bei Urheberrechtsfragen AI nur als Vorwand benutzen
    • Als Website-Betreiber bestehen über 90 % meines Traffics aus Bots und Spam
      Seit AI-Firmen angefangen haben, Proxies zu verwenden, blockiere ich pauschal alle nicht relevanten Länder
      Das Internet ist zu einem kranken Ökosystem geworden
  • Ich frage mich, ob Medienhäuser nicht öffentliche Archive für wissenschaftliche oder journalistische Forschung eher akzeptieren würden
    Wenn die Bedingung wäre, dass sie auf keinen Fall für das Training kommerzieller Modelle genutzt werden, könnte das vielleicht möglich sein
    • Bibliotheken erhalten bereits kostenpflichtige lizenzierte Archive. Missbrauch lässt sich also verhindern
    • Die meisten Medienhäuser haben Syndication-Verträge für ihre Inhalte
      Das Problem ist, dass LLMs die Wertschöpfungskette aufsaugen und keinen Rückfluss an Wert liefern
    • Intern werden sie zwar Archive haben, aber das Problem ist die öffentliche Zugänglichkeit
  • Ich denke über die Idee eines crowdgesourcten Browser-Plugins nach, das Seiten, die ein Nutzer angesehen hat, automatisch an ein Archiv sendet
    Es würde nur Domains protokollieren, die der Nutzer erlaubt hat, und als Open Source wären auch Datenschutzsorgen geringer
    Es wäre kein automatisiertes Crawling, sondern nur das Hochladen eines Teils realer Seitenaufrufe
    • SingleFile macht solches Archiving schon ziemlich gut
      Allerdings könnten Websites nutzeridentifizierende Informationen versteckt einbetten, was ein Risiko für die Privatsphäre darstellt
    • Ein weiteres Problem ist, dass sich schwer garantieren lässt, dass die von Nutzern gesendeten Daten nicht manipuliert wurden
      Für die Nutzung als historische Aufzeichnung ist die Vertrauenswürdigkeit daher schwer sicherzustellen