Die Blockade des Internet Archive stoppt KI nicht, sondern löscht die historische Aufzeichnung des Webs

(eff.org)

6 Punkte von GN⁺ 2026-03-22 | 1 Kommentare | Auf WhatsApp teilen

Das Internet Archive, das seit Mitte der 1990er Jahre das Web und Zeitungen bewahrt, speichert über die Wayback Machine mehr als eine Billion Webseiten
Kürzlich haben große Medien wie The New York Times und The Guardian begonnen, das Crawling des Archivs aus Sorge vor AI-Scraping zu blockieren
Diese Maßnahmen führen zu einer Unterbrechung der historischen Web-Aufzeichnung und bergen das Risiko, dass die einzige Aufzeichnung verschwindet, mit der sich Änderungen an Artikeln vor und nach Bearbeitungen oder Löschungen nachvollziehen lassen
Unabhängig von den laufenden Rechtsstreitigkeiten zum KI-Training wird darauf hingewiesen, dass die Blockade einer gemeinnützigen Bewahrungsinstitution dem öffentlichen Interesse schadet
Suche und Web-Archivierung sind Bereiche, deren rechtliche Zulässigkeit als Fair Use bereits etabliert ist; wenn sie blockiert werden, verlieren künftige Forschende die historische Aufzeichnung des Webs

Die Blockade des Internet Archive stoppt KI nicht, sondern löscht die historische Aufzeichnung des Webs

Das Internet Archive ist die größte digitale Bibliothek der Welt und bewahrt seit Mitte der 1990er Jahre das Web und Zeitungen; über die Wayback Machine speichert es mehr als eine Billion Webseiten
In den vergangenen Monaten hat The New York Times begonnen, das Crawling des Archivs wegen Bedenken rund um AI-Content-Scraping zu blockieren, und andere Medienhäuser wie The Guardian scheinen diesem Beispiel zu folgen
Diese Blockaden sind nicht bloß technische Einschränkungen, sondern führen zu einer Unterbrechung der historischen Aufzeichnung
- Das Internet Archive ist oft die einzige Aufzeichnung, mit der sich Veränderungen an Artikeln vor und nach Bearbeitungen oder Löschungen nachvollziehen lassen
- Wenn Medienhäuser den Zugang verhindern, droht das über Jahrzehnte aufgebaute Web-Archiv verloren zu gehen
Zwar laufen rechtliche Auseinandersetzungen zum KI-Training, doch die Blockade einer gemeinnützigen Bewahrungsinstitution ist die falsche Reaktion
- Das Internet Archive entwickelt keine kommerziellen KI-Systeme, sondern erfüllt einen gemeinwohlorientierten Zweck der historischen Bewahrung
- Der Versuch, den KI-Zugriff zu kontrollieren, kann dazu führen, dass sogar die Archivierungsfunktion von Bibliotheken beschädigt wird

Die Rechtmäßigkeit von Archivierung und Suche

Die Ermöglichung von Durchsuchbarkeit gilt seit Langem rechtlich als Fair Use
- Gerichte haben entschieden, dass das Kopieren von Originalmaterial unvermeidlich ist, um Suchindizes aufzubauen
- Auch der Fall, in dem Google komplette Bücher kopierte, um eine Suchdatenbank zu erstellen, wurde als transformative purpose anerkannt
Nach demselben Grundsatz arbeitet auch das Internet Archive
- So wie physische Bibliotheken Zeitungen aufbewahren, bewahrt das Archiv die historische Aufzeichnung des Webs
- Forschende und Journalist:innen nutzen es täglich, und allein Wikipedia verlinkt in 249 Sprachen auf 2,6 Millionen Nachrichtenartikel im Archiv
- Unzählige Blogger, Forschende und Journalist:innen verlassen sich darauf als stabile und verlässliche Quelle
Die rechtlichen Grundsätze, die Suchmaschinen schützen, sollten gleichermaßen für Archive und Bibliotheken gelten
- Selbst wenn Gerichte dem KI-Training Grenzen setzen sollten, ist die Rechtmäßigkeit von Suche und Web-Archivierung bereits etabliert

Krise der Bewahrung historischer Aufzeichnungen

Das Internet Archive bewahrt seit rund 30 Jahren die historische Aufzeichnung des Webs
Wenn große Medienhäuser beginnen, es zu blockieren, ist die Wahrscheinlichkeit hoch, dass künftige Forschende diese umfangreiche Aufzeichnung verlieren
Die rechtlichen Debatten rund um KI-Training müssen vor Gericht geklärt werden, doch es wird gewarnt, dass die Opferung öffentlicher Aufzeichnungen ein schwerer und irreversibler Fehler wäre

1 Kommentare

GN⁺ 2026-03-22

Hacker-News-Kommentare

Als Website-Betreiber kämpfe ich gerade gegen aggressive AI-Crawler
Ich mache mir Sorgen, ob meine Sperrregeln vielleicht auch das Internet Archive blockiert haben
Facebook ignoriert robots.txt und verteilt Anfragen über mehrere IPs, um crawl delay zu umgehen
Deshalb habe ich in nginx eine eigene Regel nur für Facebook eingerichtet
Bisher war das Blockieren von JA3-Hashes am effektivsten
Ich wünschte allerdings, es gäbe einen Wrapper, der hugin-net um nginx legt, um TCP-Fingerprinting zu ermöglichen
Da ich kein Rust kann, habe ich sogar Angst, ein LLM darum zu bitten
Allerdings hat dieser Ansatz ein Race-Condition-Problem. Bei der ersten Verbindung gibt es noch keinen JA4-Hash, und AI-Crawler senden pro IP nur eine Anfrage, sodass es keine Gelegenheit gibt, die zweite Anfrage zu blockieren
- Auch das Internet Archive hält sich nicht an robots.txt
  In einem offiziellen Blogbeitrag schreiben sie, „die Zukunft der Webarchivierung wird sich weniger auf robots.txt stützen“
  Eine andere Organisation, Archiveteam, ignoriert robots.txt ebenfalls
  Es wirkt, als würden große Archivierungsorganisationen heute die Perspektive von Website-Betreibern kaum noch berücksichtigen
- Umgehungstechniken wie JA3-Randomisierung oder Tarnung machen die Erkennung leicht aushebelbar
- Ich frage mich, ob ein Mechanismus zum Umgehen von Bot-Sperren möglich wäre, bei dem nur mit einem Whitelist-Schlüssel signierte Anfragen durchgelassen werden
  Damit könnte man wohl nur den Internet-Archive-Crawler zulassen
Ich frage mich, was Leute denken, die inzwischen akzeptiert haben, dass man AI-Scraper nicht vollständig stoppen kann
Der Tag ist nicht mehr fern, an dem die Unterscheidung zwischen menschlichen Browsern und LLM-Agenten verschwindet
Sie können echte GUI-Sitzungen öffnen, Seiten im Browser durchsuchen und auf OS-Ebene Snapshots anfertigen, um Inhalte wiederherzustellen
Am Ende wird schon das Konzept, den Zugriff im öffentlichen Web zu verhindern, selbst veraltet wirken
Wie lässt sich dann die Last für einzelne Hosts verringern?
Wird es eine vertrauenswürdige zentrale Archivierungsinstitution geben, oder kommt eher ein Modell, das „schlechtes Verhalten“ von LLMs bestraft?
- Wir hätten längst lernen müssen, dass das Internetrecht fast keine praktische Durchsetzungskraft hat
- Wenn man Content-Hashes bereitstellt und die eigentlichen Daten von IPFS oder BitTorrent holen lässt, kann man die Last auf Websites verringern
  Wenn Browser das unterstützen würden, bekäme man die Effizienz eines CDN ohne Zentralisierung
- Wenn man es gar nicht erst im öffentlichen Web veröffentlicht, erledigt sich die Sorge vor Scraping
  Vielleicht wäre ein Modell, bei dem CDNs die Daten direkt verkaufen, sogar effizienter
- Im Moment durchsuchen Tausende AI-Unternehmen das ganze Web, aber wenn die AI-Blase platzt, bleiben am Ende nur einige wenige übrig
  Dann wird auch die Nachfrage nach dauerhaftem Scraping sinken
- Das eigentliche Problem sind Traffic-Last und Bandbreitenkosten
  Es wirkt, als seien grundlegendes Engineering-Verständnis und Buchhaltungswissen in Vergessenheit geraten
Medienhäuser überschätzen den Einfluss ihrer Inhalte auf die Entwicklung von AI
Selbst wenn es sie nicht gegeben hätte, wäre die Qualität von LLMs kaum wesentlich anders
- Nur mit Wikipedia, Reddit und wissenschaftlichen Arbeiten stößt man an Grenzen
  Am Ende braucht man vielfältige Texte wie etwa Nachrichtenartikel
- Je mehr das Web von AI-generierten Inhalten überflutet wird, desto wertvoller wird von Menschen geschriebener Text
  Deshalb ist eine Strategie nachvollziehbar, die verhindert, dass AI-Unternehmen diesen ohne Zustimmung nutzen
Wir sind gerade dabei, eine Bibliothek niederzubrennen, um den Brandstifter zu bestrafen
Der Brandstifter ist längst weg
- Vielleicht sind in Wirklichkeit aber 90 % der Bibliotheksbesucher Brandstifter
Deshalb wurde archive.is geschaffen
Statt zu versuchen, seinen Gründer aufzuspüren und zu bestrafen, sollte man es nicht eher als nützliches Projekt unterstützen?
- Stimme zu. Wenn archive.is verschwindet, hat archive.org ein Monopol
  archive.org akzeptiert Löschanfragen von Website-Eigentümern, sodass man durch den Kauf alter Domains sogar die Vergangenheit tilgen könnte
- Der Gründer von archive.is hat in der Vergangenheit jedoch DDoS-Angriffe auf Journalisten durchgeführt
  Weil er Nutzer in diese Angriffe hineingezogen hat, ist er niemand, den man verherrlichen sollte
Als jemand, der früher Anti-Spam-Systeme gebaut hat, glaube ich, dass es künftig selbst für den Website-Zugriff eine Art „Taxilizenz“-Authentifizierungssystem geben wird
Wenn zum Beispiel das Internet Archive signierte HTTPS-Anfragen sendet, kann eine Website prüfen, ob sie echt sind
Das widerspricht zwar dem Geist des offenen Internets, aber man braucht eine Möglichkeit, vertrauenswürdige Crawler zu unterscheiden
- Von Crawlern, die nicht wie Menschen wirken, verlange ich Folgendes
  - Es muss Reverse DNS geben, und diese Domain muss eine Seite mit Verhaltensrichtlinien haben
  - Über einen IP-basierten TXT-Record muss angegeben sein, wer zugreift, wann und wie oft
    Auf Grundlage dieser Informationen treffe ich automatische Blockierentscheidungen
    Ich habe bereits in meinem Blog dokumentiert, dass Amazon-Anfragen standardmäßig blockiert werden
Ich halte die New York Times für furchtbar. Gerade deshalb muss sie für die Zukunft unbedingt bewahrt werden
- Alle Meinungsartikel der Medien sind letztlich Propaganda
  Jedes Medium veröffentlicht nur Texte, die zur eigenen Ideologie passen
- Mich würde interessieren, warum du sie für so schlecht hältst. Ich lese sie nicht
Die EFF ist bei AI zu nachgiebig
Obwohl AI das Internet und Arbeitsplätze ruiniert, bezieht sie keine harte Position
Ein Blick auf die Liste der Sponsoren zeigt viele Unternehmensförderer, was ihre Glaubwürdigkeit als Freiheitsorganisation mindert
Organisationen wie OSI oder EFF sind bereits von Unternehmen vereinnahmt worden und inzwischen sogar schädlich
Wenn es beim Internet Archive ein dezentralisiertes Crawler-Programm mit privaten Wohn-IP-Adressen gäbe, würde ich gerne mitmachen
Es bräuchte nur einen Mechanismus gegen Manipulation
- Beim Internet Archive nicht, aber es gibt Archive Team Warrior
- IA macht alles öffentlich, und respektiert sogar unrechtmäßige DMCA-Anfragen
- Wenn TLS auf ihrer Seite terminiert wird, ist es einfach. Am Ende würde es nur als Residential Proxy fungieren
Wenn man Dünger und Diesel zusammen verkauft, ist es vernünftig anzunehmen, dass es sich um einen landwirtschaftlichen Lieferanten handelt
Wenn man aber Lkw-Ladungen an Nicht-Landwirte verkauft, ist Misstrauen ebenfalls naheliegend

Die Blockade des Internet Archive stoppt KI nicht, sondern löscht die historische Aufzeichnung des Webs

Die Blockade des Internet Archive stoppt KI nicht, sondern löscht die historische Aufzeichnung des Webs

Die Rechtmäßigkeit von Archivierung und Suche

Die rechtlichen Grundsätze, die Suchmaschinen schützen, sollten gleichermaßen für Archive und Bibliotheken gelten

Krise der Bewahrung historischer Aufzeichnungen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare