6 Punkte von GN⁺ 2026-03-22 | 1 Kommentare | Auf WhatsApp teilen
  • Das Internet Archive, das seit Mitte der 1990er Jahre das Web und Zeitungen bewahrt, speichert über die Wayback Machine mehr als eine Billion Webseiten
  • Kürzlich haben große Medien wie The New York Times und The Guardian begonnen, das Crawling des Archivs aus Sorge vor AI-Scraping zu blockieren
  • Diese Maßnahmen führen zu einer Unterbrechung der historischen Web-Aufzeichnung und bergen das Risiko, dass die einzige Aufzeichnung verschwindet, mit der sich Änderungen an Artikeln vor und nach Bearbeitungen oder Löschungen nachvollziehen lassen
  • Unabhängig von den laufenden Rechtsstreitigkeiten zum KI-Training wird darauf hingewiesen, dass die Blockade einer gemeinnützigen Bewahrungsinstitution dem öffentlichen Interesse schadet
  • Suche und Web-Archivierung sind Bereiche, deren rechtliche Zulässigkeit als Fair Use bereits etabliert ist; wenn sie blockiert werden, verlieren künftige Forschende die historische Aufzeichnung des Webs

Die Blockade des Internet Archive stoppt KI nicht, sondern löscht die historische Aufzeichnung des Webs

  • Das Internet Archive ist die größte digitale Bibliothek der Welt und bewahrt seit Mitte der 1990er Jahre das Web und Zeitungen; über die Wayback Machine speichert es mehr als eine Billion Webseiten
  • In den vergangenen Monaten hat The New York Times begonnen, das Crawling des Archivs wegen Bedenken rund um AI-Content-Scraping zu blockieren, und andere Medienhäuser wie The Guardian scheinen diesem Beispiel zu folgen
  • Diese Blockaden sind nicht bloß technische Einschränkungen, sondern führen zu einer Unterbrechung der historischen Aufzeichnung
    • Das Internet Archive ist oft die einzige Aufzeichnung, mit der sich Veränderungen an Artikeln vor und nach Bearbeitungen oder Löschungen nachvollziehen lassen
    • Wenn Medienhäuser den Zugang verhindern, droht das über Jahrzehnte aufgebaute Web-Archiv verloren zu gehen
  • Zwar laufen rechtliche Auseinandersetzungen zum KI-Training, doch die Blockade einer gemeinnützigen Bewahrungsinstitution ist die falsche Reaktion
    • Das Internet Archive entwickelt keine kommerziellen KI-Systeme, sondern erfüllt einen gemeinwohlorientierten Zweck der historischen Bewahrung
    • Der Versuch, den KI-Zugriff zu kontrollieren, kann dazu führen, dass sogar die Archivierungsfunktion von Bibliotheken beschädigt wird

Die Rechtmäßigkeit von Archivierung und Suche

  • Die Ermöglichung von Durchsuchbarkeit gilt seit Langem rechtlich als Fair Use
    • Gerichte haben entschieden, dass das Kopieren von Originalmaterial unvermeidlich ist, um Suchindizes aufzubauen
    • Auch der Fall, in dem Google komplette Bücher kopierte, um eine Suchdatenbank zu erstellen, wurde als transformative purpose anerkannt
  • Nach demselben Grundsatz arbeitet auch das Internet Archive
    • So wie physische Bibliotheken Zeitungen aufbewahren, bewahrt das Archiv die historische Aufzeichnung des Webs
    • Forschende und Journalist:innen nutzen es täglich, und allein Wikipedia verlinkt in 249 Sprachen auf 2,6 Millionen Nachrichtenartikel im Archiv
    • Unzählige Blogger, Forschende und Journalist:innen verlassen sich darauf als stabile und verlässliche Quelle
  • Die rechtlichen Grundsätze, die Suchmaschinen schützen, sollten gleichermaßen für Archive und Bibliotheken gelten

    • Selbst wenn Gerichte dem KI-Training Grenzen setzen sollten, ist die Rechtmäßigkeit von Suche und Web-Archivierung bereits etabliert

Krise der Bewahrung historischer Aufzeichnungen

  • Das Internet Archive bewahrt seit rund 30 Jahren die historische Aufzeichnung des Webs
  • Wenn große Medienhäuser beginnen, es zu blockieren, ist die Wahrscheinlichkeit hoch, dass künftige Forschende diese umfangreiche Aufzeichnung verlieren
  • Die rechtlichen Debatten rund um KI-Training müssen vor Gericht geklärt werden, doch es wird gewarnt, dass die Opferung öffentlicher Aufzeichnungen ein schwerer und irreversibler Fehler wäre

1 Kommentare

 
GN⁺ 2026-03-22
Hacker-News-Kommentare
  • Als Website-Betreiber kämpfe ich gerade gegen aggressive AI-Crawler
    Ich mache mir Sorgen, ob meine Sperrregeln vielleicht auch das Internet Archive blockiert haben
    Facebook ignoriert robots.txt und verteilt Anfragen über mehrere IPs, um crawl delay zu umgehen
    Deshalb habe ich in nginx eine eigene Regel nur für Facebook eingerichtet
    Bisher war das Blockieren von JA3-Hashes am effektivsten
    Ich wünschte allerdings, es gäbe einen Wrapper, der hugin-net um nginx legt, um TCP-Fingerprinting zu ermöglichen
    Da ich kein Rust kann, habe ich sogar Angst, ein LLM darum zu bitten
    Allerdings hat dieser Ansatz ein Race-Condition-Problem. Bei der ersten Verbindung gibt es noch keinen JA4-Hash, und AI-Crawler senden pro IP nur eine Anfrage, sodass es keine Gelegenheit gibt, die zweite Anfrage zu blockieren

    • Auch das Internet Archive hält sich nicht an robots.txt
      In einem offiziellen Blogbeitrag schreiben sie, „die Zukunft der Webarchivierung wird sich weniger auf robots.txt stützen“
      Eine andere Organisation, Archiveteam, ignoriert robots.txt ebenfalls
      Es wirkt, als würden große Archivierungsorganisationen heute die Perspektive von Website-Betreibern kaum noch berücksichtigen
    • Umgehungstechniken wie JA3-Randomisierung oder Tarnung machen die Erkennung leicht aushebelbar
    • Ich frage mich, ob ein Mechanismus zum Umgehen von Bot-Sperren möglich wäre, bei dem nur mit einem Whitelist-Schlüssel signierte Anfragen durchgelassen werden
      Damit könnte man wohl nur den Internet-Archive-Crawler zulassen
  • Ich frage mich, was Leute denken, die inzwischen akzeptiert haben, dass man AI-Scraper nicht vollständig stoppen kann
    Der Tag ist nicht mehr fern, an dem die Unterscheidung zwischen menschlichen Browsern und LLM-Agenten verschwindet
    Sie können echte GUI-Sitzungen öffnen, Seiten im Browser durchsuchen und auf OS-Ebene Snapshots anfertigen, um Inhalte wiederherzustellen
    Am Ende wird schon das Konzept, den Zugriff im öffentlichen Web zu verhindern, selbst veraltet wirken
    Wie lässt sich dann die Last für einzelne Hosts verringern?
    Wird es eine vertrauenswürdige zentrale Archivierungsinstitution geben, oder kommt eher ein Modell, das „schlechtes Verhalten“ von LLMs bestraft?

    • Wir hätten längst lernen müssen, dass das Internetrecht fast keine praktische Durchsetzungskraft hat
    • Wenn man Content-Hashes bereitstellt und die eigentlichen Daten von IPFS oder BitTorrent holen lässt, kann man die Last auf Websites verringern
      Wenn Browser das unterstützen würden, bekäme man die Effizienz eines CDN ohne Zentralisierung
    • Wenn man es gar nicht erst im öffentlichen Web veröffentlicht, erledigt sich die Sorge vor Scraping
      Vielleicht wäre ein Modell, bei dem CDNs die Daten direkt verkaufen, sogar effizienter
    • Im Moment durchsuchen Tausende AI-Unternehmen das ganze Web, aber wenn die AI-Blase platzt, bleiben am Ende nur einige wenige übrig
      Dann wird auch die Nachfrage nach dauerhaftem Scraping sinken
    • Das eigentliche Problem sind Traffic-Last und Bandbreitenkosten
      Es wirkt, als seien grundlegendes Engineering-Verständnis und Buchhaltungswissen in Vergessenheit geraten
  • Medienhäuser überschätzen den Einfluss ihrer Inhalte auf die Entwicklung von AI
    Selbst wenn es sie nicht gegeben hätte, wäre die Qualität von LLMs kaum wesentlich anders

    • Nur mit Wikipedia, Reddit und wissenschaftlichen Arbeiten stößt man an Grenzen
      Am Ende braucht man vielfältige Texte wie etwa Nachrichtenartikel
    • Je mehr das Web von AI-generierten Inhalten überflutet wird, desto wertvoller wird von Menschen geschriebener Text
      Deshalb ist eine Strategie nachvollziehbar, die verhindert, dass AI-Unternehmen diesen ohne Zustimmung nutzen
  • Wir sind gerade dabei, eine Bibliothek niederzubrennen, um den Brandstifter zu bestrafen
    Der Brandstifter ist längst weg

    • Vielleicht sind in Wirklichkeit aber 90 % der Bibliotheksbesucher Brandstifter
  • Deshalb wurde archive.is geschaffen
    Statt zu versuchen, seinen Gründer aufzuspüren und zu bestrafen, sollte man es nicht eher als nützliches Projekt unterstützen?

    • Stimme zu. Wenn archive.is verschwindet, hat archive.org ein Monopol
      archive.org akzeptiert Löschanfragen von Website-Eigentümern, sodass man durch den Kauf alter Domains sogar die Vergangenheit tilgen könnte
    • Der Gründer von archive.is hat in der Vergangenheit jedoch DDoS-Angriffe auf Journalisten durchgeführt
      Weil er Nutzer in diese Angriffe hineingezogen hat, ist er niemand, den man verherrlichen sollte
  • Als jemand, der früher Anti-Spam-Systeme gebaut hat, glaube ich, dass es künftig selbst für den Website-Zugriff eine Art „Taxilizenz“-Authentifizierungssystem geben wird
    Wenn zum Beispiel das Internet Archive signierte HTTPS-Anfragen sendet, kann eine Website prüfen, ob sie echt sind
    Das widerspricht zwar dem Geist des offenen Internets, aber man braucht eine Möglichkeit, vertrauenswürdige Crawler zu unterscheiden

    • Von Crawlern, die nicht wie Menschen wirken, verlange ich Folgendes
      • Es muss Reverse DNS geben, und diese Domain muss eine Seite mit Verhaltensrichtlinien haben
      • Über einen IP-basierten TXT-Record muss angegeben sein, wer zugreift, wann und wie oft
        Auf Grundlage dieser Informationen treffe ich automatische Blockierentscheidungen
        Ich habe bereits in meinem Blog dokumentiert, dass Amazon-Anfragen standardmäßig blockiert werden
  • Ich halte die New York Times für furchtbar. Gerade deshalb muss sie für die Zukunft unbedingt bewahrt werden

    • Alle Meinungsartikel der Medien sind letztlich Propaganda
      Jedes Medium veröffentlicht nur Texte, die zur eigenen Ideologie passen
    • Mich würde interessieren, warum du sie für so schlecht hältst. Ich lese sie nicht
  • Die EFF ist bei AI zu nachgiebig
    Obwohl AI das Internet und Arbeitsplätze ruiniert, bezieht sie keine harte Position
    Ein Blick auf die Liste der Sponsoren zeigt viele Unternehmensförderer, was ihre Glaubwürdigkeit als Freiheitsorganisation mindert
    Organisationen wie OSI oder EFF sind bereits von Unternehmen vereinnahmt worden und inzwischen sogar schädlich

  • Wenn es beim Internet Archive ein dezentralisiertes Crawler-Programm mit privaten Wohn-IP-Adressen gäbe, würde ich gerne mitmachen
    Es bräuchte nur einen Mechanismus gegen Manipulation

    • Beim Internet Archive nicht, aber es gibt Archive Team Warrior
    • IA macht alles öffentlich, und respektiert sogar unrechtmäßige DMCA-Anfragen
    • Wenn TLS auf ihrer Seite terminiert wird, ist es einfach. Am Ende würde es nur als Residential Proxy fungieren
  • Wenn man Dünger und Diesel zusammen verkauft, ist es vernünftig anzunehmen, dass es sich um einen landwirtschaftlichen Lieferanten handelt
    Wenn man aber Lkw-Ladungen an Nicht-Landwirte verkauft, ist Misstrauen ebenfalls naheliegend