- Das Internet Archive, das seit Mitte der 1990er Jahre das Web und Zeitungen bewahrt, speichert über die Wayback Machine mehr als eine Billion Webseiten
- Kürzlich haben große Medien wie The New York Times und The Guardian begonnen, das Crawling des Archivs aus Sorge vor AI-Scraping zu blockieren
- Diese Maßnahmen führen zu einer Unterbrechung der historischen Web-Aufzeichnung und bergen das Risiko, dass die einzige Aufzeichnung verschwindet, mit der sich Änderungen an Artikeln vor und nach Bearbeitungen oder Löschungen nachvollziehen lassen
- Unabhängig von den laufenden Rechtsstreitigkeiten zum KI-Training wird darauf hingewiesen, dass die Blockade einer gemeinnützigen Bewahrungsinstitution dem öffentlichen Interesse schadet
- Suche und Web-Archivierung sind Bereiche, deren rechtliche Zulässigkeit als Fair Use bereits etabliert ist; wenn sie blockiert werden, verlieren künftige Forschende die historische Aufzeichnung des Webs
Die Blockade des Internet Archive stoppt KI nicht, sondern löscht die historische Aufzeichnung des Webs
- Das Internet Archive ist die größte digitale Bibliothek der Welt und bewahrt seit Mitte der 1990er Jahre das Web und Zeitungen; über die Wayback Machine speichert es mehr als eine Billion Webseiten
- In den vergangenen Monaten hat The New York Times begonnen, das Crawling des Archivs wegen Bedenken rund um AI-Content-Scraping zu blockieren, und andere Medienhäuser wie The Guardian scheinen diesem Beispiel zu folgen
- Diese Blockaden sind nicht bloß technische Einschränkungen, sondern führen zu einer Unterbrechung der historischen Aufzeichnung
- Das Internet Archive ist oft die einzige Aufzeichnung, mit der sich Veränderungen an Artikeln vor und nach Bearbeitungen oder Löschungen nachvollziehen lassen
- Wenn Medienhäuser den Zugang verhindern, droht das über Jahrzehnte aufgebaute Web-Archiv verloren zu gehen
- Zwar laufen rechtliche Auseinandersetzungen zum KI-Training, doch die Blockade einer gemeinnützigen Bewahrungsinstitution ist die falsche Reaktion
- Das Internet Archive entwickelt keine kommerziellen KI-Systeme, sondern erfüllt einen gemeinwohlorientierten Zweck der historischen Bewahrung
- Der Versuch, den KI-Zugriff zu kontrollieren, kann dazu führen, dass sogar die Archivierungsfunktion von Bibliotheken beschädigt wird
Die Rechtmäßigkeit von Archivierung und Suche
- Die Ermöglichung von Durchsuchbarkeit gilt seit Langem rechtlich als Fair Use
- Gerichte haben entschieden, dass das Kopieren von Originalmaterial unvermeidlich ist, um Suchindizes aufzubauen
- Auch der Fall, in dem Google komplette Bücher kopierte, um eine Suchdatenbank zu erstellen, wurde als transformative purpose anerkannt
- Nach demselben Grundsatz arbeitet auch das Internet Archive
- So wie physische Bibliotheken Zeitungen aufbewahren, bewahrt das Archiv die historische Aufzeichnung des Webs
- Forschende und Journalist:innen nutzen es täglich, und allein Wikipedia verlinkt in 249 Sprachen auf 2,6 Millionen Nachrichtenartikel im Archiv
- Unzählige Blogger, Forschende und Journalist:innen verlassen sich darauf als stabile und verlässliche Quelle
-
Die rechtlichen Grundsätze, die Suchmaschinen schützen, sollten gleichermaßen für Archive und Bibliotheken gelten
- Selbst wenn Gerichte dem KI-Training Grenzen setzen sollten, ist die Rechtmäßigkeit von Suche und Web-Archivierung bereits etabliert
Krise der Bewahrung historischer Aufzeichnungen
- Das Internet Archive bewahrt seit rund 30 Jahren die historische Aufzeichnung des Webs
- Wenn große Medienhäuser beginnen, es zu blockieren, ist die Wahrscheinlichkeit hoch, dass künftige Forschende diese umfangreiche Aufzeichnung verlieren
- Die rechtlichen Debatten rund um KI-Training müssen vor Gericht geklärt werden, doch es wird gewarnt, dass die Opferung öffentlicher Aufzeichnungen ein schwerer und irreversibler Fehler wäre
1 Kommentare
Hacker-News-Kommentare
Als Website-Betreiber kämpfe ich gerade gegen aggressive AI-Crawler
Ich mache mir Sorgen, ob meine Sperrregeln vielleicht auch das Internet Archive blockiert haben
Facebook ignoriert
robots.txtund verteilt Anfragen über mehrere IPs, umcrawl delayzu umgehenDeshalb habe ich in nginx eine eigene Regel nur für Facebook eingerichtet
Bisher war das Blockieren von JA3-Hashes am effektivsten
Ich wünschte allerdings, es gäbe einen Wrapper, der
hugin-netum nginx legt, um TCP-Fingerprinting zu ermöglichenDa ich kein Rust kann, habe ich sogar Angst, ein LLM darum zu bitten
Allerdings hat dieser Ansatz ein Race-Condition-Problem. Bei der ersten Verbindung gibt es noch keinen JA4-Hash, und AI-Crawler senden pro IP nur eine Anfrage, sodass es keine Gelegenheit gibt, die zweite Anfrage zu blockieren
robots.txtIn einem offiziellen Blogbeitrag schreiben sie, „die Zukunft der Webarchivierung wird sich weniger auf
robots.txtstützen“Eine andere Organisation, Archiveteam, ignoriert
robots.txtebenfallsEs wirkt, als würden große Archivierungsorganisationen heute die Perspektive von Website-Betreibern kaum noch berücksichtigen
Damit könnte man wohl nur den Internet-Archive-Crawler zulassen
Ich frage mich, was Leute denken, die inzwischen akzeptiert haben, dass man AI-Scraper nicht vollständig stoppen kann
Der Tag ist nicht mehr fern, an dem die Unterscheidung zwischen menschlichen Browsern und LLM-Agenten verschwindet
Sie können echte GUI-Sitzungen öffnen, Seiten im Browser durchsuchen und auf OS-Ebene Snapshots anfertigen, um Inhalte wiederherzustellen
Am Ende wird schon das Konzept, den Zugriff im öffentlichen Web zu verhindern, selbst veraltet wirken
Wie lässt sich dann die Last für einzelne Hosts verringern?
Wird es eine vertrauenswürdige zentrale Archivierungsinstitution geben, oder kommt eher ein Modell, das „schlechtes Verhalten“ von LLMs bestraft?
Wenn Browser das unterstützen würden, bekäme man die Effizienz eines CDN ohne Zentralisierung
Vielleicht wäre ein Modell, bei dem CDNs die Daten direkt verkaufen, sogar effizienter
Dann wird auch die Nachfrage nach dauerhaftem Scraping sinken
Es wirkt, als seien grundlegendes Engineering-Verständnis und Buchhaltungswissen in Vergessenheit geraten
Medienhäuser überschätzen den Einfluss ihrer Inhalte auf die Entwicklung von AI
Selbst wenn es sie nicht gegeben hätte, wäre die Qualität von LLMs kaum wesentlich anders
Am Ende braucht man vielfältige Texte wie etwa Nachrichtenartikel
Deshalb ist eine Strategie nachvollziehbar, die verhindert, dass AI-Unternehmen diesen ohne Zustimmung nutzen
Wir sind gerade dabei, eine Bibliothek niederzubrennen, um den Brandstifter zu bestrafen
Der Brandstifter ist längst weg
Deshalb wurde archive.is geschaffen
Statt zu versuchen, seinen Gründer aufzuspüren und zu bestrafen, sollte man es nicht eher als nützliches Projekt unterstützen?
archive.isverschwindet, hat archive.org ein Monopolarchive.orgakzeptiert Löschanfragen von Website-Eigentümern, sodass man durch den Kauf alter Domains sogar die Vergangenheit tilgen könntearchive.ishat in der Vergangenheit jedoch DDoS-Angriffe auf Journalisten durchgeführtWeil er Nutzer in diese Angriffe hineingezogen hat, ist er niemand, den man verherrlichen sollte
Als jemand, der früher Anti-Spam-Systeme gebaut hat, glaube ich, dass es künftig selbst für den Website-Zugriff eine Art „Taxilizenz“-Authentifizierungssystem geben wird
Wenn zum Beispiel das Internet Archive signierte HTTPS-Anfragen sendet, kann eine Website prüfen, ob sie echt sind
Das widerspricht zwar dem Geist des offenen Internets, aber man braucht eine Möglichkeit, vertrauenswürdige Crawler zu unterscheiden
Auf Grundlage dieser Informationen treffe ich automatische Blockierentscheidungen
Ich habe bereits in meinem Blog dokumentiert, dass Amazon-Anfragen standardmäßig blockiert werden
Ich halte die New York Times für furchtbar. Gerade deshalb muss sie für die Zukunft unbedingt bewahrt werden
Jedes Medium veröffentlicht nur Texte, die zur eigenen Ideologie passen
Die EFF ist bei AI zu nachgiebig
Obwohl AI das Internet und Arbeitsplätze ruiniert, bezieht sie keine harte Position
Ein Blick auf die Liste der Sponsoren zeigt viele Unternehmensförderer, was ihre Glaubwürdigkeit als Freiheitsorganisation mindert
Organisationen wie OSI oder EFF sind bereits von Unternehmen vereinnahmt worden und inzwischen sogar schädlich
Wenn es beim Internet Archive ein dezentralisiertes Crawler-Programm mit privaten Wohn-IP-Adressen gäbe, würde ich gerne mitmachen
Es bräuchte nur einen Mechanismus gegen Manipulation
Wenn man Dünger und Diesel zusammen verkauft, ist es vernünftig anzunehmen, dass es sich um einen landwirtschaftlichen Lieferanten handelt
Wenn man aber Lkw-Ladungen an Nicht-Landwirte verkauft, ist Misstrauen ebenfalls naheliegend