- Ein Projekt zur Wiederherstellung von Anthony Bourdains verschwundenen Li.st-Beiträgen aus öffentlich zugänglichen Web-Crawling-Daten
- Nutzung von Common Crawl und dem Internet Archive, um verbliebene HTML-Dateien der Domain li.st zu finden und wiederherzustellen
- Mit dem Python-Skript
commoncrawl_search.py wurden HTML-Dokumente aus einem öffentlichen S3-Bucket automatisch gesammelt
- Der Text vieler Beiträge konnte wiederhergestellt werden, Bilddateien sind jedoch größtenteils verloren; nur einige Einträge blieben als HTML erhalten
- Die Ergebnisse wurden in einem GitHub-Repository veröffentlicht, damit die Community künftig an weiterer Wiederherstellung und Archivierung mitwirken kann
Projektüberblick
- Ein Versuch, Bourdains verlorene Li.st-Beiträge mithilfe öffentlich zugänglicher Crawling-Daten wiederherzustellen
- Nachdem bereits eine Teilliste auf der Website GReg TeChnoLogY veröffentlicht worden war, wurde die Möglichkeit einer Rekonstruktion untersucht
- Auf Basis von Erfahrung in den Bereichen Sicherheit und Crawling wurden ausschließlich öffentlich zugängliche Datenarchive verwendet
- Durchsuchen des Dokumentenindex von Common Crawl, um Daten unter dem Pfad
https://li.st/Bourdain* zu sammeln
- Ausführung in einer Python-3.14.2-Umgebung nach Installation der Abhängigkeiten aus
requirements.txt
- Beispielbefehl:
python commoncrawl_search.py "https://li.st/Bourdain*" --all --download
Wiederherstellungsprozess und Werkzeuge
commoncrawl_search.py sendet Index-Anfragen an bestimmte Datensätze und lädt passende Treffer aus einem öffentlichen S3-Bucket herunter
- Da HTML-Dokumente klein sind, ließ sich die Wiederherstellung relativ einfach durchführen
- Die wiederhergestellten Ergebnisse sind im GitHub-Repository (https://github.com/thecsw/bourdain) organisiert
- Jede HTML-Datei behält das ursprüngliche Layout bei, wurde jedoch ohne inhaltliche Änderungen rekonstruiert
- Es handelt sich nicht um AI-generierte Inhalte; nur Teile des Codes wurden mit Automatisierungswerkzeugen erstellt
Wichtige wiederhergestellte Beiträge
- things-i-no-longer-have-time-or-patience-for: Listen wie „Cocaine“, „True Detective“, „Beer nerds“ usw.
- nice-views: Reiseszenen aus Montana, Puerto Rico, Naxos, LA, Istanbul und weiteren Orten
- if-i-were-trapped-on-a-desert-island-with-only-three-tv-series: darunter „The Wire“, „Tinker, Tailor, Soldier, Spy“ usw.
- objects-of-desire: persönliche Sammlerstücke wie Vintage-Sonnenbrillen, Trepanationswerkzeuge, BJJ-Gi und Kramer-Messer
- four-spy-novels-by-real-spies-and-one-not-by-a-spy: Empfehlungen für Spionageromane von Autoren wie Somerset Maugham und Graham Greene
- hotel-slut-that-s-me: eine Liste von Hotels weltweit mit sehr persönlicher Zuneigung
- some-new-york-sandwiches, great-dead-bars-of-new-york, guilty-pleasures und viele weitere New-York-bezogene Listen
- Bei den meisten Beiträgen konnte der Text erfolgreich wiederhergestellt werden, alle Bilddateien gingen jedoch verloren
Nicht wiederherstellbarer Eintrag
- Nur der Beitrag David Bowie Related (14. Januar 2016) wurde in Common Crawl nicht gefunden
Bedeutung des Projekts und weitere Pläne
- Die Wiederherstellung wird als digital-archäologischer Versuch beschrieben und zeigt, dass die Bewahrung früherer Web-Inhalte möglich ist
- Die Wiederherstellung von Bildern bleibt schwierig, der Aufbau eines Textarchivs war jedoch erfolgreich
- Über das öffentliche Git-Repository kann sich jede Person an weiterer Wiederherstellung beteiligen
- Künftig soll die Notwendigkeit eines öffentlichen Archivs und langfristiger Erhaltungsstrategien weiter untersucht werden
Noch keine Kommentare.