1 Punkte von GN⁺ 2025-12-15 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Ein Projekt zur Wiederherstellung von Anthony Bourdains verschwundenen Li.st-Beiträgen aus öffentlich zugänglichen Web-Crawling-Daten
  • Nutzung von Common Crawl und dem Internet Archive, um verbliebene HTML-Dateien der Domain li.st zu finden und wiederherzustellen
  • Mit dem Python-Skript commoncrawl_search.py wurden HTML-Dokumente aus einem öffentlichen S3-Bucket automatisch gesammelt
  • Der Text vieler Beiträge konnte wiederhergestellt werden, Bilddateien sind jedoch größtenteils verloren; nur einige Einträge blieben als HTML erhalten
  • Die Ergebnisse wurden in einem GitHub-Repository veröffentlicht, damit die Community künftig an weiterer Wiederherstellung und Archivierung mitwirken kann

Projektüberblick

  • Ein Versuch, Bourdains verlorene Li.st-Beiträge mithilfe öffentlich zugänglicher Crawling-Daten wiederherzustellen
    • Nachdem bereits eine Teilliste auf der Website GReg TeChnoLogY veröffentlicht worden war, wurde die Möglichkeit einer Rekonstruktion untersucht
    • Auf Basis von Erfahrung in den Bereichen Sicherheit und Crawling wurden ausschließlich öffentlich zugängliche Datenarchive verwendet
  • Durchsuchen des Dokumentenindex von Common Crawl, um Daten unter dem Pfad https://li.st/Bourdain* zu sammeln
    • Ausführung in einer Python-3.14.2-Umgebung nach Installation der Abhängigkeiten aus requirements.txt
    • Beispielbefehl: python commoncrawl_search.py "https://li.st/Bourdain*"; --all --download

Wiederherstellungsprozess und Werkzeuge

  • commoncrawl_search.py sendet Index-Anfragen an bestimmte Datensätze und lädt passende Treffer aus einem öffentlichen S3-Bucket herunter
    • Da HTML-Dokumente klein sind, ließ sich die Wiederherstellung relativ einfach durchführen
  • Die wiederhergestellten Ergebnisse sind im GitHub-Repository (https://github.com/thecsw/bourdain) organisiert
    • Jede HTML-Datei behält das ursprüngliche Layout bei, wurde jedoch ohne inhaltliche Änderungen rekonstruiert
    • Es handelt sich nicht um AI-generierte Inhalte; nur Teile des Codes wurden mit Automatisierungswerkzeugen erstellt

Wichtige wiederhergestellte Beiträge

  • things-i-no-longer-have-time-or-patience-for: Listen wie „Cocaine“, „True Detective“, „Beer nerds“ usw.
  • nice-views: Reiseszenen aus Montana, Puerto Rico, Naxos, LA, Istanbul und weiteren Orten
  • if-i-were-trapped-on-a-desert-island-with-only-three-tv-series: darunter „The Wire“, „Tinker, Tailor, Soldier, Spy“ usw.
  • objects-of-desire: persönliche Sammlerstücke wie Vintage-Sonnenbrillen, Trepanationswerkzeuge, BJJ-Gi und Kramer-Messer
  • four-spy-novels-by-real-spies-and-one-not-by-a-spy: Empfehlungen für Spionageromane von Autoren wie Somerset Maugham und Graham Greene
  • hotel-slut-that-s-me: eine Liste von Hotels weltweit mit sehr persönlicher Zuneigung
  • some-new-york-sandwiches, great-dead-bars-of-new-york, guilty-pleasures und viele weitere New-York-bezogene Listen
  • Bei den meisten Beiträgen konnte der Text erfolgreich wiederhergestellt werden, alle Bilddateien gingen jedoch verloren

Nicht wiederherstellbarer Eintrag

  • Nur der Beitrag David Bowie Related (14. Januar 2016) wurde in Common Crawl nicht gefunden

Bedeutung des Projekts und weitere Pläne

  • Die Wiederherstellung wird als digital-archäologischer Versuch beschrieben und zeigt, dass die Bewahrung früherer Web-Inhalte möglich ist
  • Die Wiederherstellung von Bildern bleibt schwierig, der Aufbau eines Textarchivs war jedoch erfolgreich
  • Über das öffentliche Git-Repository kann sich jede Person an weiterer Wiederherstellung beteiligen
  • Künftig soll die Notwendigkeit eines öffentlichen Archivs und langfristiger Erhaltungsstrategien weiter untersucht werden

Noch keine Kommentare.

Noch keine Kommentare.