- Ein Projekt zur Wiederherstellung von Anthony Bourdains verschwundenen Li.st-Beiträgen aus öffentlich zugänglichen Web-Crawling-Daten
- Nutzung von Common Crawl und dem Internet Archive, um verbliebene HTML-Dateien der Domain li.st zu finden und wiederherzustellen
- Mit dem Python-Skript
commoncrawl_search.pywurden HTML-Dokumente aus einem öffentlichen S3-Bucket automatisch gesammelt - Der Text vieler Beiträge konnte wiederhergestellt werden, Bilddateien sind jedoch größtenteils verloren; nur einige Einträge blieben als HTML erhalten
- Die Ergebnisse wurden in einem GitHub-Repository veröffentlicht, damit die Community künftig an weiterer Wiederherstellung und Archivierung mitwirken kann
Projektüberblick
- Ein Versuch, Bourdains verlorene Li.st-Beiträge mithilfe öffentlich zugänglicher Crawling-Daten wiederherzustellen
- Nachdem bereits eine Teilliste auf der Website GReg TeChnoLogY veröffentlicht worden war, wurde die Möglichkeit einer Rekonstruktion untersucht
- Auf Basis von Erfahrung in den Bereichen Sicherheit und Crawling wurden ausschließlich öffentlich zugängliche Datenarchive verwendet
- Durchsuchen des Dokumentenindex von Common Crawl, um Daten unter dem Pfad
https://li.st/Bourdain*zu sammeln- Ausführung in einer Python-3.14.2-Umgebung nach Installation der Abhängigkeiten aus
requirements.txt - Beispielbefehl:
python commoncrawl_search.py "https://li.st/Bourdain*" --all --download
- Ausführung in einer Python-3.14.2-Umgebung nach Installation der Abhängigkeiten aus
Wiederherstellungsprozess und Werkzeuge
commoncrawl_search.pysendet Index-Anfragen an bestimmte Datensätze und lädt passende Treffer aus einem öffentlichen S3-Bucket herunter- Da HTML-Dokumente klein sind, ließ sich die Wiederherstellung relativ einfach durchführen
- Die wiederhergestellten Ergebnisse sind im GitHub-Repository (https://github.com/thecsw/bourdain) organisiert
- Jede HTML-Datei behält das ursprüngliche Layout bei, wurde jedoch ohne inhaltliche Änderungen rekonstruiert
- Es handelt sich nicht um AI-generierte Inhalte; nur Teile des Codes wurden mit Automatisierungswerkzeugen erstellt
Wichtige wiederhergestellte Beiträge
- things-i-no-longer-have-time-or-patience-for: Listen wie „Cocaine“, „True Detective“, „Beer nerds“ usw.
- nice-views: Reiseszenen aus Montana, Puerto Rico, Naxos, LA, Istanbul und weiteren Orten
- if-i-were-trapped-on-a-desert-island-with-only-three-tv-series: darunter „The Wire“, „Tinker, Tailor, Soldier, Spy“ usw.
- objects-of-desire: persönliche Sammlerstücke wie Vintage-Sonnenbrillen, Trepanationswerkzeuge, BJJ-Gi und Kramer-Messer
- four-spy-novels-by-real-spies-and-one-not-by-a-spy: Empfehlungen für Spionageromane von Autoren wie Somerset Maugham und Graham Greene
- hotel-slut-that-s-me: eine Liste von Hotels weltweit mit sehr persönlicher Zuneigung
- some-new-york-sandwiches, great-dead-bars-of-new-york, guilty-pleasures und viele weitere New-York-bezogene Listen
- Bei den meisten Beiträgen konnte der Text erfolgreich wiederhergestellt werden, alle Bilddateien gingen jedoch verloren
Nicht wiederherstellbarer Eintrag
- Nur der Beitrag David Bowie Related (14. Januar 2016) wurde in Common Crawl nicht gefunden
Bedeutung des Projekts und weitere Pläne
- Die Wiederherstellung wird als digital-archäologischer Versuch beschrieben und zeigt, dass die Bewahrung früherer Web-Inhalte möglich ist
- Die Wiederherstellung von Bildern bleibt schwierig, der Aufbau eines Textarchivs war jedoch erfolgreich
- Über das öffentliche Git-Repository kann sich jede Person an weiterer Wiederherstellung beteiligen
- Künftig soll die Notwendigkeit eines öffentlichen Archivs und langfristiger Erhaltungsstrategien weiter untersucht werden
1 Kommentare
Hacker-News-Kommentare
Ich bin in dasselbe rabbit hole gefallen und habe letzte Woche genau dasselbe gemacht
Link zu meinem Versuch
Falls du dadurch inspiriert wurdest, würde ich mich über eine Erwähnung freuen; wenn nicht, ist es interessant zu sehen, dass wir unabhängig voneinander auf dieselbe Idee gekommen sind
Jedenfalls habe ich sowohl git als auch die Webseite aktualisiert und deine Arbeit ausdrücklich erwähnt. Ich habe direkt auf deine Seite verlinkt; gib mir bitte Bescheid, ob das für dich in Ordnung ist
Als Nachfolger von diesem Beitrag habe ich alle li.st-Beiträge von Anthony Bourdain wiederhergestellt, die im Laufe der Zeit verloren gegangen zu sein schienen
Ich glaube wirklich, dass es niemanden wie Tony gab
Ich mochte seine Serie wirklich sehr, war aber enttäuscht, als er meine Heimatstadt besuchte und sie völlig falsch darstellte
Ich verstehe die anti-establishment- und unkonventionelle Perspektive, aber er hing mit lokalen Betrügern und Leuten herum, die ein gescheitertes Restaurant betrieben, und stellte sie als „progressive Köche“ vor
Seitdem sehe ich auch seine anderen Episoden mit anderen Augen
Es ist wirklich schön, das wiederhergestellte Material zu sehen :)
Es wäre toll, wenn auch die Bilder wiederhergestellt würden. Ich bin neugierig auf die Liste der Schallplatten, die er erwähnt hat
Ich freue mich, dass SIBERIA aus der Liste „Great Dead Bars of New York“ wieder geöffnet hat
Diesmal hat die Bar im Bahnhof 59th Street/Columbus Circle neu angefangen
Ich will das Webdesign-Thema eigentlich vermeiden, aber hellgraue Schrift auf weißem Hintergrund ist viel zu schwer zu lesen. Besonders für ältere Augen ist sie fast unsichtbar
Seine Lieblingsbar Siberia hat wieder geöffnet
Sie befindet sich am südlichen Ende der U-Bahn-Station Columbus Circle, die Besitzerin Tracy ist noch da, und die Atmosphäre ist so schmucklos wie früher
Eine Filmliste mit Tampopo ist automatisch eine gute Liste
Vielen Dank für diese Wiederherstellungsarbeit
Als Bourdain-Fan denke ich, dass er trotz seiner menschlichen Schwächen eine der interessantesten Figuren im Zeitgeist war
Seine Parts Unknown-Reihe war einer der großartigsten anthropologischen Inhalte, die ich je im Fernsehen gesehen habe. Auch diesen Beitrag fand ich sehr interessant