1 Punkte von GN⁺ 2025-12-15 | 1 Kommentare | Auf WhatsApp teilen
  • Ein Projekt zur Wiederherstellung von Anthony Bourdains verschwundenen Li.st-Beiträgen aus öffentlich zugänglichen Web-Crawling-Daten
  • Nutzung von Common Crawl und dem Internet Archive, um verbliebene HTML-Dateien der Domain li.st zu finden und wiederherzustellen
  • Mit dem Python-Skript commoncrawl_search.py wurden HTML-Dokumente aus einem öffentlichen S3-Bucket automatisch gesammelt
  • Der Text vieler Beiträge konnte wiederhergestellt werden, Bilddateien sind jedoch größtenteils verloren; nur einige Einträge blieben als HTML erhalten
  • Die Ergebnisse wurden in einem GitHub-Repository veröffentlicht, damit die Community künftig an weiterer Wiederherstellung und Archivierung mitwirken kann

Projektüberblick

  • Ein Versuch, Bourdains verlorene Li.st-Beiträge mithilfe öffentlich zugänglicher Crawling-Daten wiederherzustellen
    • Nachdem bereits eine Teilliste auf der Website GReg TeChnoLogY veröffentlicht worden war, wurde die Möglichkeit einer Rekonstruktion untersucht
    • Auf Basis von Erfahrung in den Bereichen Sicherheit und Crawling wurden ausschließlich öffentlich zugängliche Datenarchive verwendet
  • Durchsuchen des Dokumentenindex von Common Crawl, um Daten unter dem Pfad https://li.st/Bourdain* zu sammeln
    • Ausführung in einer Python-3.14.2-Umgebung nach Installation der Abhängigkeiten aus requirements.txt
    • Beispielbefehl: python commoncrawl_search.py "https://li.st/Bourdain*"; --all --download

Wiederherstellungsprozess und Werkzeuge

  • commoncrawl_search.py sendet Index-Anfragen an bestimmte Datensätze und lädt passende Treffer aus einem öffentlichen S3-Bucket herunter
    • Da HTML-Dokumente klein sind, ließ sich die Wiederherstellung relativ einfach durchführen
  • Die wiederhergestellten Ergebnisse sind im GitHub-Repository (https://github.com/thecsw/bourdain) organisiert
    • Jede HTML-Datei behält das ursprüngliche Layout bei, wurde jedoch ohne inhaltliche Änderungen rekonstruiert
    • Es handelt sich nicht um AI-generierte Inhalte; nur Teile des Codes wurden mit Automatisierungswerkzeugen erstellt

Wichtige wiederhergestellte Beiträge

  • things-i-no-longer-have-time-or-patience-for: Listen wie „Cocaine“, „True Detective“, „Beer nerds“ usw.
  • nice-views: Reiseszenen aus Montana, Puerto Rico, Naxos, LA, Istanbul und weiteren Orten
  • if-i-were-trapped-on-a-desert-island-with-only-three-tv-series: darunter „The Wire“, „Tinker, Tailor, Soldier, Spy“ usw.
  • objects-of-desire: persönliche Sammlerstücke wie Vintage-Sonnenbrillen, Trepanationswerkzeuge, BJJ-Gi und Kramer-Messer
  • four-spy-novels-by-real-spies-and-one-not-by-a-spy: Empfehlungen für Spionageromane von Autoren wie Somerset Maugham und Graham Greene
  • hotel-slut-that-s-me: eine Liste von Hotels weltweit mit sehr persönlicher Zuneigung
  • some-new-york-sandwiches, great-dead-bars-of-new-york, guilty-pleasures und viele weitere New-York-bezogene Listen
  • Bei den meisten Beiträgen konnte der Text erfolgreich wiederhergestellt werden, alle Bilddateien gingen jedoch verloren

Nicht wiederherstellbarer Eintrag

  • Nur der Beitrag David Bowie Related (14. Januar 2016) wurde in Common Crawl nicht gefunden

Bedeutung des Projekts und weitere Pläne

  • Die Wiederherstellung wird als digital-archäologischer Versuch beschrieben und zeigt, dass die Bewahrung früherer Web-Inhalte möglich ist
  • Die Wiederherstellung von Bildern bleibt schwierig, der Aufbau eines Textarchivs war jedoch erfolgreich
  • Über das öffentliche Git-Repository kann sich jede Person an weiterer Wiederherstellung beteiligen
  • Künftig soll die Notwendigkeit eines öffentlichen Archivs und langfristiger Erhaltungsstrategien weiter untersucht werden

1 Kommentare

 
GN⁺ 2025-12-15
Hacker-News-Kommentare
  • Ich bin in dasselbe rabbit hole gefallen und habe letzte Woche genau dasselbe gemacht
    Link zu meinem Versuch
    Falls du dadurch inspiriert wurdest, würde ich mich über eine Erwähnung freuen; wenn nicht, ist es interessant zu sehen, dass wir unabhängig voneinander auf dieselbe Idee gekommen sind

    • Oh, das wusste ich nicht! Ich habe mit Gregs ursprünglichem Beitrag angefangen, und er hat mir später gesagt, dass es schon jemanden gab, der sich Common Crawl angesehen hatte
      Jedenfalls habe ich sowohl git als auch die Webseite aktualisiert und deine Arbeit ausdrücklich erwähnt. Ich habe direkt auf deine Seite verlinkt; gib mir bitte Bescheid, ob das für dich in Ordnung ist
  • Als Nachfolger von diesem Beitrag habe ich alle li.st-Beiträge von Anthony Bourdain wiederhergestellt, die im Laufe der Zeit verloren gegangen zu sein schienen
    Ich glaube wirklich, dass es niemanden wie Tony gab

    • Fast alle wurden wiederhergestellt, aber laut dem Artikel fehlt noch einer — „David Bowie Related“ (vom 14. Januar 2016)
  • Ich mochte seine Serie wirklich sehr, war aber enttäuscht, als er meine Heimatstadt besuchte und sie völlig falsch darstellte
    Ich verstehe die anti-establishment- und unkonventionelle Perspektive, aber er hing mit lokalen Betrügern und Leuten herum, die ein gescheitertes Restaurant betrieben, und stellte sie als „progressive Köche“ vor
    Seitdem sehe ich auch seine anderen Episoden mit anderen Augen

    • Stimme zu. Vice News hat in Chicago etwas Ähnliches gemacht, weshalb die Einheimischen sie nicht mögen
    • Dasselbe ist auch in Shanghai passiert
    • Ich hatte ein ähnliches Gefühl. Seine Show ist interessant, aber es gab eine subtile Arroganz dabei, wie ein wohlhabender weißer Mann überall die lokalen Verhältnisse erklärte, als wäre er der Experte. Das Essen war oft zweitrangig
    • Ich frage mich, um welche Stadt es ging. In einigen Gegenden hatte ich auch diesen Eindruck, und ich habe mich immer gefragt, nach welchen Kriterien das Produktionsteam die Orte auswählt
    • Wahrscheinlich hat er die politischen Hintergründe der Leute nicht selbst überprüft. Vermutlich hat das Produktionsteam das im Voraus organisiert, und er hat einfach mitgemacht. Trotzdem gibt es genug Gründe, seine Show kritisch zu sehen. Mich würde der Name der Stadt interessieren
  • Es ist wirklich schön, das wiederhergestellte Material zu sehen :)
    Es wäre toll, wenn auch die Bilder wiederhergestellt würden. Ich bin neugierig auf die Liste der Schallplatten, die er erwähnt hat

  • Ich freue mich, dass SIBERIA aus der Liste „Great Dead Bars of New York“ wieder geöffnet hat
    Diesmal hat die Bar im Bahnhof 59th Street/Columbus Circle neu angefangen

  • Ich will das Webdesign-Thema eigentlich vermeiden, aber hellgraue Schrift auf weißem Hintergrund ist viel zu schwer zu lesen. Besonders für ältere Augen ist sie fast unsichtbar

    • Auf meinem Bildschirm ist das kein Hellgrau. Ich habe es sowohl auf Desktop als auch mobil geprüft, und der Farbcode #2B2B2B ist dunkel genug. Wahrscheinlich liegt es an einer Display-Gamma-Einstellung. Die Seite sieht für mich in Ordnung aus
    • Ich hatte zuerst denselben Eindruck, aber dann habe ich gemerkt, dass eine Dark-Mode-Erweiterung die Farben verändert hatte. Nachdem ich sie ausgeschaltet hatte, war alles okay
    • Ich verstehe, dass plötzlich ein grellweißer Bildschirm in den Augen wehtun kann
    • Mich stört auch, dass das Punktmuster im Hintergrund leicht sichtbar ist. Kontrast ist wichtig
  • Seine Lieblingsbar Siberia hat wieder geöffnet
    Sie befindet sich am südlichen Ende der U-Bahn-Station Columbus Circle, die Besitzerin Tracy ist noch da, und die Atmosphäre ist so schmucklos wie früher

  • Eine Filmliste mit Tampopo ist automatisch eine gute Liste

  • Vielen Dank für diese Wiederherstellungsarbeit
    Als Bourdain-Fan denke ich, dass er trotz seiner menschlichen Schwächen eine der interessantesten Figuren im Zeitgeist war
    Seine Parts Unknown-Reihe war einer der großartigsten anthropologischen Inhalte, die ich je im Fernsehen gesehen habe. Auch diesen Beitrag fand ich sehr interessant