38 % der im Jahr 2013 existierenden Webseiten waren zehn Jahre später nicht mehr erreichbar

(pewresearch.org)

1 Punkte von GN⁺ 2024-05-20 | 1 Kommentare | Auf WhatsApp teilen

Das Web wirkt wie ein dauerhaftes Archiv, doch laut einer Stichprobe des Pew Research Center waren bis Oktober 2023 25 % der Webseiten, die zwischen 2013 und 2023 zeitweise existierten, verschwunden; bei Seiten aus dem Jahr 2013 waren 38 % nicht mehr erreichbar.
In dieser Auswertung bedeutet nicht erreichbar nicht geänderte Inhalte oder Barrierefreiheitsprobleme, sondern ist auf neun Fehlercodes beschränkt, die eindeutig anzeigen, dass eine Seite oder der Host-Server verschwunden ist.
Bei einer Prüfung von Links auf Regierungsseiten, Nachrichtenseiten und in der Wikipedia im Frühjahr 2023 enthielten 23 % der Nachrichten-Webseiten, 21 % der Regierungs-Webseiten und 54 % der English-Wikipedia-Seiten mindestens einen defekten Link.
Bei der dreimonatigen Nachverfolgung von rund 5 Millionen öffentlichen Posts auf X, damals noch Twitter, waren 18 % anschließend nicht mehr öffentlich sichtbar; bei 60 % davon lag der Grund in privaten, gesperrten oder gelöschten Accounts.
Über Webseiten, Materialien öffentlicher Einrichtungen, Nachrichtenlinks, Wikipedia-Quellen und Social-Media-Posts hinweg verschwinden Inhalte, und je älter das Material ist, desto deutlicher zeigt sich die digitale Verfallserscheinung.

Webseiten, die innerhalb von zehn Jahren verschwanden

Das Internet dient als Speicher für Materialien des modernen Lebens wie Bücher, Bilder und Nachrichtenartikel, doch manche Inhalte werden mit der Zeit unsichtbar.
Das Pew Research Center prüfte an einer Stichprobe von Webseiten, die zwischen 2013 und 2023 existierten, ob sie im Oktober 2023 noch erreichbar waren.
In der Gesamtstichprobe waren 25 % der Webseiten, die einst existierten, nicht mehr erreichbar.
- Bei 16 % funktionierte die Root-Domain noch, aber die einzelne Seite war nicht mehr erreichbar.
- Bei 9 % war die gesamte Root-Domain nicht mehr funktionsfähig und damit nicht zugänglich.
Je älter die Webseite, desto höher war der Anteil verschwundener Seiten.
- Bei Webseiten aus dem Snapshot von 2013 waren 38 % im Jahr 2023 nicht mehr erreichbar.
- Bei Webseiten aus dem Snapshot von 2023 waren 8 % nicht erreichbar.
- Selbst bei Webseiten aus dem Snapshot von 2021 war etwa ein Fünftel zwei Jahre später nicht mehr erreichbar.

Kriterien für die Einstufung als nicht erreichbar

In dieser Analyse ist nicht erreichbar auf Fälle beschränkt, in denen eine Seite nicht mehr existiert.
- Dazu gehören Fälle, in denen der Host-Server oder die Seite verschwunden ist und üblicherweise Serverfehler wie 404 Not Found erscheinen.
Nicht Teil dieser Studie sind folgende Fälle:
- Die Seitenadresse existiert noch, aber der Inhalt hat sich stark verändert.
- Die Seite existiert, ist aber für einige Nutzer, etwa Menschen mit Sehbehinderung, schwer oder gar nicht lesbar.
Bei der Bewertung des Zustands von Webseiten bleibt Spielraum für Unklarheiten.
- Es gibt Dutzende Fehlerstatuscodes, und bei manchen ist nicht eindeutig, ob es sich um ein dauerhaftes Verschwinden oder eine vorübergehende Störung handelt.
- Viele Websites blockieren aus Sicherheitsgründen automatisierte Datenerfassung.
Deshalb wurde ein möglichst konservativer Maßstab angewendet, und nur neun Fehlercodes, die klar anzeigen, dass die Seite oder der Host-Server nicht mehr existiert oder funktionsunfähig ist, wurden als nicht erreichbar gezählt.
Die vollständige Liste der Fehlercodes steht in der Methodik.

Webseiten-Stichprobe auf Basis von Common Crawl

Die Analyse erfolgte auf Basis des Internet-Archivdiensts Common Crawl, aus dem für jedes Jahr von 2013 bis 2023 zufällig Webseiten gesammelt wurden.
Die Gesamtstichprobe umfasste knapp 1 Million Webseiten, mit jeweils rund 90.000 pro Jahr.
Im Oktober 2023 waren 25 % der gesamten Stichprobe aus den Jahren 2013 bis 2023 nicht mehr erreichbar.
Nicht erreichbare Seiten fielen in zwei Kategorien:
- Die einzelne Seite war verschwunden, aber die Root-Domain funktionierte noch: 16 %
- Die gesamte Root-Domain funktionierte nicht mehr: 9 %
Je älter der Snapshot, desto höher war der Anteil nicht erreichbarer Seiten; bei Webseiten von 2013 existierten 38 % nicht mehr.

Defekte Links auf Regierungs-Websites

Für die Analyse von Regierungs-Websites wurden etwa 500.000 Seiten aus dem Common-Crawl-Snapshot von März bis April 2023 als Stichprobe verwendet.
Die Stichprobe umfasste Regierungs-Websites auf Bundes-, Landes- und kommunaler Ebene.
Auf den Regierungs-Webseiten der Stichprobe wurden insgesamt 42 Millionen Links gefunden.
- 86 % davon waren interne Links zu anderen Seiten derselben Website.
- Rund drei Viertel der Regierungs-Webseiten enthielten mindestens einen Link.
- Der Median lag bei 50 Links pro Seite.
- Die oberen 10 % der Seiten enthielten 190 Links, die oberen 1 % sogar 740.
Auch die Form der Links wurde untersucht.
- Die meisten führten zu sicheren HTTP-Seiten, die mit https:// beginnen.
- 6 % verwiesen auf statische Dateien wie PDFs.
- 16 % leiteten auf eine andere URL weiter als die ursprünglich angegebene.
Bei der Überprüfung der Links zeigte sich, dass 6 % der Links auf Regierungs-Websites nicht mehr erreichbar waren.
21 % aller untersuchten Regierungs-Webseiten enthielten mindestens einen defekten Link.
- Der Anteil nicht funktionierender interner und externer Links war ähnlich.
- Auf allen Regierungsebenen hatten mindestens 14 % der Seiten defekte Links.
- Seiten von Stadtverwaltungen wiesen den höchsten Anteil defekter Links auf.

Defekte Links auf Nachrichten-Websites

Für die Analyse von Nachrichten-Websites wurden rund 500.000 Seiten von 2.063 Websites als Stichprobe verwendet, die comScore als „News/Information“ klassifiziert.
Die Seiten wurden aus dem Common-Crawl-Snapshot von März bis April 2023 entnommen.
Die Stichprobe der Nachrichten-Websites enthielt mehr als 14 Millionen Links zu externen Websites.
- Interne Links wurden nicht erfasst oder auf ihre Funktion geprüft.
- 94 % der Nachrichtenseiten enthielten mindestens einen externen Link.
- Der Median lag bei 20 Links pro Seite.
- Die oberen 10 % der Seiten nach Linkanzahl enthielten 56 Links.
Die meisten Links auf Nachrichten-Websites führten zu sicheren HTTP-Seiten, die mit https:// beginnen.
- Rund 12 % verwiesen auf statische Dateien wie PDFs.
- 32 % wurden auf eine andere URL als die ursprüngliche weitergeleitet.
- Bei externen Links auf Regierungs-Websites lag die Weiterleitungsquote bei 39 %.
Bei der Nachverfolgung der Links auf Nachrichten-Websites waren 5 % aller Links nicht mehr erreichbar.
23 % der Nachrichten-Seiten in der Stichprobe enthielten mindestens einen defekten Link.
- Unter den Seiten der nach Traffic größten 20 % der Nachrichten-Websites enthielten 25 % mindestens einen defekten Link.
- Unter den Seiten der nach Traffic kleinsten 20 % der Nachrichten-Websites enthielten 26 % mindestens einen defekten Link.
- Je nach Größe des Traffics gab es kaum Unterschiede beim Anteil defekter Links.

Wikipedia-Links in den Quellenangaben

Für die Analyse wurden 50.000 English-Wikipedia-Seiten zufällig ausgewählt und die Links im Abschnitt „References“ geprüft.
82 % der Seiten in der Stichprobe enthielten mindestens einen Quellenlink zu einer externen Webseite außerhalb von Wikipedia.
Insgesamt enthielt die Stichprobe etwas mehr als 1 Million Quellenlinks.
Eine typische Seite hatte 4 Quellenlinks.
11 % aller Wikipedia-Quellenlinks waren nicht mehr erreichbar.
Bei etwa 2 % der ursprünglichen Seiten mit Quellenlinks waren alle Links defekt oder nicht erreichbar.
Weitere 53 % der Seiten enthielten mindestens einen defekten Link.

Das Verschwinden von Posts auf X/Twitter

Für die Social-Media-Analyse wurden auf X, damals noch Twitter, zwischen dem 8. März und dem 27. April 2023 in Echtzeit rund 5 Millionen öffentliche Posts gesammelt.
Dafür wurde die Twitter Streaming API verwendet; alle 30 Minuten wurden 3.000 öffentliche Posts erfasst.
Die Nachverfolgung lief bis zum 15. Juni 2023 weiter, und täglich wurde geprüft, ob jeder Post auf der Plattform noch zugänglich war.
Am Ende des Beobachtungszeitraums waren 18 % der ursprünglich gesammelten Posts nicht mehr öffentlich sichtbar.
- Bei 60 % lag der Grund darin, dass der Account des ursprünglichen Verfassers privat gestellt, gesperrt oder gelöscht worden war.
- Bei 40 % bestand der Account noch, aber der einzelne Post war gelöscht worden.

Merkmale von Posts, die häufiger verschwanden

Posts in bestimmten Sprachen verschwanden häufiger.
- Bei türkischen Posts war bis zum Ende der Nachverfolgung fast die Hälfte nicht mehr erreichbar.
- Arabische Posts verschwanden mit einer etwas niedrigeren Quote.
- Zusammengefasst wurden mehr als 40 % der türkischen oder arabischen Posts innerhalb von drei Monaten unsichtbar.
Auch Posts von Accounts mit Standard-Profileinstellungen verschwanden häufiger.
- Bei Accounts mit Standard-Profilbild war mehr als die Hälfte der Posts nicht mehr erreichbar.
- Bei Accounts mit dem Standardfeld für die Selbstbeschreibung war mehr als ein Drittel der Posts nicht mehr erreichbar.
- Bei diesen Accounts verschwanden Posts eher wegen gelöschter Accounts oder einer Umstellung auf privat als wegen der Löschung einzelner Posts.
Auch Posts nicht verifizierter Accounts wurden eher gelöscht oder entfernt.
Verschwundene Posts stammten tendenziell von neueren Accounts mit vergleichsweise wenigen Followern und mäßiger Aktivität.
- Die Accounts, die unsichtbar gewordene Posts veröffentlichten, waren im Durchschnitt etwa 8 Monate jünger als die Accounts mit weiterhin sichtbaren Posts.
Bei Retweets, zitierten Posts und Original-Posts gab es keine großen Abweichungen vom Gesamtdurchschnitt.
Antworten wurden vergleichsweise seltener entfernt; ihr Anteil nicht erreichbarer Posts lag am Ende der Nachverfolgung bei 12 %.

Wie schnell Posts verschwinden und wieder auftauchen

Die meisten entfernten Posts verschwanden relativ schnell nach der Veröffentlichung.
Laut Überlebensanalyse wurden Posts zu folgenden Zeitpunkten entfernt:
- Innerhalb von 1 Stunde nach der Veröffentlichung: 1 %
- Innerhalb eines Tages: 3 %
- Innerhalb einer Woche: 10 %
- Innerhalb eines Monats: 15 %
Die Hälfte der letztlich entfernten Posts war innerhalb von 6 Tagen nach Veröffentlichung nicht mehr erreichbar.
90 % der letztlich entfernten Posts waren innerhalb von 46 Tagen nach Veröffentlichung nicht mehr erreichbar.
Posts verschwinden nicht immer dauerhaft.
- 6 % der gesammelten Posts verschwanden zunächst und waren später wieder zugänglich.
- Ursache kann sein, dass ein Account zunächst privat war und später wieder öffentlich wurde oder nach einer Sperrung wiederhergestellt wurde.
- 90 % der wieder aufgetauchten Posts waren am Ende der Nachverfolgung auf Twitter weiterhin zugänglich.

1 Kommentare

GN⁺ 2024-05-20

Meinungen auf Hacker News

Ein größeres Problem als die Tatsache, dass 38 % der Webseiten verschwunden sind, ist, dass viele Organisationen, Gruppen und Unternehmen inzwischen fast nur noch Facebook-Seiten nutzen und außerhalb von Facebook keine Webpräsenz haben.
Um mit ihnen zu interagieren, braucht man am Ende zwingend ein Facebook-Konto.
- Bei Foren ist es genauso gekommen.
  Inzwischen ist alles in Subreddits, Facebook-Gruppen und Discord-Chats gewandert, und es ist wirklich schade, dass wertvolle Informationen in solchen Gruppen verborgen sind.
- Ich nutze Facebook nur, um mit weit verstreuten Familienmitgliedern in Kontakt zu bleiben.
  Etwa einmal am Tag schaue ich, was los ist; wenn man ein Konto hat, macht dieser Link das deutlich einfacher: https://www.facebook.com/?filter=friends
- Ich frage mich, ob es tatsächlich Unternehmen von einiger Größe gibt, die nur Facebook nutzen.
  Die lokalen Unternehmen in meiner Umgebung haben ziemlich viele Informationen in Google Maps, und selbst wenn ihre Websites meist veraltet sind, klärt sich das, was man wissen will, wenn man direkt anruft.
- 38 % des alten Webs waren vielfältige Räume, mit weniger versteckten Absichten und von Amateuren im besten Sinne geschaffen.
  Heute ist das Web viel größer, aber auch viel homogener; dieser Anteil liegt wahrscheinlich eher bei 0,00001 %, und ich halte Web-1.0-Sites für besser als die heutigen geschlossenen „Gruppenseiten“.
- Ich war einmal in einem Restaurant, das seine digitale Speisekarte nur auf Facebook gestellt hatte.
  Als ich sagte, dass ich Facebook nicht nutze, sah man mich an, als wäre ich ein seltsamer Mensch.
Trotzdem bemühen sich ordentliche Websites zumindest ein wenig darum, alte Inhalte zu bewahren.
Zum Beispiel sind die Berichtsseiten von CNN und BBC zu den Anschlägen vom 11. September noch vorhanden: http://news.bbc.co.uk/hi/english/static/in_depth/americas/20...
http://edition.cnn.com/SPECIALS/2001/trade.center/index.html
Man kann kaum erwarten, dass viele Links noch richtig funktionieren, aber es ist schon interessant, einfach zu sehen, wie das frühere Web aussah.
- Einige interaktive Elemente alter BBC-Wahlberichterstattung funktionieren auch heute noch weitgehend.
  Es ist schwer vorstellbar, dass viele heutige Sites in 20 Jahren noch so erhalten sein werden; nicht, weil es technisch unmöglich wäre, sondern es wirkt ähnlich wie die verschlechterte Qualität des Schreibens nach der Erfindung der Textverarbeitung.
  Heute ist alles verwaltet und strukturiert; es fühlt sich an, als seien die Freiheit und der Spielraum verschwunden, die es ermöglichten, auf schwer erklärbare Weise Gutes zu schaffen.
Wer Bemühungen unterstützen möchte, nicht nur alte, sondern viele Inhalte zu bewahren, kann dem Internet Archive (archive.org) ein paar Pfund spenden.
Außerdem sollte man von Dingen, die man für wertvoll hält, möglichst lokale Kopien anlegen, für den Fall, dass sie eines Tages verschwinden.
Ein beträchtlicher Teil der technischen Seiten in meiner Lesezeichendatei, die ich seit über 20 Jahren von Installation zu Installation mitnehme, verweist inzwischen auf die letzte vollständige Sicherung kurz bevor die ursprüngliche Seite verschwand.
Das Internet Archive ist ein enormer Nutzen für alle.
- Mir ist klar geworden, dass ich Lesezeichen viel zu exzessiv nutze.
  Wenn ich jetzt später aufschlussreiche Artikel, technische Informationen, Humor oder ähnliche Inhalte wiederfinden möchte, speichere ich die Webseite als PDF oder Ähnliches.
  Lesezeichen eignen sich nur für Dinge, bei denen es sinnvoll ist, stets auf die aktuelle Version zuzugreifen: Bank-Websites, Shopping-Sites, Remote-Desktop-Systeme der Firma und Ähnliches.
- Ich wünschte, das Internet Archive würde in zwei unabhängige Einheiten aufgeteilt.
  Eine würde einfach Websites bewahren, die andere den Rest übernehmen, etwa aggressive Tests von geistigen Eigentumsrechten bei E-Books oder Videospielen.
  So könnte die Website-Archivierung weiterbestehen, selbst wenn die „andere Seite“ durch Klagen zu Fall gebracht wird. Für Ersteres spende ich auch, weil es ein wichtiger Dienst für die Menschheit ist, aber ich mache mir Sorgen um die Zukunft.
Ich betreibe seit 2019 eine Nachrichten-Website.
Jede Stunde sucht ein Crawler nach toten Links, und ungefähr einen pro Tag ersetze ich durch einen archive.org-Link.
Am lustigsten ist es, wenn am Tag nach einer Wahl die Websites der Kandidaten plötzlich alle leere Seiten sind; am traurigsten sind Regierungs-Websites, die jede Woche zwischen 3 und 5 Uhr morgens offline gehen.
- Interessant — prüft dieser Crawler stündlich alle Links oder läuft er in aufgeteilten Batches?
Ich war eher überrascht, dass der Wert nicht höher ist.
2013 lag die Ära der Hobbyseiten des frühen Internets schon weit zurück, und die meisten neuen Sites dienten geschäftlichen Zwecken.
Wenn man die Lebensdauer von Unternehmen bedenkt, hätte ich erwartet, dass nach elf Jahren deutlich mehr Sites verschwunden sind.
Vielleicht fällt ein großer Anteil darauf, dass viele Community-Building-Räume wie Angelfire und Geocities gestorben sind.
Besonders interessant wäre wohl eine Grafik dazu, wie lange Websites bestehen. Frühe Inhalte sind noch ziemlich zahlreich erhalten, und ich vermute, dass der Höhepunkt des Site-Sterbens ungefähr zwischen 2008 und 2018 lag.
- Ein großer Teil der frühen Inhalte lag auf Plattformen, die schon vor langer Zeit gestorben sind.
  Zum Beispiel Geocities, von Universitäten bereitgestellte FTP-Ordner, die nach dem Abschluss gelöscht wurden, sowie von ISPs wie Earthlink, Juno oder Comcast bereitgestellte FTP-Ordner; die meisten davon sind wahrscheinlich gelöscht worden.
Ich hoffe, dass nicht alles für immer erhalten bleibt.
Vor Kurzem bin ich zufällig auf meine erste .com aus den 90ern gestoßen; sie wurde bei Angelfire gehostet, archive.org hatte sie gewissenhaft erneut archiviert, und das Ergebnis war genau, wie man es sich vorstellt.
Es war eine Webseite, die ich in der vierten Klasse mit einem Freund gemacht hatte; nach damaligen Maßstäben war sie okay, aber nach heutigen Maßstäben gab es dort Inhalte, die selbst mit Kontext nicht in Ordnung waren.
Es war nichts Furchtbares, eher geschmacklose Dinge, die aus der naiven Ahnungslosigkeit von Grundschülern der 90er entstanden waren. Wahrscheinlich wird es nie ganz aus meinem Gewissen verschwinden, also muss ich einfach damit leben und hoffen, dass es niemand sieht.
- Ich habe ähnliches Material.
  Falls es ein Trost ist: Wir waren alle einfach Kinder oder Jugendliche und dabei, die Welt kennenzulernen.
  Die Generationen nach uns tun mir noch mehr leid, weil sie aufgewachsen sind, nachdem das Internet zugänglicher und manchmal auch dauerhafter geworden war.
- Ich verstehe diesen Schmerz.
  Zum Glück nimmt auch das Archive manchmal Material herunter.
Alles im Internet ist im Kern vergänglich.
Es ist besser, das zu akzeptieren, als dagegen anzukämpfen; wenn man etwas aufbewahren möchte, sollte man eine Offline-Kopie erstellen.
PDF/A, insbesondere die Versionen -1 und -2, ist ein ausdrücklich für die Langzeitarchivierung entwickeltes Format und eignet sich gut für statische Inhalte.
Schade ist allerdings, dass Mirroring nicht leichter in den Web-Stack, also HTTP/HTML, eingebaut ist. Wenn man Links einfach mit einer lokalen Kopie als Alternativpfad hätte versehen können, wäre Link Rot deutlich weniger besorgniserregend.
Die Art, wie Wikipedia alles über archive.org verlinkt, wirkt auf mich persönlich ein wenig wie ein Provisorium.
Ehrlich gesagt überrascht es mich, dass der Wert so niedrig ist.
Der Großteil des Webs wirkt heutzutage wie Suchmaschinenoptimierungs-Müll.
- Manchmal experimentiert man mit etwas, stellt eine kleine Website online, vergisst sie, und wenn man sie irgendwann nicht mehr für relevant hält, nimmt man sie wieder offline.
  Das ist an sich nichts Schlechtes.
  Trotzdem ist es großartig, dass es Dinge wie Webarchive gibt, die unser kollektives Gedächtnis für wertvolle Inhalte bewahren.
  Ich wünsche mir besonders, dass genaue Aufzeichnungen, die zum Zeitpunkt eines Ereignisses entstanden sind, irgendwo erhalten bleiben, wo sie später nicht verändert werden können. Heutzutage scheint es beliebt zu sein, Geschichte umzuschreiben; die damaligen Originalaufzeichnungen zu bewahren, kann dem entgegenwirken.
  Selbst wenn diese Aufzeichnungen nicht vollständig korrekt waren, helfen sie zu verstehen, was die damaligen Akteure für wahr hielten.
- Manche Dinge existieren weiterhin, werden aber einfach nicht mehr bei Google angezeigt.
Ich sehe das als ein gravierendes Versagen des Internets, das wir collectively besser hätten vermeiden müssen.
In den meisten Fällen existiert der Inhalt selbst wahrscheinlich noch irgendwo, nur die Links sind kaputt.
Ein zweistufiges System wie das DOI-System in Bibliotheken könnte in solchen Fällen helfen: https://nuim.libguides.com/referencing/DigitalObjectIdentifi...
Um die Nützlichkeit und Bequemlichkeit von URLs zu erhalten, müsste das allerdings automatisch passieren; ich bin mir nur nicht sicher, wie das möglich wäre.
Das ist kein Bug, sondern ein Feature.
Es wäre schrecklich, in einer Welt zu leben, die weder vergisst noch vergibt.
Ich finde es auch gut, dass es einen gewissen Aufwand erfordert, wertvolle Inhalte zu bewahren. So wird ihr Wert stärker anerkannt.
- Eine „Welt, die weder vergisst noch vergibt“ ist ein separates Problem und vor allem eine Frage der Privatsphäre.
  Die Logik, dass „wertvolle Inhalte erst dann mehr Wertschätzung erfahren, wenn ihre Bewahrung Aufwand erfordert“, klingt fast wie die Behauptung, dass alles teuer sein sollte.
  Nach dem Motto: Billiger Speicher ist schlecht, weil wir dadurch den Wert von Dateien nicht mehr anerkennen, und teure medizinische Versorgung ist gut, weil sie uns den Wert von Organen bewusst macht.
  Der schwierige Teil ist vorherzusehen, welche Inhalte in Zukunft als wertvoll gelten werden. Bisher hat keine menschliche Zivilisation das wirklich hinbekommen; meist konzentrierte man sich darauf, zu bewahren, wie großartig die Könige waren.
- An dem Tag, an dem Apple NeXT übernahm, las ich irgendwo im Internet einen sehr witzigen Text.
  Er begann mit „Kinder des Macintosh, kniet nieder vor Unix …“ und behielt durchgehend einen biblischen Stil bei, während er erklärte, warum der Mac von NeXT erobert worden war.
  Es war ein wirklich großartiger Text, und manchmal versuche ich, ihn im Internet wiederzufinden; aber wenn man nicht weiß, was verschwunden ist, ist es schwer, es zu erkennen.
- Wo, glaubst du, haben wir in den letzten 5.000 Jahren gelebt?
  Es gibt Keilschrift-Tontafeln, die aus den Müllhaufen von Ur ausgegraben wurden, und dank ihnen ist zumindest das wenige Wissen erhalten geblieben, das wir über Sumer haben.
  Die Erfindung der Schrift machte Vergessen unmöglich, und Anthropologen wie Jack Goody, James Carey, David Olson und Barry Powell sowie Autoren wie Walter Ong haben das eingehend untersucht.
  Wir leben tatsächlich größtenteils in einer schrecklichen Welt, die in der Vergangenheit gefangen ist, und kulturelle Komplexität schichtet sich wie Zwiebelschalen übereinander.
  Jeder kann in die Vergangenheit zurückblicken und sich nach ihr sehnen, aber die Vergangenheit, die man über gespeichertes Wissen erfährt, bedeutet für Menschen, die sie nicht selbst erlebt haben, jeweils etwas anderes.
  Seit dem Buchdruck leben wir in einer anhaltenden Informationsinflation. Mittelalterliche Gelehrte beklagten, dass durch den Buchdruck jeder Bücher lesen und schreiben könne; Scholastiker waren vom Aufstieg der Volkssprachen schockiert, und Michelangelo beschwerte sich über die leere Kunst flämischer Maler.
  Entscheidend ist hier die Geschwindigkeit, mit der Verfall eintritt. Der Artikel sagt, dass 38 % der 2013 existierenden Websites verschwunden sind – und das in nur 10 Jahren.
  Wir wissen nicht, wie viel davon Rauschen war und wie viel nützliche Information oder zumindest interessante Inhalte waren. Sie sind ja bereits verschwunden.
  Wir wissen auch nicht, wie viel große Web-Scraper gespeichert haben oder wie viel Google oder Twitter aufbewahren.
  Wie definiert man wertvolle Inhalte? Ist es ein Tweet mit einer halb nackten Schauspielerin und einer Million Aufrufen oder ein Tweet über eine bedeutende Entdeckung mit 300 Aufrufen?
  Als das Internet die Gatekeeper in Form der Redakteure von Zeitungen, Büchern, Zeitschriften, Fernsehen und Radio niedergerissen hat, waren wir grenzenlos begeistert; doch in der Folge wurden wir von Rauschen, Verschwörungstheorien, Memes, TikTok und Ähnlichem überrollt.
  Das Problem ist, dass wir die gewaltige Informationsmenge, die auf uns einströmt, kaum bewältigen können, dass es zu viele Menschen gibt und die Geschmäcker zu unterschiedlich sind, als dass wir uns leicht darauf einigen könnten, was wertvoll ist und was nicht.
  Das von dir genannte „Feature“ mag so beabsichtigt sein, aber das heißt nicht, dass es nützlich oder moralisch richtig ist.

38 % der im Jahr 2013 existierenden Webseiten waren zehn Jahre später nicht mehr erreichbar

Webseiten, die innerhalb von zehn Jahren verschwanden

Kriterien für die Einstufung als nicht erreichbar

Webseiten-Stichprobe auf Basis von Common Crawl

Defekte Links auf Regierungs-Websites

Defekte Links auf Nachrichten-Websites

Wikipedia-Links in den Quellenangaben

Das Verschwinden von Posts auf X/Twitter

Merkmale von Posts, die häufiger verschwanden

Wie schnell Posts verschwinden und wieder auftauchen

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News