38 % der im Jahr 2013 existierenden Webseiten sind zehn Jahre später nicht mehr zugänglich
(pewresearch.org)-
Die enorme Größe des Internets und das Verschwinden von Inhalten
- Das Internet mit seinen zig Milliarden Webseiten ist ein riesiger Speicher des modernen Lebens.
- Doch Inhalte, auf die Nutzer angewiesen sind, verschwinden mitunter.
- Eine neue Analyse des Pew Research Center zeigt, wie flüchtig Online-Inhalte sind.
- Ein Viertel aller Webseiten, die zwischen 2013 und 2023 existierten, war Stand Oktober 2023 nicht mehr zugänglich.
- Das liegt meist daran, dass bestimmte Webseiten gelöscht oder entfernt wurden.
-
Digitale Verfallserscheinungen
- Untersucht wurden Regierungs- und Nachrichtenwebsites sowie die Abschnitte „Referenzen“ auf Wikipedia-Seiten.
- 23 % der Nachrichtenseiten enthalten mindestens einen defekten Link.
- 21 % der Regierungswebsites enthalten mindestens einen defekten Link.
- 54 % der Wikipedia-Seiten enthalten Links zu Seiten, die nicht mehr existieren.
- Untersucht wurden Regierungs- und Nachrichtenwebsites sowie die Abschnitte „Referenzen“ auf Wikipedia-Seiten.
-
Digitale Verfallserscheinungen in sozialen Medien
- Im Frühjahr 2023 wurde auf der Social-Media-Plattform X (damals Twitter) eine Echtzeitstichprobe von Tweets gesammelt und über drei Monate verfolgt.
- Etwa ein Fünftel der Tweets ist wenige Monate nach der Veröffentlichung nicht mehr öffentlich sichtbar.
- In 60 % dieser Fälle wurde das Konto, das den ursprünglichen Tweet veröffentlicht hatte, privat gestellt, gesperrt oder vollständig gelöscht.
- In den übrigen 40 % existiert das Konto noch, aber der einzelne Tweet wurde gelöscht.
- Im Frühjahr 2023 wurde auf der Social-Media-Plattform X (damals Twitter) eine Echtzeitstichprobe von Tweets gesammelt und über drei Monate verfolgt.
-
Private Links und die Definition von Webseiten
- Es gibt mehrere Definitionen für Seiten, die einst im Internet existierten, heute aber nicht mehr zugänglich sind.
- Die Seite existiert nicht mehr auf dem Host-Server oder der Host-Server selbst existiert nicht mehr.
- Die Seitenadresse existiert noch, aber der Inhalt wurde verändert.
- Die Seite existiert, ist aber für bestimmte Nutzer schwer lesbar, etwa für sehbehinderte Menschen.
- Dieser Bericht konzentriert sich auf die erste Definition: Seiten, die nicht mehr existieren.
- Es gibt mehrere Definitionen für Seiten, die einst im Internet existierten, heute aber nicht mehr zugänglich sind.
-
Webseiten im vergangenen Jahrzehnt
- Aus dem Common-Crawl-Archiv wurde eine zufällige Stichprobe von rund 1 Million Webseiten gezogen.
- 25 % aller von 2013 bis 2023 erfassten Seiten waren Stand Oktober 2023 nicht mehr zugänglich.
- 38 % der im Jahr 2013 erfassten Seiten waren 2023 nicht mehr zugänglich.
- Aus dem Common-Crawl-Archiv wurde eine zufällige Stichprobe von rund 1 Million Webseiten gezogen.
-
Links auf Regierungswebsites
- Es wurde eine Stichprobe von rund 500.000 Seiten auf Regierungswebsites verwendet, die im März/April 2023 erfasst wurden.
- 86 % der Seiten enthalten interne Links, und 6 % davon waren nicht mehr zugänglich.
- Insgesamt enthielten 21 % der untersuchten Regierungswebseiten mindestens einen defekten Link.
- Es wurde eine Stichprobe von rund 500.000 Seiten auf Regierungswebsites verwendet, die im März/April 2023 erfasst wurden.
-
Links auf Nachrichtenwebsites
- Es wurde eine Stichprobe von rund 500.000 Seiten auf Nachrichtenwebsites verwendet, die im März/April 2023 erfasst wurden.
- 94 % der Nachrichtenseiten enthalten mindestens einen externen Link, und 23 % der Seiten enthalten mindestens einen defekten Link.
- Es wurde eine Stichprobe von rund 500.000 Seiten auf Nachrichtenwebsites verwendet, die im März/April 2023 erfasst wurden.
-
Referenzlinks auf Wikipedia
- 50.000 englischsprachige Wikipedia-Seiten wurden zufällig als Stichprobe ausgewählt.
- 82 % der erfassten Seiten enthalten mindestens einen Referenzlink, und 11 % dieser Referenzlinks waren nicht mehr zugänglich.
- 50.000 englischsprachige Wikipedia-Seiten wurden zufällig als Stichprobe ausgewählt.
-
Beiträge auf Twitter
- Im Frühjahr 2023 wurden 5 Millionen Tweets gesammelt und über drei Monate verfolgt.
- 18 % der erfassten Tweets waren am Ende des Beobachtungszeitraums nicht mehr öffentlich sichtbar.
- Bei 60 % der gelöschten Tweets wurde das Konto privat gestellt, gesperrt oder gelöscht.
- 1 % der Tweets werden innerhalb einer Stunde gelöscht, 3 % innerhalb eines Tages, 10 % innerhalb einer Woche und 15 % innerhalb eines Monats.
- Im Frühjahr 2023 wurden 5 Millionen Tweets gesammelt und über drei Monate verfolgt.
-
Überlebensanalyse von Tweets
- Die Hälfte der verschwundenen Tweets verschwindet innerhalb der ersten sechs Tage nach der Veröffentlichung.
- 90 % der Tweets sind innerhalb von 46 Tagen nach der Veröffentlichung nicht mehr zugänglich.
- 6 % der Tweets, die gelöscht wurden, später aber wieder öffentlich waren, existieren ebenfalls.
1 Kommentare
Hacker-News-Meinung
Zusammenfassung ausgewählter Hacker-News-Kommentare
Probleme mit Facebook-Seiten
Archivierungsbemühungen
Unterstützung des Internet Archive
Erfahrung beim Betrieb einer News-Website
Grafik zur Lebensdauer von Websites
Probleme alter Websites
Vergänglichkeit des Internets
SEO-Probleme
Problem kaputter Links
Wichtigkeit von Vergessen und Vergebung