1 Punkte von GN⁺ 2024-05-20 | 1 Kommentare | Auf WhatsApp teilen
  • Die enorme Größe des Internets und das Verschwinden von Inhalten

    • Das Internet mit seinen zig Milliarden Webseiten ist ein riesiger Speicher des modernen Lebens.
    • Doch Inhalte, auf die Nutzer angewiesen sind, verschwinden mitunter.
    • Eine neue Analyse des Pew Research Center zeigt, wie flüchtig Online-Inhalte sind.
      • Ein Viertel aller Webseiten, die zwischen 2013 und 2023 existierten, war Stand Oktober 2023 nicht mehr zugänglich.
      • Das liegt meist daran, dass bestimmte Webseiten gelöscht oder entfernt wurden.
  • Digitale Verfallserscheinungen

    • Untersucht wurden Regierungs- und Nachrichtenwebsites sowie die Abschnitte „Referenzen“ auf Wikipedia-Seiten.
      • 23 % der Nachrichtenseiten enthalten mindestens einen defekten Link.
      • 21 % der Regierungswebsites enthalten mindestens einen defekten Link.
      • 54 % der Wikipedia-Seiten enthalten Links zu Seiten, die nicht mehr existieren.
  • Digitale Verfallserscheinungen in sozialen Medien

    • Im Frühjahr 2023 wurde auf der Social-Media-Plattform X (damals Twitter) eine Echtzeitstichprobe von Tweets gesammelt und über drei Monate verfolgt.
      • Etwa ein Fünftel der Tweets ist wenige Monate nach der Veröffentlichung nicht mehr öffentlich sichtbar.
      • In 60 % dieser Fälle wurde das Konto, das den ursprünglichen Tweet veröffentlicht hatte, privat gestellt, gesperrt oder vollständig gelöscht.
      • In den übrigen 40 % existiert das Konto noch, aber der einzelne Tweet wurde gelöscht.
  • Private Links und die Definition von Webseiten

    • Es gibt mehrere Definitionen für Seiten, die einst im Internet existierten, heute aber nicht mehr zugänglich sind.
      • Die Seite existiert nicht mehr auf dem Host-Server oder der Host-Server selbst existiert nicht mehr.
      • Die Seitenadresse existiert noch, aber der Inhalt wurde verändert.
      • Die Seite existiert, ist aber für bestimmte Nutzer schwer lesbar, etwa für sehbehinderte Menschen.
    • Dieser Bericht konzentriert sich auf die erste Definition: Seiten, die nicht mehr existieren.
  • Webseiten im vergangenen Jahrzehnt

    • Aus dem Common-Crawl-Archiv wurde eine zufällige Stichprobe von rund 1 Million Webseiten gezogen.
      • 25 % aller von 2013 bis 2023 erfassten Seiten waren Stand Oktober 2023 nicht mehr zugänglich.
      • 38 % der im Jahr 2013 erfassten Seiten waren 2023 nicht mehr zugänglich.
  • Links auf Regierungswebsites

    • Es wurde eine Stichprobe von rund 500.000 Seiten auf Regierungswebsites verwendet, die im März/April 2023 erfasst wurden.
      • 86 % der Seiten enthalten interne Links, und 6 % davon waren nicht mehr zugänglich.
      • Insgesamt enthielten 21 % der untersuchten Regierungswebseiten mindestens einen defekten Link.
  • Links auf Nachrichtenwebsites

    • Es wurde eine Stichprobe von rund 500.000 Seiten auf Nachrichtenwebsites verwendet, die im März/April 2023 erfasst wurden.
      • 94 % der Nachrichtenseiten enthalten mindestens einen externen Link, und 23 % der Seiten enthalten mindestens einen defekten Link.
  • Referenzlinks auf Wikipedia

    • 50.000 englischsprachige Wikipedia-Seiten wurden zufällig als Stichprobe ausgewählt.
      • 82 % der erfassten Seiten enthalten mindestens einen Referenzlink, und 11 % dieser Referenzlinks waren nicht mehr zugänglich.
  • Beiträge auf Twitter

    • Im Frühjahr 2023 wurden 5 Millionen Tweets gesammelt und über drei Monate verfolgt.
      • 18 % der erfassten Tweets waren am Ende des Beobachtungszeitraums nicht mehr öffentlich sichtbar.
      • Bei 60 % der gelöschten Tweets wurde das Konto privat gestellt, gesperrt oder gelöscht.
      • 1 % der Tweets werden innerhalb einer Stunde gelöscht, 3 % innerhalb eines Tages, 10 % innerhalb einer Woche und 15 % innerhalb eines Monats.
  • Überlebensanalyse von Tweets

    • Die Hälfte der verschwundenen Tweets verschwindet innerhalb der ersten sechs Tage nach der Veröffentlichung.
    • 90 % der Tweets sind innerhalb von 46 Tagen nach der Veröffentlichung nicht mehr zugänglich.
    • 6 % der Tweets, die gelöscht wurden, später aber wieder öffentlich waren, existieren ebenfalls.

1 Kommentare

 
GN⁺ 2024-05-20
Hacker-News-Meinung

Zusammenfassung ausgewählter Hacker-News-Kommentare

  • Probleme mit Facebook-Seiten

    • Viele Organisationen und Unternehmen nutzen nur Facebook-Seiten und haben keine andere Webpräsenz. Ein Facebook-Konto wird zwingend vorausgesetzt.
  • Archivierungsbemühungen

    • Websites wie CNN und BBC bemühen sich darum, ältere Inhalte zu archivieren. Beispiel: Berichterstattung zu den Anschlägen vom 11. September.
  • Unterstützung des Internet Archive

    • Es ist sinnvoll, an das Internet Archive (archive.org) zu spenden, um die Bewahrung älterer Inhalte zu unterstützen. Wichtige Inhalte sollte man außerdem lokal kopieren.
  • Erfahrung beim Betrieb einer News-Website

    • Seit 2019 wird eine News-Website betrieben, bei der stündlich per Crawler tote Links gefunden und durch Archivlinks ersetzt werden. Am Tag nach Wahlen verschwinden häufig die Websites von Kandidaten.
  • Grafik zur Lebensdauer von Websites

    • Es ist zu erwarten, dass seit 2013 viele Websites verschwunden sind. Besonders das Verschwinden von Community-Seiten wie Angelfire und Geocities hat große Auswirkungen. Eine Grafik zur Lebensdauer von Websites wäre interessant.
  • Probleme alter Websites

    • Jemand hat seine erste .com-Website wiedergefunden, die in den 90ern bei Angelfire gehostet wurde. Damals war sie akzeptabel, nach heutigen Maßstäben enthält sie jedoch vieles Unangemessene.
  • Vergänglichkeit des Internets

    • Man sollte die grundlegende Vergänglichkeit des Internets akzeptieren. Wer archivieren will, sollte Offline-Kopien anlegen. Das Format PDF/A eignet sich gut für die Archivierung.
  • SEO-Probleme

    • Ein Großteil des heutigen Webs ist voller SEO-Spam.
  • Problem kaputter Links

    • Das ist ein großes Problem des Internets: Inhalte existieren oft noch, aber die Links funktionieren nicht mehr. Ein zweistufiges System wie das DOI-System in Bibliotheken könnte helfen.
  • Wichtigkeit von Vergessen und Vergebung

    • Eine Welt, in der alles für immer erhalten bleibt, wäre schrecklich. Umso wichtiger ist es, wertvolle Inhalte bewusst zu bewahren, wodurch ihr Wert noch stärker geschätzt wird.