1 Billionen Webseiten im Internet Archive gespeichert

(blog.archive.org)

4 Punkte von GN⁺ 2025-10-07 | 1 Kommentare | Auf WhatsApp teilen

Die von Internet Archive betriebene Wayback Machine hat mit der Archivierung von 1 Billion Webseiten weltweit einen historischen Meilenstein erreicht
Das 1996 gestartete Projekt ist eine kollaborative Initiative zur Bewahrung des kollektiven Gedächtnisses des Webs und archiviert vielfältige Inhalte wie Nachrichten, Blogs und persönliche Homepages
Aus diesem Anlass findet im Oktober in San Francisco und online eine Reihe von Veranstaltungen mit Konzerten, Gesprächen, Foren und einem Open House statt
An den Veranstaltungen nehmen Internetpioniere wie Web-Erfinder Tim Berners-Lee, Internet-Archive-Gründer Brewster Kahle und Vint Cerf von Google teil
Diese Leistung unterstreicht den Wert der Bewahrung kollektiver Aufzeichnungen im digitalen Zeitalter und dient als Anlass, gemeinsam über die Zukunft eines freien und offenen Webs zu diskutieren

Die Bedeutung des Meilensteins von 1 Billion Seiten für das Internet Archive

Die Wayback Machine sammelt und bewahrt seit 1996 automatisch Websites aus aller Welt, damit jeder das frühere Web erkunden kann
Das Erreichen von 1 Billion Einträgen ist ein bedeutender Fortschritt auf dem Weg zum Ziel einer „gemeinsamen Bibliothek der Online-Geschichte der Menschheit“
Das Projekt wird durch globale Zusammenarbeit mit Bibliotheken, Forschungseinrichtungen und einzelnen Freiwilligen aufrechterhalten
Das Archiv bewahrt Spuren des Webs, die sonst verschwinden könnten — von Schlagzeilen über Blogs und Foren bis zu persönlichen Homepages — als digitales Gedächtnis für künftige Generationen

Veranstaltungsplan im Oktober

7. Oktober — The Vast Blue We: Del Sol Quartet at the Internet Archive

In der Zentrale in San Francisco findet eine Aufführung statt, bei der das Del Sol Quartet mit Musik die Größe menschlicher Zusammenarbeit feiert
Aufgeführt werden neue Kompositionen von Erika Oba und Sam Reider
- Die Musik bringt die Schönheit der Web-Kollaboration zum Ausdruck, die aus den Handlungen von Milliarden Menschen entstanden ist

9. Oktober — Gespräch zwischen Sir Tim Berners-Lee und Brewster Kahle

Diskussion zwischen dem Erfinder des World Wide Web, Sir Tim Berners-Lee, und dem Gründer des Internet Archive, Brewster Kahle
Besprochen werden verschiedene Themen wie das Wachstum des Internets, gesellschaftlicher Wandel und die Rolle des Internet Archive
Die Veranstaltung besteht aus einem vertiefenden Gespräch über die fortlaufende Entwicklung des Internets und zukünftige Streitfragen
Durchführung im Commonwealth Club in San Francisco sowie im Online-Livestream

16. Oktober — Library Leaders Forum 2025 (online)

Vorstellung neuer Bibliotheksdienste von Internet Archive und seinen Partnerorganisationen sowie ein Überblick über bestehende Projekte
Bibliotheksleiter aus aller Welt diskutieren die Zukunft digitaler Bewahrung und Forschungsunterstützung
Präsentation neuer Services des Internet Archive und von Beispielen zur Forschungsförderung

21. Oktober — Doors Open 2025: Tour durch das physische Archiv

Im physischen Archiv in Richmond, California werden die tatsächlichen Aufbewahrungsbedingungen für Bücher, Musik, Videos und Filme gezeigt
Demonstration des Archivierungsprozesses physischer Materialien wie Bücher, Musik, Filme und Mikrofiche
Gelegenheit, den gesamten Lebenszyklus physischer Materialien — von Spende, Bewahrung und Digitalisierung bis zur Zugänglichkeit — direkt zu erleben

22. Oktober — The Web We’ve Built: 1 Trillion Celebration

Offizielle Jubiläumsveranstaltung zur Erreichung von 1 Billion Webseiten in der Wayback Machine
Parallel dazu findet in der Zentrale in San Francisco eine globale Streaming-Party statt
Unter dem Motto „1 Billion bewahrte Erinnerungen, Momente und Bewegungen“ wird die
Bedeutung des offenen Webs und die Kraft kollektiver Aufzeichnungen gefeiert

27. Oktober — Wayback to the Future: Celebrating the Open Web

Veranstaltung in der Riggs Library der Georgetown University in Washington, D.C.
Gemeinsame Ausrichtung durch die Foundation for American Innovation, Massive Data Institute und Internet Archive
Rückblick auf die Werte des früheren offenen und experimentellen Webs sowie Diskussion über die Nachhaltigkeit eines freien Internet-Ökosystems und die Zukunft des Webs angesichts aktueller Tendenzen zu Zentralisierung und Abschottung
Mit Sprecherinnen und Sprechern wie Vint Cerf (Google), Cindy Cohn (EFF) und Jon Stokes (Ars Technica)

Die Zukunft des digitalen Gedächtnisses

Die Archivierung von 1 Billion Webseiten bedeutet mehr als nur eine Zahl
Diese Daten haben dazu beigetragen, dass die Wayback Machine in vielen Bereichen zu einer zentralen öffentlichen Ressource geworden ist, etwa bei Einwanderungsfällen, persönlicher Geschichtsschreibung, akademischer Forschung und investigativem Journalismus
Das Internet Archive hält auch künftig an seiner Vision einer „öffentlichen Web-Bibliothek mit Zugang für alle“ fest
Das Erreichen von 1 Billion Seiten ist nicht das Ende, sondern ein neuer Ausgangspunkt,
von dem aus auch die Diskussion über Informationszugang und Bewahrungsmethoden im Zeitalter der KI weitergeführt werden soll
Brewster Kahle betonte: „Das Web, das wir gemeinsam aufgebaut haben, ist ein gewaltiges Dokument kollektiver Intelligenz,
und es zu bewahren ist eine Verantwortung der Menschheit“

1 Kommentare

GN⁺ 2025-10-07

Hacker-News-Kommentare

Wenn ich mir etwas wünschen dürfte, dann wäre es ein Peer-Mirror-Netzwerk für archive.org. Die Webanwendung von IA neigt dazu, einen ziemlich schnell zu drosseln, wenn man mehrere Datumsstände anklickt. Es wäre großartig, wenn es eine alternative Quelle gäbe, die archive.org-Inhalte langsam und verteilt ähnlich wie per Torrent spiegelt, sodass Nutzer Daten gezielt prüfen und verifizieren können. Derzeit betreibe ich mein eigenes Archiv mit ArchiveBox, aber das nutze ich nur für meinen persönlichen Bedarf. Für die meisten Dinge verwende ich weiterhin IA, weil dort einfach unglaublich viel Material liegt.
- Archive Team hat unabhängig vom Internet Archive schon einmal ein Projekt betrieben, das Teile des Internetarchivs dezentral gesichert hat. Details und den Fortschritt findet man im INTERNETARCHIVE.BAK-Projektwiki. In letzter Zeit ist es allerdings vorläufig pausiert.
- Ich habe definitiv erlebt, dass Webarchive wirklich langsam sein können. Es wirkt auch so, als würden AI-Scraper beim Bandbreitenengpass eine Rolle spielen. Manche digitalen Archive sind nur mit speziellen Wissenschaftler-Accounts zugänglich, ähnlich wie Common Crawl. Wegen der gewaltigen Datenmenge und des großen Speicherziels wird nicht nur das Internet, sondern auch die zusätzliche Dimension Zeit gespeichert. Die Datenmenge ist so groß, dass Durchsuchen und Suchen extrem schwer werden und das Ganze praktisch kaum nutzbar ist. Deshalb habe ich selbst das Metadaten-Link-Projekt Internet-Places-Database gebaut, um an Domain-Informationen zu kommen.
- Früher hatte ich einmal ein Scraping-Projekt und wollte alte Snapshots finden. Dabei habe ich gemerkt, dass es überraschend schwierig ist, Informationen aus dem Internet Archive herauszubekommen. Mit pywaybackup wurde es deutlich besser.
- Ich frage mich, warum IA keine IPFS-Instanz betreibt oder ob sie eine betreiben, die nur nicht besonders populär ist. Es gibt schon einige IPFS-Mirror-Dienste, die ziemlich schnell arbeiten. Eines der Probleme, die ich bei IA erlebt habe, ist, dass sehr alte Websites wegen JS- oder CSS-Problemen nicht richtig gerendert werden. Ich frage mich auch, ob es eine Möglichkeit gäbe, so etwas nachträglich zu reparieren. Wenn man den gesamten damals möglichen Code exportieren könnte, ließe sich eine Website vielleicht vollständiger wiederherstellen. Es wäre wirklich toll, wenn beim Klick auf eine Domain in IA ein Desktop-Client die gewünschten WARC-Dateien langsam aus einer Queue mit niedriger Priorität laden würde, sodass man sie auch offline vollständig ansehen könnte.
- Ich hatte einmal die Idee für ein System, mit dem man freien Speicherplatz an archive.org „spenden“ könnte. Man würde einen Client starten und sagen, dass man 1 TB bereitstellt, worauf der Server die seltensten Inhalte auf den eigenen Rechner übertragen würde. Es wäre Torrent-basiert, und darauf könnte man leicht auch ein System zur Inhaltsauslieferung aufsetzen. Man könnte Daten dann auch direkt aus diesem Netzwerk beziehen. Ich habe einigen Archivteams dazu E-Mails geschickt, aber niemand zeigte Interesse, also habe ich es am Ende nicht gebaut.
Ich leite beim Internet Archive das Data-Center-/Infrastrukturteam. Ich möchte alle zu den verschiedenen Veranstaltungen in diesem Herbst einladen. Wenn der Ticketpreis eine Hürde ist, meldet euch bitte unbedingt per E-Mail bei mir (siehe Profil). Wir werden versuchen, möglichst vielen die Teilnahme zu ermöglichen.
- Mich würde interessieren, ob das IA-Team verteilte Veranstaltungen auf der ganzen Welt organisiert oder ob ihr euch in SF trefft. Und danke dafür, dass ihr wirklich wichtige Arbeit für die Menschheit leistet.
- Ich wollte schon einmal bei IA arbeiten, aber offene Stellen gibt es wirklich selten.
- Mich würden die technischen Hintergründe dieser Leistung interessieren, zum Beispiel Details dazu, wie das Web-Crawling gemacht wird oder wie die Speicherung funktioniert.
- Mich würde interessieren, um welche Veranstaltungen es konkret geht.
Die Leistung, ein Archiv mit 1 Billion Webseiten zu haben, ist beeindruckend, aber ... es gibt keine Möglichkeit, darin zu suchen. Am Ende muss man eine bekannte URL direkt eingeben, um etwas zu finden, und das verringert den Nutzen des Dienstes erheblich. Es wäre schön, wenn man zum Beispiel nach einem bestimmten Künstlernamen, einem Dateinamen oder sogar nach Bildinhalten suchen könnte.
- Das alles zu indizieren wäre wahrscheinlich ein absoluter Albtraum.
- Ich meine mich zu erinnern, dass so etwas einmal bei Kagi möglich war, aber ich finde nicht mehr, wo das jetzt genutzt wird.
- Dabei müsste man auch über Datenschutzprobleme nachdenken. robots.txt-Regeln würden faktisch bedeutungslos, und das Löschen von Websites wäre nachträglich praktisch unmöglich. Am Ende sind es zwar ohnehin öffentliche Materialien, gegen deren Erfassung man wenig tun kann, aber das komplette IA durchsuchbar zu machen, wäre wirklich eine schlechte Idee.
- Ich nutze die GPT-Websuche und bitte sie manchmal, mir Lehrbücher im IA zu finden. Dafür funktioniert sie gut, aber ich weiß nicht, wie brauchbar sie für normale Webseiten ist.
Wenn man IA zusätzliches Material liefern möchte, ist ArchiveTeam die passende Freiwilligengruppe dafür. Dorthin werden Daten an IA weitergeleitet; mehr Informationen gibt es auf archiveteam.org.
- Jemand wird entscheiden müssen, welches Material überhaupt bewahrenswert ist. Es braucht einen Filter, damit nicht jemand IA als kostenlosen Speicher für seine Urlaubsfotos missbraucht.
Ich finde, das Internet Archive sollte große Deals mit AI-Unternehmen machen ... zum Beispiel nach dem Motto: Wir liefern einem AI-Unternehmen einen Truck voller Daten, wenn es im Gegenzug genug spendet, damit IA in den kommenden Jahren weiterlaufen kann. Wenn kein Geld fließt, sollte der Zugang zwar erlaubt bleiben, aber die Download-Geschwindigkeit massiv gedrosselt werden, sodass es Jahre dauern würde, alles herunterzuladen.
- Damit würde das Vertrauen zerstört, das man sich bisher als öffentliches Gut aufgebaut hat. Für die meisten Menschen ist es in Ordnung, wenn IA ihre Inhalte archiviert, aber wenn man anfängt, damit Geld zu verdienen, würde es sicher enorme Gegenreaktionen geben.
Ich frage mich, ob das Internet Archive und Common Crawl jemals zusammengearbeitet haben. Ich würde gern ihren Umfang und ihre Infrastruktur vergleichen. Die Ziele sind unterschiedlich, aber praktisch machen sie etwas Ähnliches.
- IA übernimmt Daten, die von mehreren Gruppen gesammelt wurden, darunter WARCs von CC und Daten von Gruppen wie ArchiveTeam.
Der Künstler Sam Reider, der diese Woche bei der Offline-Veranstaltung auftritt, ist wirklich großartig. Ich freue mich sehr darauf.
Bedeutet das letztlich, dass man nicht das ganze Web selbst crawlen muss, sondern alle Daten bekommen kann, wenn man einfach das Archive bezahlt?
Im zugehörigen Blogpost werden Geschichten gesammelt, daher hier der Hinweis
https://blog.archive.org/2025/09/23/celebrating-1-trillion-webpages-archived-share-your-wayback-story/
Das ist wirklich ein gewaltiger Meilenstein in der Geschichte des Internets.

1 Billionen Webseiten im Internet Archive gespeichert

Die Bedeutung des Meilensteins von 1 Billion Seiten für das Internet Archive

Veranstaltungsplan im Oktober

7. Oktober — The Vast Blue We: Del Sol Quartet at the Internet Archive

9. Oktober — Gespräch zwischen Sir Tim Berners-Lee und Brewster Kahle

16. Oktober — Library Leaders Forum 2025 (online)

21. Oktober — Doors Open 2025: Tour durch das physische Archiv

22. Oktober — The Web We’ve Built: 1 Trillion Celebration

27. Oktober — Wayback to the Future: Celebrating the Open Web

Die Zukunft des digitalen Gedächtnisses

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare