3 Punkte von GN⁺ 2025-08-18 | 1 Kommentare | Auf WhatsApp teilen
  • ArchiveTeam hat alle verkürzten goo.gl-Links erfolgreich archiviert
  • Über das virtuelle Archivierungsprogramm ArchiveTeam Warrior kann jede Person an Archivierungsprojekten teilnehmen
  • Dieser Warrior kann unter Windows, OS X und Linux ohne gesondertes Risiko ausgeführt werden
  • Nutzer können mit einer einfachen Konfiguration Projekte auswählen und an den Aktivitäten teilnehmen
  • Er bietet eine einfache und intuitive Möglichkeit, auch ohne besondere technische Kenntnisse bei Archivierungsaktivitäten zu helfen

Einführung in ArchiveTeam Warrior

  • ArchiveTeam Warrior ist eine virtuelle Archivierungs-Appliance, die jede Person leicht nutzen kann
  • Nutzer können den Warrior ausführen, um Websites und Ähnliches herunterzuladen und an deren Upload in das Archiv von ArchiveTeam mitzuwirken
  • Warrior stellt keine Gefahr für die eigentliche Computerumgebung dar und nutzt nur Internet-Bandbreite und etwas Speicherplatz
  • Unterstützt werden Windows, OS X und Linux; erforderlich ist ein Virtualisierungsprogramm wie VirtualBox oder VMware

Verwendung mit VirtualBox

  • Die Warrior-Appliance (357 MB) herunterladen
  • In VirtualBox das Menü File > Import Appliance anklicken und die heruntergeladene Datei laden
  • Beim Start der virtuellen Maschine werden automatisch die neuesten Updates bezogen, anschließend wird die Nutzung eines Webbrowsers angefordert

Ablauf nach dem Start von Warrior

  • Die Settings-Seite unter aufrufen
  • Einen Benutzernamen wählen, damit der Fortschritt im Leaderboard angezeigt wird
  • Im Tab All projects das gewünschte Projekt auswählen oder ArchiveTeam’s Choice wählen, um am dringendsten benötigten Projekt mitzuwirken

Vorteile der Teilnahme

  • Ohne besondere technische Kenntnisse oder komplizierte Abläufe kann jede Person einfach zu Archivierungsprojekten beitragen
  • Die eigene Archivierungsleistung wird im Leaderboard angezeigt, was Motivation und Zusammenarbeit fördert

1 Kommentare

 
GN⁺ 2025-08-18
Hacker-News-Kommentare
  • Ich bin jedes Mal aufs Neue beeindruckt, wenn ArchiveTeam solche Projekte angeht. Als die Videoplattform, bei der ich vor einigen Jahren gearbeitet habe, ankündigte, ihren Dienst bald einzustellen, wurde ich mit jemandem von ArchiveTeam in Kontakt gebracht und hörte, dass Interesse daran bestand, die Daten zu bewahren. Ich gab dieser Person ein paar Hinweise, also Informationen zu Server-Endpunkten, bei denen es beim Archivieren schwierig werden könnte, und lieh vorübergehend einige meiner EC2-Instanzen aus. Da die Server mir gehörten, konnte ich sehen, was geschah: Innerhalb von zwei Minuten waren die Instanzen komplett eingerichtet und begannen, Videos schnell zu archivieren, und jede Instanz lud effizient unterschiedliche Videos ohne Überschneidungen herunter. ArchiveTeam hat immer eine gute Mission, aber die Effizienz ihrer Arbeitsweise ist wirklich beeindruckend.

  • Der Titel ist nicht korrekt. Es ist tatsächlich Archiveteam.org und nicht Archive.org. The Internet Archive stellt den Speicherplatz bereit, aber die eigentliche Archivierungsarbeit wird von Mitgliedern von Archiveteam erledigt.

    • Ich frage mich, worin genau der Beitrag von Archiveteam besteht. Ich verstehe es nicht ganz. Letztlich wirkt es wie eine unnötige Mittlerrolle zwischen dem zu archivierenden Inhalt und dem Archivserver. Vielleicht übersehe ich etwas.
  • Ich möchte dazu noch etwas Relevantes teilen: "Am Krieg gegen Link Rot teilnehmen" (Link), außerdem mehrere HN-Diskussionsthreads zu Googles Änderungen an der goo.gl-Richtlinie (Sammlung relevanter Beiträge von 2018 bis 2025, hier, hier, hier, hier, hier, hier). Es gibt vielfältige Diskussionen, hoffentlich hilft das.

  • Ich teile das neueste Update von Google: Link zum Google-Blog-Update

    • Ach, ich halte das schlicht für extrem unglaubwürdige Informationen von einem wirklich nicht vertrauenswürdigen Unternehmen namens Google, daher glaube ich diesem "Update" überhaupt nicht.
    • Laut Googles Mitteilung werden verkürzte Links (goo.gl-Links) "nach dem 25. August nicht mehr funktionieren und es wird empfohlen, zu einem anderen URL-Shortener zu wechseln". Macht es dann nicht den Sinn zunichte, überhaupt nur einen Teil der Links zu erhalten? Bedeutet das nicht, dass verkürzte Links, die bereits fest in Dokumenten stehen und nicht mehr geändert werden können, am Ende trotzdem alle kaputtgehen?
    • Ich frage mich ohnehin, was das soll. Für alte Links, die kaum noch genutzt werden oder wenig Aktivität haben, dürfte eine Weiterleitung doch kaum viel kosten. Ich verstehe nicht, warum man sie unbedingt abschalten muss, selbst wenn man nach so einer Richtlinienänderung nur für stark genutzte Links die Weiterleitung beibehält.
    • Ich verstehe das nicht so recht. Ist es wirklich so teuer, die gesamte Datenbank aufzubewahren? Ein Teil davon muss ja ohnehin weiter gespeichert werden.
  • Gibt es jemanden, der reddit oder twitter vollständig archiviert? Auch wenn ihre Terms inzwischen geändert wurden und das wohl nicht mehr erlauben, frage ich mich das.

    • Für reddit gab es früher ein Projekt namens Pushshift. Vor der Änderung der reddit-API konnten diese Daten von einer anderen Datenarchivierungs-/Erhaltungsgruppe namens the-eye heruntergeladen werden. Für twitter gibt es meines Wissens nichts Vergleichbares. Außerdem ist es bereits seit Jahren nicht mehr möglich, Tweets mit der Wayback Machine zu archivieren.
    • Bei Academictorrents kann man auch nach den API-Beschränkungen monatliche Dumps aller reddit-Submissions und -Kommentare bekommen.
    • Man könnte auch einfach mal OpenAI fragen.
  • Ich verstehe die Seite nicht so ganz. Dort ist eine Liste von Datensätzen (vermute ich) aufgeführt, und die Größe scheint bis zu 91 TiB zu betragen. Nur für die Liste aus Google-Kurzlinks und Ziel-URLs sollten doch keine 91 TiB nötig sein. Weiß jemand, wie das funktioniert?

    • Ich habe das grob überschlagen. Eine zufällig aus der Google-Suche herausgegriffene URL war 705 Byte lang, ein kurzer goo.gl-Link 22 Byte, und wenn man nur die reine ID speichert, sind es 6 Byte. Je nachdem kann es kürzer oder länger sein, aber insgesamt kommt man überschlagsmäßig auf eine Größenordnung, die zig Milliarden bis Billionen URLs entspricht.
  • Ich freue mich, dass ich zu dieser Archivierungsaktion wenigstens ein kleines bisschen beigetragen habe.

    • Ich fand es auch schön, meinen Namen auf dem Leaderboard zu sehen. Tatsächlich habe ich nur für einen Tag einen docker container installiert und es danach wieder vergessen.
  • Ich frage mich, wie viele Links auf private YouTube-Videos oder Google-Dokumente und Ähnliches verweisen.

    • Ich wollte innerlich schon scherzen: "Jetzt kann man es ja herunterladen und selbst durchsuchen", aber tatsächlich sieht man hier den Hinweis "Access-restricted-item: true", also mit Zugriffsbeschränkung. Außerdem wird es in 10-GB-Stücken bereitgestellt.
  • Ich frage mich, ob "all" wirklich alle öffentlich verfügbaren URLs meint oder ob der gesamte URL-Namensraum iterativ vollständig ausprobiert wurde.

    • Tatsächlich lief es so, dass Freiwillige den Client selbst ausgeführt und den gesamten URL-Namensraum iterativ ausprobiert haben, ohne dass ihre IP gesperrt wurde.
    • Öffentlich bekannte goo.gl-URLs sind ohnehin bereits durch Crawls von Internet Archive und Common Crawl erfasst.