Anna's Archive: Neueste Updates des Teams

(annas-archive.org)

1 Punkte von GN⁺ 2025-08-19 | 1 Kommentare | Auf WhatsApp teilen

Angesichts zunehmender Angriffe auf die jüngste Mission werden derzeit Infrastruktur und Betriebssicherheit verstärkt
Seit dem Start im Jahr 2022 werden zig Millionen Bücher, Aufsätze, Magazine, Zeitungen und andere Materialien sicher bewahrt und geteilt
Durch groß angelegtes Scraping wurden umfangreiche Metadaten von WorldCat, Google Books und anderen Quellen gesichert, um noch nicht erfasste Materialien zu identifizieren
Durch Partnerschaften mit LibGen, Z-Library und anderen konnten zig Millionen zusätzliche Materialien gesichert werden, auch wenn das Verschwinden einiger Partner bedauert wird
Gegenüber neuen Seiten wie WeLib wird eine vorsichtige Haltung eingenommen; wegen unzureichender Beiträge zur Community wird von der Nutzung eher abgeraten

Aktuelle Lage und Reaktion des Teams

In letzter Zeit nehmen Angriffe zu, die sich gegen die Mission von Anna's Archive richten
Daher werden Maßnahmen zur Stärkung von Infrastruktur und Betriebssicherheit umgesetzt
Die sichere Bewahrung des Wissenserbes der Menschheit bleibt eine Aufgabe, die es wert ist, weiterverfolgt zu werden

Befreiung und Archivierung von Materialien

Seit dem Start im Jahr 2022 wurden zig Millionen Bücher, wissenschaftliche Aufsätze, Magazine, Zeitungen und andere Inhalte gesichert
Diese Materialien sind vor verschiedenen Bedrohungen wie Naturkatastrophen, Krieg und Budgetkürzungen geschützt
Dank aller, die sich über Torrents an der Verbreitung beteiligt haben, ist die Sorge vor einem Verlust der Materialien stark gesunken

Groß angelegtes Scraping und Sicherung von Metadaten

Anna's Archive organisiert systematisch groß angelegtes Scraping bei IA Controlled Digital Lending, HathiTrust, DuXiu und anderen
Dabei ist es gelungen, Materialdateien in einer Größenordnung von tens of millions zu sichern
Von WorldCat, Google Books und anderen wurde eine umfangreiche Sammlung von Buchmetadaten aufgebaut
Mit diesen Metadaten werden Bücher identifiziert, die noch nicht in der Sammlung enthalten sind, und sie werden für eine Strategie zur priorisierten Sicherung seltener Materialien genutzt

Community, Zusammenarbeit und neue Entwicklungen

In Zusammenarbeit mit LibGen-Forks, STC/Nexus, Z-Library und anderen Partnern wurden zig Millionen zusätzliche Dateien gesichert
Die Partner leisten einen großen Beitrag zur Mission, etwa indem sie Dateien spiegeln
Dass jedoch einer der LibGen-Forks verschwunden ist, wird als bedauerlich angesehen

Neue Projekte und Hinweise zur Vorsicht

In letzter Zeit ist mit WeLib ein neues Projekt aufgetaucht
- Es spiegelt den Großteil der Archivsammlungen und verwendet einen Fork der Anna’s-Archive-Codebasis
- Einige Verbesserungen an der Benutzeroberfläche von WeLib wurden übernommen und integriert
- Allerdings gibt es weder das Teilen neuer Sammlungen noch das Zurückspielen von Verbesserungen an der Codebasis, sodass es an einer klaren Zusage zur Beteiligung am Ökosystem fehlt
- Daher wird zu Vorsicht bei der Nutzung von WeLib geraten
Zusätzlich warten intern mehrere hundert Terabyte neuer Sammlungen bereits auf Servern auf die Verarbeitung

Bitte um Freiwilligenhilfe und Unterstützung

Jede und jeder kann sich über die Seite für Freiwilligenarbeit und Spenden am Projekt beteiligen
Alles wird mit einem kleinen Budget betrieben, daher ist selbst kleine Hilfe von großem Wert
Auch künftig wird zu kontinuierlichen Bemühungen zum Schutz und zur Befreiung des Wissenserbes aufgerufen
Anna und das gesamte Team (Verweis auf die Reddit-Community)

1 Kommentare

GN⁺ 2025-08-19

Hacker-News-Kommentare

Ich kaufe die Bücher, die ich lese, nachdem ich sie über Anna's Archive ausgewählt habe, Comics über readComicsOnline und europäische Graphic Novels über #WONTTELL; ich bin in diesen drei Offline-Läden ein Stammkunde, der besonders oft vorbeischaut. Statt Trends wegen Werbung zu kaufen, recherchiere ich extrem viel und suche nur wirklich gute Werke heraus. Manchmal haben die Ladenmitarbeiter sogar Mühe, seltene Bücher zu bestellen, die ich online entdeckt habe. Ich frage mich, ob ich eine Ausnahme bin, aber solche Dienste bewahren meine Freiheit der Auswahl.
- Das ist ein komplexes Thema. Ich war früher in einer Film-Release-Gruppe aktiv, und die Mitglieder dieser Gruppe besaßen meist deutlich mehr VHS/DVDs als der Durchschnitt. Das kostet eben entsprechend Mühe und Zeit. Bei Leuten, die einfach nur herunterladen, war das Bild gemischter. Einige lebten im Ausland und konnten inländische Veröffentlichungen gar nicht sehen, andere waren sogar stolz darauf, überhaupt keine Medien zu kaufen.
- Bei mir ist es ähnlich. Dank Anna's Archive finde ich Material bequemer als über die Schulbibliothek. Ich kann von zu Hause aus suchen, die nötigen Informationen bekommen und es wieder löschen. Ich kann den Inhalt vorher prüfen und wenn es wirklich gut ist, kaufe ich es später zum Behalten. Ich kaufe dadurch nicht mehr Bücher als früher, aber meine Zufriedenheit ist deutlich höher. Andererseits haben mir Upload-Seiten viele großartige Filme gezeigt, von denen ich sonst nie gehört hätte, weshalb ich heute viel mehr Filme kaufe als früher.
- Die französische Comic-Piraterie-Szene verbreitet Neuerscheinungen mit ungefähr sechs Monaten Verzögerung. Weil sie klein ist, funktioniert diese Regel recht gut. Dadurch habe ich überhaupt erst Interesse an Comics entwickelt, und wenn mir ein Werk gefällt, kaufe ich es gern direkt zum Release und entferne DRM für meine private Sammlung. Die meisten Downloads haben eher Sammlungs-/Archivcharakter, und was ich wirklich mit viel Spaß bis zum Ende gelesen habe, dafür unterstütze ich den Autor.
- Bei mir ist es exakt genauso. Wenn eine Reihe interessant wirkt, lade ich mir erst mal nur Band 1, lese etwa ein Drittel, und wenn es wirklich gut ist, kaufe ich es später und lese weiter. Ich kaufe ungefähr 3–4 Bücher im Monat (wenn möglich bevorzuge ich DRM-freies EPUB), bei europäischen Graphic Novels etwa 10 im Monat (nur gedruckte Bücher). Ich bin ebenfalls ein Heavy User.
- Ich habe früher ein Indie-Game verfolgt, dessen Entwickler eine DRM-freie Erfahrung anbieten wollten. Es gab auch Online-Funktionen wie Leaderboards, und sie waren schockiert, als sie feststellten, dass sich viel mehr Accounts online anmeldeten als tatsächliche Verkäufe existierten. Die Entwickler änderten daraufhin den Ton ihrer Feature-Beschreibungen und baten die Leute, keine Kopien zu benutzen, sondern das Spiel zu kaufen. Am Ende war das Spiel zwar beliebt, aber wegen zu viel Raubkopieren zahlten zu wenige Leute, und das Team gab das Projekt auf. Sobald das Thema Piraterie aufkommt, versuchen viele ihr Verhalten damit zu rechtfertigen, dass sie angeblich mehr konsumieren als der Durchschnitt, aber wenn man sich reale Statistikdaten ansieht, sagt die Mehrheit, dass sie es tun, weil es kostenlos ist.
Betreiber von Schattenbibliotheken leisten einen großen Beitrag für die Menschheit und hätten einen Nobelpreis verdient. Satoshi wäre bestimmt auch stolz.
- Worauf Satoshi stolz wäre: dass man Schattenbibliotheken ohne Angst vor Zensur unterstützen kann und dass sogar schon ein einzelner Eintrag als Liste zählt.
- Aaron Swartz wäre wahrscheinlich ebenfalls stolz.
- Er könnte dafür wohl wenigstens ein paar Münzen beisteuern; für ihn wäre das nur Kleingeld.
Es gibt eine Torrent-Liste, über die jeder durch Seeding zur Langzeitarchivierung beitragen kann https://annas-archive.org/torrents
- Ich finde es überraschend, dass i2p-basierte Torrents sich noch immer nicht weiter verbreitet haben und auf solchen Seiten nicht einmal als Option angeboten werden. Ich denke, viele können wegen des rechtlichen Risikos nicht beitragen; i2p könnte da helfen.
- Beeindruckend ist, dass sci-hub etwa 90 TB und libgen-non-fiction etwa 77,5 TB groß sind. Diese beiden Archive enthalten den Kern wissenschaftlichen Wissens wie Papers und Lehrbücher und müssen unbedingt geschützt werden. Ich selbst speichere etwa 16 TB auf meinem Heimserver, aber auf 200 TB zu erweitern ist wegen Hardware und Kosten nicht trivial (allein 12 Festplatten mit 16 TB kosten 2200 Dollar). Rechnet man Datenredundanz und Server-Hardware dazu, kann man für grob 5000 Dollar praktisch das gesamte zentrale wissenschaftliche Wissen der Menschheit cachen. Interessant ist, dass das Volumen solcher Speicher zuletzt kaum noch gewachsen ist. Auch sci-hub wurde seit 2022 nicht mehr aktualisiert, und die vielen neueren minderwertigen Fachzeitschriften dürften wohl auch weniger wichtig sein.
Ich habe einmal in der Bibliothek eine Buchreihe gelesen und war fassungslos, dass Band 3 oder 4 fehlte. Vermutlich war er verloren gegangen oder beschädigt. Ich habe sogar überlegt, ihn selbst in einem Secondhandladen zu kaufen und zu spenden, aber die neuen Editionen waren teurer und hatten eine andere Atmosphäre, also habe ich es nach längerem Überlegen gelassen. Deshalb habe ich ihn über Anna’s Archive besorgt. Die letzten paar Bände der Reihe hatte die Bibliothek ebenfalls nicht (entweder hatte sie jemand ausgeliehen und nie zurückgebracht, oder sie waren von Anfang an nicht da). Ich wollte einfach nur das Gesamtwerk dieses Autors vollständig lesen, und die Bücher, die ich wirklich mochte, habe ich tatsächlich zweimal gekauft: als gedrucktes Buch und als Hörbuch. Früher verfielen Freunde von mir dem Büchersammeln, aber ich selbst behalte nur Bücher, die ich noch einmal lesen werde. Selbst wenn ich diesen Vervollständigungsdrang verspüre, löse ich das eher über Bibliotheken oder E-Books. Je älter ich werde, desto bewusster werden mir Bücher und meine eigene Endlichkeit. Selbst wenn ich im Ruhestand jede Woche 3–4 Bücher lese, habe ich immer noch mehr Bücher angesammelt, als ich in meinem Leben lesen kann. Außerdem erscheinen ständig neue Bücher und neue Stimmen. Zuletzt habe ich Dune noch einmal gelesen und dann an den Gebrauchtbuchladen abgegeben; wenn ich es noch einmal lese, dann vermutlich als Hörbuch.
Ich denke, der Teil „Anna’s Archive erhielt zig Millionen Dateien aus IA Controlled Digital Lending“ hilft im Gesamtbild nicht besonders.
- Das ist eine extrem zweideutige Formulierung, die wohl zwangsläufig vor Gericht landen könnte.
- Dass Anna's Archive so verantwortungslos damit prahlt, „auch so etwas getan zu haben“, wirkt sehr egoistisch. Da werden mögliche Folgen überhaupt nicht bedacht.
- Ich verstehe nicht, warum das ein Problem sein soll. Ihr Ziel ist es doch gerade, Bücher zu sammeln.
Ich halte Seiten wie Anna's Archive für eines der letzten guten Dinge, die dem Internet noch geblieben sind.
- Ich frage mich, wie sie sich finanzieren und wie sie die Seite am Leben erhalten. Es wirkt, als wollten Unternehmen und Staaten mit riesigen Ressourcen so eine Seite unbedingt beseitigen.
- Ich stimme zu, dass es eines der letzten guten Dinge ist (das letzte, aber nicht das geringste).
Großes Lob an das Team dieses Projekts. Ich finde es beeindruckend, dass sich die UI im letzten Jahr verbessert zu haben scheint. Das verbleibende Problem ist, dass der Dienst weiter erreichbar bleibt und überlebt. Ich frage mich, wie viel Aufwand das kostet und wie sie unter solchen Angriffen durchhalten können.
- In den letzten 2 bis 5 Tagen gab es ein großes UI-Update. Ein kleiner Nachteil ist, dass man auf dem Handy früher die Suchergebnisse viel effizienter sehen konnte, während im neuen Design nur noch etwa 4–5 Einträge auf einen Bildschirm passen.
Zur Info: Auch diese Seite ist ziemlich nützlich https://open-slum.org/
- Die Seite ist bei mir nicht erreichbar; es wäre gut, wenn du erklären könntest, was dort zu finden ist und warum sie nützlich ist.
- Das scheint eine Uptime-Kuma-Instanz zu sein. Uptime Kuma ist ein Open-Source-Projekt mit Stärken bei Monitoring und Dashboarding https://github.com/louislam/uptime-kuma
Irgendwie ist es interessant, dass Bürger Orte wie Anna's Archive unterstützen, während Regierungen dagegen sind. Das wirkt für mich wie ein Beleg für Elitismus.
- Das ist weder lustig noch seltsam. Es fehlt einfach die Perspektive der unmittelbar Betroffenen, also der Autoren. Ich frage mich, wie zufrieden Autoren, deren Bücher auf Anna’s Archive stehen, damit wohl sind. Ich persönlich sehe Anna’s Archive und sci-hub eher positiv, weil es der Gesellschaft insgesamt hilft, wenn mehr gelesen wird. Aber innerhalb des bestehenden Systems gibt es natürlich viele Fragen zu Vergütung, Recht und Ähnlichem.
- Ich frage mich, was Autoren darüber denken.
Ich frage mich, ob Anna's Archive oder ähnliche Seiten komplette PDF-Sammlungen der gesamten New York Times (Ausgaben vor 1930) oder anderer Zeitungen anbieten. Im Moment sind selbst Public-Domain-Materialien auf geschlossenen Websites wie Newspapers.com eingesperrt oder so schlecht durchsuchbar wie das alte Google News/News Archive. Ich hoffe, dass durch den Wettlauf um AI-Trainingsdaten neue Archive entstehen, die offener sind und AI-basierte Erkundungsfunktionen bieten als bestehende Bezahl- oder aufgegebene Seiten. Manches findet man zwar bei Internet Archive und ähnlichen Angeboten, aber was wirklich fehlt, ist AI-gestützte Suche.
- Unter https://archive.org/search?query=title%3ANew+York+Times&sort=-date&and%5B%5D=year%3A%5B1530+TO+1930%5D findet man einige alte NYT-Ausgaben. Als komplettes PDF-Set auf einmal bekommt man sie zwar nicht, aber man könnte die einzelnen PDFs über Anna’s-Archive-Torrents finden und zusammenführen. Eine AI-basierte Suche wäre mit genug Zeit und Willen möglich, indem man alte NYT-Artikel per OCR in Text umwandelt und diesen dann in etwas wie ein LLM einspeist, um semantische Suche zu ermöglichen. Ideal wäre, wenn öffentliche Kulturförderung so ein Projekt als wissenschaftliche Arbeit unterstützen würde.

Anna's Archive: Neueste Updates des Teams

Aktuelle Lage und Reaktion des Teams

Befreiung und Archivierung von Materialien

Groß angelegtes Scraping und Sicherung von Metadaten

Community, Zusammenarbeit und neue Entwicklungen

Neue Projekte und Hinweise zur Vorsicht

Bitte um Freiwilligenhilfe und Unterstützung

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare