200.000 US-Dollar Belohnung für Google Books oder ähnliche vollständige Buch-Scans ausgesetzt (2025)
(software.annas-archive.gl)- Anna’s Archive hat eine Belohnung von 200.000 US-Dollar für die Beschaffung der vollständigen Buch-Scans von Google Books oder einer ähnlich großen Sammlung ausgesetzt
- Derzeit basiert der Zugriff auf Google Books vor allem auf kleinen Snippets rund um Suchergebnisse; aus Archivsicht gilt die Beschaffung vollständiger Scans daher als zentrale Aufgabe
- Wer eine skalierbare Methode gefunden hat, soll sich nicht erst mit dem fertigen Ergebnis melden, sondern bereits im Prototyp-Stadium Kontakt aufnehmen
- Auch Personen mit internem Zugriff bei Google kommen infrage; selbst wenn nur OCR-Text ohne Bilder beschafft wird, kann die Hälfte der Belohnung ausgezahlt werden
- Der Fokus ist nicht auf Google Books beschränkt, sondern gilt auch für große Sammlungen, etwa solche mit seltenen Büchern, die von KI-Unternehmen und anderen aufgebaut wurden
Ziel der Belohnung und Teilnahmebedingungen
- Anna’s Archive bietet eine Belohnung von 200.000 US-Dollar für die Beschaffung von Google Books oder ähnlichen vollständigen Buch-Scans
- Vor Beginn der Arbeit soll man die Hinweise zu Bounties von Anna’s Archive sorgfältig lesen
- Google Books besitzt viele gescannte Bücher, doch beim Zugriff über die Suche sind derzeit nur kleine Snippets rund um die Treffer sichtbar
- Wer eine Methode mit Skalierungspotenzial gefunden hat, soll nicht bis zum fertigen Ergebnis warten, sondern sich früh mit einem Prototyp melden
- Anna’s Archive kann anschließend bei der Skalierung helfen
- Auch Personen, die bei Google arbeiten und Zugriff auf diese Daten haben, sind für die Belohnung qualifiziert
- 200.000 US-Dollar seien vielleicht keine riesige Summe, aber wer die Daten herausbringen könne, werde als „legendärer Archivar“ gelten, hieß es
- Die Belohnung gilt auch für ähnlich große Sammlungen außerhalb von Google Books
- Als Beispiel wurden Sammlungen genannt, die KI-Unternehmen zusammengetragen haben
- Besonders Sammlungen mit einem erheblichen Anteil an seltenen Büchern kommen infrage
In den Kommentaren zusammengefasste Größenordnung und Übertragungsweg
- In einem Kommentar hieß es zunächst, das gesamte Archiv umfasse einschließlich urheberrechtlich geschützter Materialien etwa 7 PB; später wurde dies auf rund 1,5 PB korrigiert, einschließlich der Replikation der IUPUI-Seite
- Public-Domain-Material und von Autoren freigegebene Materialien wurden mit etwa 300 TB angegeben
- Anna’s Archive antwortete, man sei bereit, eine zusätzliche Belohnung auszusetzen, falls es für Public-Domain- und von Autoren freigegebene Materialien noch kein Scraping gebe
- Auch wenn nicht die vollständigen Bilder, sondern nur OCR-Text herausgebracht wird, kann für den Zweck dieser Belohnung die Hälfte ausgezahlt werden
- Als Übertragungsweg bei großen Datenmengen wurde SFTP oder ein ähnliches Verfahren genannt
- Der Issue-Titel wurde am 7. Juni 2025 in
Google Books (or similar) all book scans — $200,000 bountygeändert
1 Kommentare
Meinungen auf Hacker News
Ich lebe in einem Land, in dem es schwer ist, englischsprachige Bücher zu bekommen; Online-Käufe im Ausland sind mit viel zu vielen Verwaltungsverfahren und Einschränkungen verbunden.
Ohne Anna's Archive und Z-Library hätte ich die Bücher, die mich zu dem gemacht haben, was ich heute bin, nicht lesen können, und es wäre schwer gewesen, meine Leidenschaft fürs Lernen aufrechtzuerhalten.
Ich bin auch den Autorinnen und Autoren dankbar, von denen ich Wissen erhalten habe, ohne den Preis der Bücher zurückzahlen zu können.
Wissen entsteht nicht im luftleeren Raum und gehört allen.
Vor einiger Zeit hatte ein Autor auf Reddit Statistiken gepostet, wonach die tatsächlichen Verkäufe seines Buchs eingebrochen seien, nachdem es auf einer illegalen Filesharing-Seite gelandet war.
Deshalb versuche ich insbesondere Programmierbücher nach Möglichkeit zu kaufen und nutze PDFs eher wie eine Vorschau. Tatsächlich habe ich dadurch viel mehr gekauft als früher.
Wenn man natürlich in einer Region lebt, in der der Kauf selbst unmöglich ist, ist das etwas anderes; aber wenn solche Seiten gelobt werden, neigt man dazu, nur die positiven Seiten zu sehen.
Ein zentrales Tool, um EPUBs an Kobo zu senden.
Auf https://SourceLibrary.org gibt es Übersetzungen von etwa 16.000 seltenen Büchern, die meisten davon Erstübersetzungen.
Archiviert sind 50.000 Bücher, die bei vorhandener Finanzierung übersetzt werden sollen; die Token-Zahl ist höher als die der englischen Wikipedia, und der Umfang liegt bei etwa 0,75 PB.
Ich weiß nicht, ob das für die Prämie infrage kommt, wollte es aber teilen und suche kleine wie große Förderer, die bei der Übersetzung von Renaissance-Literatur helfen.
Es ist nicht sofort ersichtlich, was alles archiviert wurde, aber unter meinen befreundeten akademischen Historikern gibt es Leute, die an bestimmten Bereichen interessiert sein könnten, und einige könnten auch bei der Prüfung schwer zugänglicher Sprachen helfen.
Ich frage mich, ob eine Suche nach Region oder Sprache möglich ist.
Außerdem frage ich mich, ob ihr wegen des Projekts schon Kontakt zur Historiker-Community aufgenommen habt. Promovierende könnten hier womöglich Forschungsthemen finden.
Als ich mir die Timeline https://sourcelibrary.org/timeline angesehen habe, trat ein Fehler auf.
Gestern hat mir Anna's Archive wirklich geholfen.
Ich hatte tagelang nach der ZIP-Datei von der CD gesucht, die einem Programmierbuch aus den frühen 2000ern beilag; bei allen gebrauchten Angeboten hieß es, die CD fehle, per Suche war nichts zu finden, und auch ein LLM fand sie nicht.
ChatGPT sagte immer wieder, sie sei im Archive, tatsächlich war sie dort aber nicht. Auf gut Glück schaute ich bei AA nach, und dort gab es die ZIP-Dateien sowohl für die erste als auch für die zweite Auflage. Das war wirklich eine Rettung.
Ich frage mich, wie lange es noch dauert, bis es auch Prämien für Internet-Scraping gibt.
Wegen Cloudflare CAPTCHA ist das Internet für mich fast unbenutzbar geworden, und ich fürchte, es wird noch schlimmer.
Es wäre wohl besser, Kopien auf Seiten wie archive.is zu durchstöbern oder sie per Torrent zu laden. Letzteres ist auch viel besser für die Privatsphäre, und einen Adblocker nutze ich ohnehin.
Es könnte auch ein Smart-TV sein. Wenn du die Ursache findest und entfernst, kann sich die IP-Reputation verbessern und du siehst wahrscheinlich weniger CAPTCHAs.
Es gibt einen solchen kleinen Interessenkonflikt.
Ich frage mich, wer hinter Anna's Archive steckt. Im Team und im Forum scheinen viele englischsprachige Leute zu sein.
Jedenfalls sehe ich kein Problem, solange Kaufen nicht Eigentum bedeutet.
https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
Und wenn man ein Papierbuch kauft, wird der Kauf eindeutig zu Eigentum; bei Büchern wirkt dieser Satz daher etwas unpassend.
Erstaunlicher finde ich allerdings, dass es so wenige Alternativen gibt. Selbst nachdem Facebook und andere gegen LibGen vorgegangen waren und LibGen offline ging, gab es überraschend wenige Alternativen, und Anna's Archive war eine der wenigen Optionen.
Ich weiß noch immer nicht genau, was mit LibGen passiert ist, aber seit diesem Angriff wirkt es praktisch halb verschwunden.
In der Formulierung „Lies [this] sorgfältig, bevor du an einer Prämie arbeitest“ führt [this] auf eine .li-Adresse und damit an einen gefährlichen Ort.
Die richtige Adresse sollte https://annas-archive.gl/volunteering#bounties sein.
Falls es gerade jemanden gibt, der sich Sorgen macht, bei Google entlassen zu werden, könnte das vielleicht der Backup-Plan sein
Selbst unter den sehr wenigen mit Zugriffsrechten würden automatische Systeme wahrscheinlich Alarm schlagen, sobald man auch nur beginnt, einen winzigen Anteil der Inhalte herunterzuladen
Weitere interessante Bounty-Aufgaben, die sie anbieten: https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
Gesamten MARC-Datensatz der Library of Congress kaufen — 3.000 Dollar Bounty
Englische Wikipedia-Seiten zu relevanten Institutionen — bis zu 100 Dollar pro neuer Seite
Internet Archive Digital Lending — 5.000 Dollar pro 1 Mio. PDFs
Textversion der gesamten Bibliothek — 20.000 Dollar usw.
https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items/194
Ich frage mich, wie es mit Piraterie und Urheberrecht weitergeht
Die heutige, stark auf Leihmodelle ausgerichtete Situation wirkt nicht nachhaltig. Selbst ganz normale Leute in meinem Umfeld kennen sich inzwischen ziemlich gut mit Dingen wie VPN und NAS aus
Spotify, Netflix, Amazon und andere haben eine Zeit lang einen ordentlichen Gegenwert geboten, aber jetzt, da die Verschlechterung der Dienste richtig in Gang kommt, ist es Zeit für eine große Rückkehr
Gemini wurde vermutlich bereits mit diesen Büchern trainiert und könnte theoretisch einige Sätze wortwörtlich ausgeben
In der früheren Klage der NYT gegen OpenAI wurden genau solche Beispiele sichtbar
Allerdings keine verlustfreie Kompression; sie haben einen Weg gefunden, die für die Aufgabe der Vorhersage des nächsten Tokens wichtigen Teile beizubehalten und den Rest nachzuahmen