1 Punkte von GN⁺ 4 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • Anna’s Archive hat eine Belohnung von 200.000 US-Dollar für die Beschaffung der vollständigen Buch-Scans von Google Books oder einer ähnlich großen Sammlung ausgesetzt
  • Derzeit basiert der Zugriff auf Google Books vor allem auf kleinen Snippets rund um Suchergebnisse; aus Archivsicht gilt die Beschaffung vollständiger Scans daher als zentrale Aufgabe
  • Wer eine skalierbare Methode gefunden hat, soll sich nicht erst mit dem fertigen Ergebnis melden, sondern bereits im Prototyp-Stadium Kontakt aufnehmen
  • Auch Personen mit internem Zugriff bei Google kommen infrage; selbst wenn nur OCR-Text ohne Bilder beschafft wird, kann die Hälfte der Belohnung ausgezahlt werden
  • Der Fokus ist nicht auf Google Books beschränkt, sondern gilt auch für große Sammlungen, etwa solche mit seltenen Büchern, die von KI-Unternehmen und anderen aufgebaut wurden

Ziel der Belohnung und Teilnahmebedingungen

  • Anna’s Archive bietet eine Belohnung von 200.000 US-Dollar für die Beschaffung von Google Books oder ähnlichen vollständigen Buch-Scans
  • Vor Beginn der Arbeit soll man die Hinweise zu Bounties von Anna’s Archive sorgfältig lesen
  • Google Books besitzt viele gescannte Bücher, doch beim Zugriff über die Suche sind derzeit nur kleine Snippets rund um die Treffer sichtbar
  • Wer eine Methode mit Skalierungspotenzial gefunden hat, soll nicht bis zum fertigen Ergebnis warten, sondern sich früh mit einem Prototyp melden
    • Anna’s Archive kann anschließend bei der Skalierung helfen
  • Auch Personen, die bei Google arbeiten und Zugriff auf diese Daten haben, sind für die Belohnung qualifiziert
    • 200.000 US-Dollar seien vielleicht keine riesige Summe, aber wer die Daten herausbringen könne, werde als „legendärer Archivar“ gelten, hieß es
  • Die Belohnung gilt auch für ähnlich große Sammlungen außerhalb von Google Books
    • Als Beispiel wurden Sammlungen genannt, die KI-Unternehmen zusammengetragen haben
    • Besonders Sammlungen mit einem erheblichen Anteil an seltenen Büchern kommen infrage

In den Kommentaren zusammengefasste Größenordnung und Übertragungsweg

  • In einem Kommentar hieß es zunächst, das gesamte Archiv umfasse einschließlich urheberrechtlich geschützter Materialien etwa 7 PB; später wurde dies auf rund 1,5 PB korrigiert, einschließlich der Replikation der IUPUI-Seite
  • Public-Domain-Material und von Autoren freigegebene Materialien wurden mit etwa 300 TB angegeben
  • Anna’s Archive antwortete, man sei bereit, eine zusätzliche Belohnung auszusetzen, falls es für Public-Domain- und von Autoren freigegebene Materialien noch kein Scraping gebe
  • Auch wenn nicht die vollständigen Bilder, sondern nur OCR-Text herausgebracht wird, kann für den Zweck dieser Belohnung die Hälfte ausgezahlt werden
  • Als Übertragungsweg bei großen Datenmengen wurde SFTP oder ein ähnliches Verfahren genannt
  • Der Issue-Titel wurde am 7. Juni 2025 in Google Books (or similar) all book scans — $200,000 bounty geändert

1 Kommentare

 
GN⁺ 4 시간 전
Meinungen auf Hacker News
  • Ich lebe in einem Land, in dem es schwer ist, englischsprachige Bücher zu bekommen; Online-Käufe im Ausland sind mit viel zu vielen Verwaltungsverfahren und Einschränkungen verbunden.
    Ohne Anna's Archive und Z-Library hätte ich die Bücher, die mich zu dem gemacht haben, was ich heute bin, nicht lesen können, und es wäre schwer gewesen, meine Leidenschaft fürs Lernen aufrechtzuerhalten.
    Ich bin auch den Autorinnen und Autoren dankbar, von denen ich Wissen erhalten habe, ohne den Preis der Bücher zurückzahlen zu können.

    • Halb im Scherz, halb im Ernst könnte man sagen: Bedeutet das dann, dass dein ganzes heutiges Leben aus Erträgen krimineller Aktivitäten finanziert wurde? Aber Wissen sollte frei sein.
      Wissen entsteht nicht im luftleeren Raum und gehört allen.
    • Ich verstehe diese Haltung, aber wenn Autorinnen und Autoren kein Geld verdienen könnten, hätten viele dieser Bücher vermutlich von Anfang an nie existiert.
      Vor einiger Zeit hatte ein Autor auf Reddit Statistiken gepostet, wonach die tatsächlichen Verkäufe seines Buchs eingebrochen seien, nachdem es auf einer illegalen Filesharing-Seite gelandet war.
      Deshalb versuche ich insbesondere Programmierbücher nach Möglichkeit zu kaufen und nutze PDFs eher wie eine Vorschau. Tatsächlich habe ich dadurch viel mehr gekauft als früher.
      Wenn man natürlich in einer Region lebt, in der der Kauf selbst unmöglich ist, ist das etwas anderes; aber wenn solche Seiten gelobt werden, neigt man dazu, nur die positiven Seiten zu sehen.
    • Gut, dass der Standort im Nutzernamen steht. Was mich online heutzutage am meisten stört, ist, wenn Leute „in unserem Land“ sagen und bis zum Schluss nicht verraten, welches Land sie meinen.
    • https://send.djazz.se/
      Ein zentrales Tool, um EPUBs an Kobo zu senden.
  • Auf https://SourceLibrary.org gibt es Übersetzungen von etwa 16.000 seltenen Büchern, die meisten davon Erstübersetzungen.
    Archiviert sind 50.000 Bücher, die bei vorhandener Finanzierung übersetzt werden sollen; die Token-Zahl ist höher als die der englischen Wikipedia, und der Umfang liegt bei etwa 0,75 PB.
    Ich weiß nicht, ob das für die Prämie infrage kommt, wollte es aber teilen und suche kleine wie große Förderer, die bei der Übersetzung von Renaissance-Literatur helfen.

    • Das Ergebnis ist schön, die Antworten sind passend und resonant. Für die Finanzierung scheint auch ein Modell wie eine kostenpflichtige Forschungs-API möglich.
    • Sieht interessant aus.
      Es ist nicht sofort ersichtlich, was alles archiviert wurde, aber unter meinen befreundeten akademischen Historikern gibt es Leute, die an bestimmten Bereichen interessiert sein könnten, und einige könnten auch bei der Prüfung schwer zugänglicher Sprachen helfen.
      Ich frage mich, ob eine Suche nach Region oder Sprache möglich ist.
      Außerdem frage ich mich, ob ihr wegen des Projekts schon Kontakt zur Historiker-Community aufgenommen habt. Promovierende könnten hier womöglich Forschungsthemen finden.
      Als ich mir die Timeline https://sourcelibrary.org/timeline angesehen habe, trat ein Fehler auf.
    • Ich frage mich, wie viel Budget es gekostet hat, bis hierher zu kommen. Die Token-Zahl ist enorm; vermutlich wird Gemini Flash verwendet.
  • Gestern hat mir Anna's Archive wirklich geholfen.
    Ich hatte tagelang nach der ZIP-Datei von der CD gesucht, die einem Programmierbuch aus den frühen 2000ern beilag; bei allen gebrauchten Angeboten hieß es, die CD fehle, per Suche war nichts zu finden, und auch ein LLM fand sie nicht.
    ChatGPT sagte immer wieder, sie sei im Archive, tatsächlich war sie dort aber nicht. Auf gut Glück schaute ich bei AA nach, und dort gab es die ZIP-Dateien sowohl für die erste als auch für die zweite Auflage. Das war wirklich eine Rettung.

  • Ich frage mich, wie lange es noch dauert, bis es auch Prämien für Internet-Scraping gibt.
    Wegen Cloudflare CAPTCHA ist das Internet für mich fast unbenutzbar geworden, und ich fürchte, es wird noch schlimmer.
    Es wäre wohl besser, Kopien auf Seiten wie archive.is zu durchstöbern oder sie per Torrent zu laden. Letzteres ist auch viel besser für die Privatsphäre, und einen Adblocker nutze ich ohnehin.

    • Es ist sehr wahrscheinlich, dass jemand im selben Netzwerk ein Spiel laufen lässt, das über Bright-Data-Proxys monetarisiert wird. Vor ein paar Tagen gab es dazu auch einen Thread.
      Es könnte auch ein Smart-TV sein. Wenn du die Ursache findest und entfernst, kann sich die IP-Reputation verbessern und du siehst wahrscheinlich weniger CAPTCHAs.
    • https://x.com/CloudflareDev/status/2031488099725754821
      Es gibt einen solchen kleinen Interessenkonflikt.
  • Ich frage mich, wer hinter Anna's Archive steckt. Im Team und im Forum scheinen viele englischsprachige Leute zu sein.
    Jedenfalls sehe ich kein Problem, solange Kaufen nicht Eigentum bedeutet.

    • Es scheint Anna dahinterzustecken.
      https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
      https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
    • Viele der Bücher dort dürften ohnehin in DRM-freier Form käuflich sein. Es gibt mehr Autoren, denen DRM egal ist, als man denkt.
      Und wenn man ein Papierbuch kauft, wird der Kauf eindeutig zu Eigentum; bei Büchern wirkt dieser Satz daher etwas unpassend.
    • Ich glaube, die Hauptquelle war Russland, oder vielleicht war das LibGen.
      Erstaunlicher finde ich allerdings, dass es so wenige Alternativen gibt. Selbst nachdem Facebook und andere gegen LibGen vorgegangen waren und LibGen offline ging, gab es überraschend wenige Alternativen, und Anna's Archive war eine der wenigen Optionen.
      Ich weiß noch immer nicht genau, was mit LibGen passiert ist, aber seit diesem Angriff wirkt es praktisch halb verschwunden.
    • Wenn du wirklich meinst, dass es kein Problem gibt, frage ich mich, warum du in einem öffentlichen Forum fragst, wer dahintersteckt.
  • In der Formulierung „Lies [this] sorgfältig, bevor du an einer Prämie arbeitest“ führt [this] auf eine .li-Adresse und damit an einen gefährlichen Ort.
    Die richtige Adresse sollte https://annas-archive.gl/volunteering#bounties sein.

  • Falls es gerade jemanden gibt, der sich Sorgen macht, bei Google entlassen zu werden, könnte das vielleicht der Backup-Plan sein

    • Wenn man beim Abziehen der Daten erwischt wird, wird man auf eine Summe verklagt, die weit über 200.000 Dollar liegt
    • Es ist unwahrscheinlich, dass normale Mitarbeiter Zugriff auf das gesamte Archiv haben
      Selbst unter den sehr wenigen mit Zugriffsrechten würden automatische Systeme wahrscheinlich Alarm schlagen, sobald man auch nur beginnt, einen winzigen Anteil der Inhalte herunterzuladen
    • Das größere Problem ist, dass dadurch finanzieller Schaden entsteht. Vermutlich müsste man sich sogar darauf vorbereiten, in ein anderes Land umzuziehen
  • Weitere interessante Bounty-Aufgaben, die sie anbieten: https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
    Gesamten MARC-Datensatz der Library of Congress kaufen — 3.000 Dollar Bounty
    Englische Wikipedia-Seiten zu relevanten Institutionen — bis zu 100 Dollar pro neuer Seite
    Internet Archive Digital Lending — 5.000 Dollar pro 1 Mio. PDFs
    Textversion der gesamten Bibliothek — 20.000 Dollar usw.

  • Ich frage mich, wie es mit Piraterie und Urheberrecht weitergeht
    Die heutige, stark auf Leihmodelle ausgerichtete Situation wirkt nicht nachhaltig. Selbst ganz normale Leute in meinem Umfeld kennen sich inzwischen ziemlich gut mit Dingen wie VPN und NAS aus

    • Wenn man nachschaut, wie wenig die Autoren und Künstler bekommen, die die eigentlichen Werke schaffen, hofft man fast, die Guillotine sei die Antwort
    • Es war von Anfang an keine nachhaltige Struktur, sondern Regulatory Capture durch große Rechteinhaber an geistigem Eigentum
      Spotify, Netflix, Amazon und andere haben eine Zeit lang einen ordentlichen Gegenwert geboten, aber jetzt, da die Verschlechterung der Dienste richtig in Gang kommt, ist es Zeit für eine große Rückkehr
  • Gemini wurde vermutlich bereits mit diesen Büchern trainiert und könnte theoretisch einige Sätze wortwörtlich ausgeben
    In der früheren Klage der NYT gegen OpenAI wurden genau solche Beispiele sichtbar

    • Gemini, GPT und Fable sind im Grunde sehr gute Komprimierungen von Internetinhalten
      Allerdings keine verlustfreie Kompression; sie haben einen Weg gefunden, die für die Aufgabe der Vorhersage des nächsten Tokens wichtigen Teile beizubehalten und den Rest nachzuahmen