- Anna’s Archive ist eine gemeinnützige Online-Meta-Suchmaschine für Schattenbibliotheken, die von anonymen Aktivisten betrieben wird. Sie bietet Zugang zu verschiedenen Buchbeständen
- Die Organisation hat eine Sammlung chinesischer Sachbücher mit 7,5 Millionen Bänden bzw. 350 TB erworben (mehr als Library Genesis)
- Als Gegenleistung für hochwertige OCR und Textextraktion für diese Sammlung soll das jeweilige LLM-Unternehmen ein Jahr lang exklusiven Frühzugang erhalten
- Die Sammlung stammt aus Duxiu, einer von der SuperStar Digital Library Group aufgebauten Datenbank mit massenhaft gescannten Büchern, die Universitäten und Bibliotheken digital bereitgestellt wurden
- Die Gesamtgröße der Sammlung beträgt in ihrer aktuellen Form etwa 359 TB
- Die extrahierten Texte sollen für das Training großer Sprachmodelle (LLMs) verwendet werden, und das Archive geht davon aus, dass die Sammlung trotz ihrer chinesischen Sprache auch für das Training englischer LLMs nützlich sein könnte
- Das Archive möchte durch diese Zusammenarbeit seinen Nutzern spezialisierte Suchfunktionen anbieten
- Falls die kooperierende Partei bereit ist, den vollständigen Code der Pipeline zu teilen, ist das Archive offen dafür, den Zeitraum des exklusiven Zugangs zu verlängern
1 Kommentare
Hacker-News-Kommentar