2 Punkte von GN⁺ 2023-11-06 | 1 Kommentare | Auf WhatsApp teilen
  • Anna’s Archive ist eine gemeinnützige Online-Meta-Suchmaschine für Schattenbibliotheken, die von anonymen Aktivisten betrieben wird. Sie bietet Zugang zu verschiedenen Buchbeständen
  • Die Organisation hat eine Sammlung chinesischer Sachbücher mit 7,5 Millionen Bänden bzw. 350 TB erworben (mehr als Library Genesis)
  • Als Gegenleistung für hochwertige OCR und Textextraktion für diese Sammlung soll das jeweilige LLM-Unternehmen ein Jahr lang exklusiven Frühzugang erhalten
  • Die Sammlung stammt aus Duxiu, einer von der SuperStar Digital Library Group aufgebauten Datenbank mit massenhaft gescannten Büchern, die Universitäten und Bibliotheken digital bereitgestellt wurden
  • Die Gesamtgröße der Sammlung beträgt in ihrer aktuellen Form etwa 359 TB
  • Die extrahierten Texte sollen für das Training großer Sprachmodelle (LLMs) verwendet werden, und das Archive geht davon aus, dass die Sammlung trotz ihrer chinesischen Sprache auch für das Training englischer LLMs nützlich sein könnte
  • Das Archive möchte durch diese Zusammenarbeit seinen Nutzern spezialisierte Suchfunktionen anbieten
  • Falls die kooperierende Partei bereit ist, den vollständigen Code der Pipeline zu teilen, ist das Archive offen dafür, den Zeitraum des exklusiven Zugangs zu verlängern

1 Kommentare

 
GN⁺ 2023-11-06
Hacker-News-Kommentar
  • Diese Sammlung, die vermutlich um 2015 begann, umfasst etwa 4 Millionen Bücher, von denen viele Duplikate sind.
  • Die Sammlung stammt von einem Unternehmen namens DuXiu, das seit den frühen 2000er-Jahren mit chinesischen Bibliotheken zusammenarbeitete, um deren Bestände zu scannen.
  • Die Sammlung enthält eine Mischung aus übersetzten westlichen Lehrbüchern, politischer Propaganda sowie Literatur- und Geschichtsbüchern, die vor der extremen Zensur veröffentlicht wurden.
  • Chinesische Tech-Unternehmen haben Zugang zu dieser Sammlung, nutzen sie aber möglicherweise wegen urheberrechtlicher und politischer Risiken nicht.
  • Die Person, die die Website betreibt, gilt als klug, aber leichtsinnig, und es wurden Bedenken hinsichtlich möglicher rechtlicher Haftung geäußert.
  • DuXiu wird als Ressource sehr gelobt, und es gibt die Erwartung, dass die Sammlung innerhalb eines Jahres vollständig durchsuchbar sein wird.
  • Dass alle Bücher Chinas zentralisiert werden, gilt als Vorteil für das Training von KI.
  • Dass diese Sammlung 40-mal größer ist als books3, wirft Fragen zu Urheberrecht und zu Forschungsmöglichkeiten außerhalb des englischsprachigen Raums auf.
  • Es gibt Spekulationen über die Effizienz der Tokenisierung im informationsdichten Chinesisch.
  • Es wurde die Frage aufgeworfen, ob Language Models (LLMs) Wissen unabhängig von Sprache und Abfragesprache kodieren können.
  • Es gibt die Erwartung, dass ein großes chinesisches Unternehmen OpenAI bei einem Gebot übertrumpfen könnte, um sich diese Sammlung für den Wettbewerb zu sichern.
  • LLMs könnten als Schnittstelle dienen und den Zugang zu chinesischsprachigen Informationen erleichtern.
  • In der chinesischen Kultur wird die Reaktion auf das Kopieren anders gesehen; oft besteht die Tendenz, es als eine Form des Respekts zu betrachten.