13 Punkte von xguru 2021-10-28 | 1 Kommentare | Auf WhatsApp teilen
  • Der Forscher Carl Malamud hat einen mit SpaCy extrahierten n-Gram-Index aus 107.233.728 Journals veröffentlicht, darunter auch kostenpflichtige Fachartikel

  • Da es sich nicht um Volltexte handelt, sondern nur um Satz-Snippets von einem bis maximal fünf Wörtern Länge, werden Urheberrechtsbeschränkungen umgangen

  • Zur kostenlosen Nutzung in verschiedenen Forschungsbereichen im Webarchiv veröffentlicht

→ Beispiel: Wie oft wurde eine bestimmte chemische Substanz in Fachartikeln verwendet?

  • Besteht aus drei Tabellen

→ 350 Milliarden n-Grams und Journal-IDs

→ 19,7 Milliarden Keywords und Journal-IDs

→ Journal-IDs und Metadaten: Titel der Fachartikel, Autoren, DOI (eindeutige Kennung eines Fachartikels)

  • Der Katalog ist als komprimierte Datei 5 TB groß und entpackt 38 TB

1 Kommentare

 
xguru 2021-10-28

Einführungsartikel von Nature

Indem nicht die eigentlichen Volltexte, sondern nur der Index veröffentlicht wurde, hat man das Urheberrechtsproblem offenbar auf einzigartige Weise umgangen.

Wie auch im Nature-Artikel steht, scheint nur die Frage problematisch zu sein, wie Carl an die ursprünglich kostenpflichtigen Papers gelangt ist; die Nutzung dieses Indexes selbst für die Forschung dürfte dagegen unproblematisch sein.

Dabei musste ich an Aaron Swartz denken … das wird am Ende des Materials auch ausdrücklich erwähnt.

Seht euch auch das Video an, in dem Carl Malamud bei der Aaron Swartz Memorial spricht.