-
Der Forscher Carl Malamud hat einen mit SpaCy extrahierten n-Gram-Index aus 107.233.728 Journals veröffentlicht, darunter auch kostenpflichtige Fachartikel
-
Da es sich nicht um Volltexte handelt, sondern nur um Satz-Snippets von einem bis maximal fünf Wörtern Länge, werden Urheberrechtsbeschränkungen umgangen
-
Zur kostenlosen Nutzung in verschiedenen Forschungsbereichen im Webarchiv veröffentlicht
→ Beispiel: Wie oft wurde eine bestimmte chemische Substanz in Fachartikeln verwendet?
- Besteht aus drei Tabellen
→ 350 Milliarden n-Grams und Journal-IDs
→ 19,7 Milliarden Keywords und Journal-IDs
→ Journal-IDs und Metadaten: Titel der Fachartikel, Autoren, DOI (eindeutige Kennung eines Fachartikels)
- Der Katalog ist als komprimierte Datei 5 TB groß und entpackt 38 TB
1 Kommentare
Einführungsartikel von Nature
Indem nicht die eigentlichen Volltexte, sondern nur der Index veröffentlicht wurde, hat man das Urheberrechtsproblem offenbar auf einzigartige Weise umgangen.
Wie auch im Nature-Artikel steht, scheint nur die Frage problematisch zu sein, wie Carl an die ursprünglich kostenpflichtigen Papers gelangt ist; die Nutzung dieses Indexes selbst für die Forschung dürfte dagegen unproblematisch sein.
Dabei musste ich an Aaron Swartz denken … das wird am Ende des Materials auch ausdrücklich erwähnt.
Seht euch auch das Video an, in dem Carl Malamud bei der Aaron Swartz Memorial spricht.