The General Index – n-Gram-Index von einer Million Journals kostenlos veröffentlicht

xguru · 2021-10-28T09:04:01+09:00

Der Forscher Carl Malamud hat einen mit SpaCy extrahierten n-Gram-Index aus 107.233.728 Journals veröffentlicht, darunter auch kostenpflichtige Fachartikel Da es sich nicht um Volltexte handelt, sondern nur um Satz-Snippets von einem bis maximal fünf Wörtern Länge, werden Urheberrechtsbeschränkungen umgangen Zur kostenlosen Nutzung in verschiedenen Forschungsbereichen im Webarchiv veröffentlicht → Beispiel: Wie oft wurde eine bestimmte chemische Substanz in Fachartikeln verwendet? Besteht aus drei Tabellen → 350 Milliarden n-Grams und Journal-IDs → 19,7 Milliarden Keywords und Journal-IDs → Journal-IDs und Metadaten: Titel der Fachartikel, Autoren, DOI (eindeutige Kennung eines Fachartikels) Der Katalog ist als komprimierte Datei 5 TB groß und entpackt 38 TB

Der Forscher Carl Malamud hat einen mit SpaCy extrahierten n-Gram-Index aus 107.233.728 Journals veröffentlicht, darunter auch kostenpflichtige Fachartikel
Da es sich nicht um Volltexte handelt, sondern nur um Satz-Snippets von einem bis maximal fünf Wörtern Länge, werden Urheberrechtsbeschränkungen umgangen
Zur kostenlosen Nutzung in verschiedenen Forschungsbereichen im Webarchiv veröffentlicht

→ Beispiel: Wie oft wurde eine bestimmte chemische Substanz in Fachartikeln verwendet?

Besteht aus drei Tabellen

→ 350 Milliarden n-Grams und Journal-IDs

→ 19,7 Milliarden Keywords und Journal-IDs

→ Journal-IDs und Metadaten: Titel der Fachartikel, Autoren, DOI (eindeutige Kennung eines Fachartikels)

Der Katalog ist als komprimierte Datei 5 TB groß und entpackt 38 TB

1 Kommentare

xguru 2021-10-28

Einführungsartikel von Nature

Giant, free index to world’s research papers released online https://www.nature.com/articles/d41586-021-02895-8

Indem nicht die eigentlichen Volltexte, sondern nur der Index veröffentlicht wurde, hat man das Urheberrechtsproblem offenbar auf einzigartige Weise umgangen.

Wie auch im Nature-Artikel steht, scheint nur die Frage problematisch zu sein, wie Carl an die ursprünglich kostenpflichtigen Papers gelangt ist; die Nutzung dieses Indexes selbst für die Forschung dürfte dagegen unproblematisch sein.

Dabei musste ich an Aaron Swartz denken … das wird am Ende des Materials auch ausdrücklich erwähnt.

Seht euch auch das Video an, in dem Carl Malamud bei der Aaron Swartz Memorial spricht.

https://www.youtube.com/watch?v=VllJDnMcTzM

The General Index – n-Gram-Index von einer Million Journals kostenlos veröffentlicht

Verwandte Beiträge

1 Kommentare