Textdatensammlungen für das AI-Training

(the-eye.eu)

15 Punkte von xguru 2020-10-26 | 2 Kommentare | Auf WhatsApp teilen

Daten, die den von OpenAI für GPT-3 verwendeten ähnlich sind

books3.tar.gz : 37GB, als TXT extrahierte Inhalte von rund 197.000 Büchern
github.tar.gz : 106G, eine Sammlung verschiedener GitHub-Repositories
stackexchange_dataset.tar : 34G, Frage-und-Antwort-Daten von Stack Exchange

Außerdem zahlreiche weitere unterschiedliche Datensammlungen

2 Kommentare

ffdd270 2020-10-27

Das ist zwar etwas plötzlich, aber wenn man sich solche Archive und Archive für das Training ansieht, wird einem erneut bewusst, dass es in der digitalen Welt keine Freiheit des Vergessens gibt.

xguru 2020-10-26

Für eine Beschreibung dieses Materials siehe den Twitter-Thread unten.

https://threadreaderapp.com/thread/1320282149329784833.html

Textdatensammlungen für das AI-Training

Verwandte Beiträge

2 Kommentare