15 Punkte von xguru 2020-10-26 | 2 Kommentare | Auf WhatsApp teilen

Daten, die den von OpenAI für GPT-3 verwendeten ähnlich sind

  • books3.tar.gz : 37GB, als TXT extrahierte Inhalte von rund 197.000 Büchern

  • github.tar.gz : 106G, eine Sammlung verschiedener GitHub-Repositories

  • stackexchange_dataset.tar : 34G, Frage-und-Antwort-Daten von Stack Exchange

Außerdem zahlreiche weitere unterschiedliche Datensammlungen

2 Kommentare

 
ffdd270 2020-10-27

Das ist zwar etwas plötzlich, aber wenn man sich solche Archive und Archive für das Training ansieht, wird einem erneut bewusst, dass es in der digitalen Welt keine Freiheit des Vergessens gibt.

 
xguru 2020-10-26

Für eine Beschreibung dieses Materials siehe den Twitter-Thread unten.

https://threadreaderapp.com/thread/1320282149329784833.html