Textdatensammlungen für das AI-Training
(the-eye.eu)Daten, die den von OpenAI für GPT-3 verwendeten ähnlich sind
-
books3.tar.gz : 37GB, als TXT extrahierte Inhalte von rund 197.000 Büchern
-
github.tar.gz : 106G, eine Sammlung verschiedener GitHub-Repositories
-
stackexchange_dataset.tar : 34G, Frage-und-Antwort-Daten von Stack Exchange
Außerdem zahlreiche weitere unterschiedliche Datensammlungen
2 Kommentare
Das ist zwar etwas plötzlich, aber wenn man sich solche Archive und Archive für das Training ansieht, wird einem erneut bewusst, dass es in der digitalen Welt keine Freiheit des Vergessens gibt.
Für eine Beschreibung dieses Materials siehe den Twitter-Thread unten.
https://threadreaderapp.com/thread/1320282149329784833.html