- Datensatz mit 627M (627 Millionen) Tabellen und 867B (867 Milliarden) Tokens für das Training von LLMs
- Enthält Tabellen, die aus Webseiten, Excel, CSV, SQLite usw. extrahiert wurden
- Umfangreiche kontextbezogene Daten wie Dateinamen, Quell-URLs und umgebender Text zu jeder Tabelle
- Soll dabei helfen, ein besseres Verständnis und bessere Techniken für die Arbeit mit tabellarischen Daten aufzubauen
- 650 Milliarden Zeilen und bis zu 8 Milliarden Spalten
- Die größte Tabelle hat 32 Millionen Zeilen
- Die breiteste Tabelle hat 3 Millionen Spalten
Noch keine Kommentare.