7 Punkte von xguru 2023-10-19 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Datensatz mit 627M (627 Millionen) Tabellen und 867B (867 Milliarden) Tokens für das Training von LLMs
    • Enthält Tabellen, die aus Webseiten, Excel, CSV, SQLite usw. extrahiert wurden
    • Umfangreiche kontextbezogene Daten wie Dateinamen, Quell-URLs und umgebender Text zu jeder Tabelle
  • Soll dabei helfen, ein besseres Verständnis und bessere Techniken für die Arbeit mit tabellarischen Daten aufzubauen
  • 650 Milliarden Zeilen und bis zu 8 Milliarden Spalten
  • Die größte Tabelle hat 32 Millionen Zeilen
  • Die breiteste Tabelle hat 3 Millionen Spalten

Noch keine Kommentare.

Noch keine Kommentare.