AI2 Dolma: Offener 3T-Token-Korpus für Sprachmodelle
(blog.allenai.org)- Ein vom Allen Institute for AI erstellter Datensatz
- Eine Mischung aus Webinhalten, wissenschaftlichen Publikationen, Code, Büchern und Enzyklopädiematerialien
- Mit 3 Billionen Token der bislang größte öffentlich verfügbare Datensatz
- Über den HuggingFace-Hub herunterladbar
- AI2-ImpACT-Lizenz (eingeteilt in Low/Medium/High je nach Risiko des Artefakts)
Noch keine Kommentare.