GPT4All – auf LLaMA basierender Chatbot, trainiert mit 800k Anweisungsdatensätzen
(github.com/nomic-ai)- Assistant-Style-Großsprachenmodell
- Gesammelte Daten, Datenerfassungsprozess, Trainingscode, endgültige Modellgewichte usw. werden vollständig offengelegt
- Trainiert mit 800k von GPT 3.5 Turbo erzeugten Daten (Code/Story/Dialog)
- Nutzt LAION OIG, Coding-Fragen von Stack Overflow und Instruction-Tuning aus Big-Science/P3 als Basisdatensätze
- Referenziert unter anderem Stanford Alpaca; die Daten wurden in ATLAS hochgeladen und dort kuratiert sowie bereinigt
Noch keine Kommentare.