- Das weltweit erste wirklich offene Instruction-Tuned LLM
- Der vollständige Trainingscode, der Datensatz und die Modellgewichte werden komplett veröffentlicht. Damit kann jede Privatperson und jedes Unternehmen ein eigenes leistungsstarkes LLM erstellen und besitzen
- Fine-Tuning mit dem von Menschen erstellten Datensatz
databricks-dolly-15k
- 15.000 Prompt/Antwort-Paare. Jeder kann ihn verändern/erweitern und auch kommerziell nutzen
- (
Alpaca, Koala, GPT4All, Vicuna usw. dürfen alle nicht kommerziell genutzt werden)
- Diese Daten wurden direkt von 5.000 Databricks-Mitarbeitern erstellt
- Basiert auf dem Sprachmodell
EleutherAI pythia mit 12B Parametern
1 Kommentare
Ich finde es ziemlich lustig, dass sie intern eine Unterhaltung eröffnet haben, um einen Fragenkatalog für das LLM-Training zu erstellen, dann aber wegen der viel höheren Beteiligung als erwartet frühzeitig schließen mussten, weil es die Arbeit stören könnte.
Wie auch immer: Dass so ein Großunternehmen durch mutige Investitionen ein hochwertiges Datenset vollständig als Open Source (CC BY-SA 3.0) veröffentlicht hat, verdient wirklich Anerkennung.
Wenn es nach und nach mehr solcher Unternehmen gibt und die Beteiligung zunimmt, könnte dann nicht irgendwann ein Open-Source-Modell erscheinen, das auf dem Niveau von GPT-4 liegt und kommerziell nutzbar ist?