Databricks veröffentlicht Dolly 2.0, ein ChatGPT-ähnliches Open-Source-Modell

xguru · 2023-04-14T10:03:01+09:00

Das weltweit erste wirklich offene Instruction-Tuned LLM Der vollständige Trainingscode, der Datensatz und die Modellgewichte werden komplett veröffentlicht. Damit kann jede Privatperson und jedes Unternehmen ein eigenes leistungsstarkes LLM erstellen und besitzen Fine-Tuning mit dem von Menschen erstellten Datensatz databricks-dolly-15k 15.000 Prompt/Antwort-Paare. Jeder kann ihn verändern/erweitern und auch kommerziell nutzen (Alpaca, Koala, GPT4All, Vicuna usw. dürfen alle nicht kommerziell genutzt werden) Diese Daten wurden direkt von 5.000 Databricks-Mitarbeitern erstellt Basiert auf dem Sprachmodell EleutherAI pythia mit 12B Parametern

(databricks.com)

35 Punkte von xguru 2023-04-14 | 1 Kommentare | Auf WhatsApp teilen

Das weltweit erste wirklich offene Instruction-Tuned LLM
Der vollständige Trainingscode, der Datensatz und die Modellgewichte werden komplett veröffentlicht. Damit kann jede Privatperson und jedes Unternehmen ein eigenes leistungsstarkes LLM erstellen und besitzen
Fine-Tuning mit dem von Menschen erstellten Datensatz databricks-dolly-15k
- 15.000 Prompt/Antwort-Paare. Jeder kann ihn verändern/erweitern und auch kommerziell nutzen
  - (Alpaca, Koala, GPT4All, Vicuna usw. dürfen alle nicht kommerziell genutzt werden)
- Diese Daten wurden direkt von 5.000 Databricks-Mitarbeitern erstellt
Basiert auf dem Sprachmodell EleutherAI pythia mit 12B Parametern

1 Kommentare

kuroneko 2023-04-14

Ich finde es ziemlich lustig, dass sie intern eine Unterhaltung eröffnet haben, um einen Fragenkatalog für das LLM-Training zu erstellen, dann aber wegen der viel höheren Beteiligung als erwartet frühzeitig schließen mussten, weil es die Arbeit stören könnte.

Wie auch immer: Dass so ein Großunternehmen durch mutige Investitionen ein hochwertiges Datenset vollständig als Open Source (CC BY-SA 3.0) veröffentlicht hat, verdient wirklich Anerkennung.
Wenn es nach und nach mehr solcher Unternehmen gibt und die Beteiligung zunimmt, könnte dann nicht irgendwann ein Open-Source-Modell erscheinen, das auf dem Niveau von GPT-4 liegt und kommerziell nutzbar ist?

Databricks veröffentlicht Dolly 2.0, ein ChatGPT-ähnliches Open-Source-Modell

Verwandte Beiträge

1 Kommentare