35 Punkte von xguru 2023-04-14 | 1 Kommentare | Auf WhatsApp teilen
  • Das weltweit erste wirklich offene Instruction-Tuned LLM
  • Der vollständige Trainingscode, der Datensatz und die Modellgewichte werden komplett veröffentlicht. Damit kann jede Privatperson und jedes Unternehmen ein eigenes leistungsstarkes LLM erstellen und besitzen
  • Fine-Tuning mit dem von Menschen erstellten Datensatz databricks-dolly-15k
    • 15.000 Prompt/Antwort-Paare. Jeder kann ihn verändern/erweitern und auch kommerziell nutzen
      • (Alpaca, Koala, GPT4All, Vicuna usw. dürfen alle nicht kommerziell genutzt werden)
    • Diese Daten wurden direkt von 5.000 Databricks-Mitarbeitern erstellt
  • Basiert auf dem Sprachmodell EleutherAI pythia mit 12B Parametern

1 Kommentare

 
kuroneko 2023-04-14

Ich finde es ziemlich lustig, dass sie intern eine Unterhaltung eröffnet haben, um einen Fragenkatalog für das LLM-Training zu erstellen, dann aber wegen der viel höheren Beteiligung als erwartet frühzeitig schließen mussten, weil es die Arbeit stören könnte.

Wie auch immer: Dass so ein Großunternehmen durch mutige Investitionen ein hochwertiges Datenset vollständig als Open Source (CC BY-SA 3.0) veröffentlicht hat, verdient wirklich Anerkennung.
Wenn es nach und nach mehr solcher Unternehmen gibt und die Beteiligung zunimmt, könnte dann nicht irgendwann ein Open-Source-Modell erscheinen, das auf dem Niveau von GPT-4 liegt und kommerziell nutzbar ist?