33 Punkte von xguru 2023-03-19 | 1 Kommentare | Auf WhatsApp teilen
  • Mit derselben Trainingsmethode wie das Alpaca-Modell von Stanford trainiert
  • Polyglot-ko 5.8B und LLaMA 7B als Backbone-Modelle verwendet
    • LLaMA hat eine schwächere Koreanisch-Performance, da es nicht ausreichend mit koreanischen Datensätzen trainiert wurde; daher wurde zusätzlich ein koreanisches Modell weitertrainiert
  • Der 52k-Instruktionsdatensatz von LLaMA wurde mit der DeepL API übersetzt

1 Kommentare

 
luckydaun 2023-03-19

Oh ... dieses Ökosystem entwickelt sich wirklich unglaublich schnell. Schon bei den bisherigen Transformer-Modellen war der Leistungsunterschied zwischen lokalisierten koreanischen Modellen und allgemeinen Modellen enorm, ein großartiges Open-Source-Projekt.