2 Punkte von brainer 2024-04-25 | 1 Kommentare | Auf WhatsApp teilen

• OpenELM wird als hochmodernes offenes Sprachmodell vorgestellt, das Reproduzierbarkeit und Transparenz im Bereich großer Sprachmodelle fördert. Durch die Verwendung einer schichtweisen Skalierungsstrategie weist OpenELM die Parameter innerhalb jeder Transformer-Modellschicht effizient zu und verbessert so die Genauigkeit. Mit einem Parameterbudget von etwa 1 Milliarde übertrifft OpenELM beispielsweise OLMo um 2,36 %, während es nur die Hälfte der Pre-Training-Tokens benötigt.

• Anders als die frühere Praxis, bei der nur Modellgewichte und Inference-Code bereitgestellt wurden, bietet OpenELM ein umfassendes Framework zum Trainieren und Evaluieren von Sprachmodellen mit öffentlich verfügbaren Datensätzen. Dazu gehören Trainingslogs, mehrere Checkpoints und Pre-Training-Konfigurationen. Außerdem wird Code bereitgestellt, um die Modelle für Inference und Fine-Tuning auf Apple-Geräten in die MLX-Bibliothek zu konvertieren.

• Die Veröffentlichung von OpenELM soll der Open-Research-Community mehr Möglichkeiten eröffnen, indem sie Zugang zu einem vollständigen Training- und Inference-Framework bietet und so künftige offene Forschungsinitiativen fördert. Der Quellcode, vortrainierte Modellgewichte und Trainingsrezepte sind zusammen mit dem Modellzugang auf Hugging Face leicht verfügbar.

1 Kommentare

 
cosine20 2024-04-25

Apple OpenELM 3B: 24,80 MMLU
Microsoft Phi-3-mini 3.8b: 68.8 MMLU

Wenn man sich die Reaktionen ansieht, heißt es wohl, dass der MMLU-Wert viel zu niedrig ist und die zum Training verwendeten Datensätze schon etwas älter sind.
Es wird auch gesagt, dass es sich um ein älteres Modell handelt und man es deshalb absichtlich Open Source gemacht habe...