- Das Forschungsteam des Apple-Projekts DataComp for Language Models hat auf Hugging Face die offene DCLM-Modellfamilie veröffentlicht
- Das Paket umfasst zwei Hauptmodelle mit 7B bzw. 1.4B Parametern
- Das Modell mit 7 Milliarden (7B) Parametern zeigt in Benchmarks starke Leistung, übertrifft Mistral-7B und kommt anderen wichtigen offenen Modellen wie Llama 3 und Gemma nahe
- Das Projekt wurde durch die Veröffentlichung von Modellgewichten, Trainingscode und Vortrainings-Datensatz zu echtem Open Source
DCLM(DataComp for Language Models)
- Das DataComp-Projekt lässt sich als gemeinsame Initiative zur Entwicklung hochwertiger Datensätze beschreiben, um AI-Modelle zu trainieren, insbesondere im multimodalen Bereich
- Durch Experimente wurde festgestellt, dass modellbasiertes Filtern, bei dem Machine-Learning-(ML-)Modelle hochwertige Daten automatisch aus größeren Datensätzen herausfiltern und auswählen, entscheidend für den Aufbau hochwertiger Trainingssätze sein kann
- Der resultierende Datensatz DCLM-Baseline wurde genutzt, um neue reine Decoder-Transformer-Englischsprachmodelle der DCLM-Reihe mit 7 Milliarden bzw. 1.4 Milliarden Parametern von Grund auf zu trainieren
- Das 7B-Modell wurde mit 2,5 Billionen Tokens unter Verwendung eines auf dem OpenLM-Framework basierenden Vortrainings-Rezepts trainiert und erreicht 63,7 % 5-Shot-Genauigkeit bei MMLU
- Das ist eine Verbesserung um 6,6 Prozentpunkte gegenüber dem bisherigen Open-Data-State-of-the-Art-Sprachmodell MAP-Neo bei gleichzeitig 40 % geringerem Rechenaufwand im Training
Starke und kleinere Modelle
- Auch die Version mit 1,4 Milliarden (1.4B) Parametern zeigt in den Tests MMLU, Core und Extended beeindruckende Leistung
- Im 5-Shot-MMLU-Test erreichte sie 41,9 %, was deutlich über anderen Modellen dieser Kategorie liegt, darunter auch Hugging Faces kürzlich veröffentlichtes SmolLM
- Das größere Modell ist derzeit unter Apples Sample Code License verfügbar, während das kleinere unter Apache 2.0 veröffentlicht wurde, was kommerzielle Nutzung, Verbreitung und Modifikation erlaubt
- In der HF-Bibliothek gibt es auch eine instruction-tuned Version des 7-Milliarden-Parameter-Modells
- Es sollte beachtet werden, dass es sich um frühe Forschung handelt, die die Wirksamkeit von Datenkuratierung hervorhebt
- Das Modell ist nicht für Apple-Geräte gedacht und kann in den Test-Trainingsdaten bestimmte Verzerrungen aufweisen oder schädliche Reaktionen erzeugen
3 Kommentare
Weil der Nutzen am größten ist, wenn es ins iPhone integriert wird.
Samsung fokussiert sich ebenfalls auf On-Device.
Apple veröffentlicht 8 kleine KI-Sprachmodelle für den Einsatz direkt auf dem Gerät
Apple konzentriert sich also weiterhin auf kleine Modelle für On-Device-KI. Ich möchte sie möglichst bald selbst ausprobieren.
Ab nächstem Jahr kann man es dann vielleicht richtig nutzen, haha.