Apple demonstriert offene AI-Kompetenz: Neu veröffentlichte Modelle übertreffen Mistral

xguru · 2024-07-23T10:51:01+09:00

Das Forschungsteam des Apple-Projekts DataComp for Language Models hat auf Hugging Face die offene DCLM-Modellfamilie veröffentlicht Das Paket umfasst zwei Hauptmodelle mit 7B bzw. 1.4B Parametern Das Modell mit 7 Milliarden (7B) Parametern zeigt in Benchmarks starke Leistung, übertrifft Mistral-7B und kommt anderen wichtigen offenen Modellen wie Llama 3 und Gemma nahe Das Projekt wurde durch die Veröffentlichung von Modellgewichten, Trainingscode und Vortrainings-Datensatz zu echtem Open Source DCLM(DataComp for Language Models) Das DataComp-Projekt lässt sich als gemeinsame Initiative zur Entwicklung hochwertiger Datensätze beschreiben, um AI-Modelle zu trainieren, insbesondere im multimodalen Bereich Durch Experimente wurde festgestellt, dass modellbasiertes Filtern, bei dem Machine-Learning-(ML-)Modelle hochwertige Daten automatisch aus größeren Datensätzen herausfiltern und auswählen, entscheidend für den Aufbau hochwertiger Trainingssätze sein kann Der resultierende Datensatz DCLM-Baseline wurde genutzt, um neue reine Decoder-Transformer-Englischsprachmodelle der DCLM-Reihe mit 7 Milliarden bzw. 1.4 Milliarden Parametern von Grund auf zu trainieren Das 7B-Modell wurde mit 2,5 Billionen Tokens unter Verwendung eines auf dem OpenLM-Framework basierenden Vortrainings-Rezepts trainiert und erreicht 63,7 % 5-Shot-Genauigkeit bei MMLU Das ist eine Verbesserung um 6,6 Prozentpunkte gegenüber dem bisherigen Open-Data-State-of-the-Art-Sprachmodell MAP-Neo bei gleichzeitig 40 % geringerem Rechenaufwand im Training Starke und kleinere Modelle Auch die Version mit 1,4 Milliarden (1.4B) Parametern zeigt in den Tests MMLU, Core und Extended beeindruckende Leistung Im 5-Shot-MMLU-Test erreichte sie 41,9 %, was deutlich über anderen Modellen dieser Kategorie liegt, darunter auch Hugging Faces kürzlich veröffentlichtes SmolLM Das größere Modell ist derzeit unter Apples Sample Code License verfügbar, während das kleinere unter Apache 2.0 veröffentlicht wurde, was kommerzielle Nutzung, Verbreitung und Modifikation erlaubt In der HF-Bibliothek gibt es auch eine instruction-tuned Version des 7-Milliarden-Parameter-Modells Es sollte beachtet werden, dass es sich um frühe Forschung handelt, die die Wirksamkeit von Datenkuratierung hervorhebt Das Modell ist nicht für Apple-Geräte gedacht und kann in den Test-Trainingsdaten bestimmte Verzerrungen aufweisen oder schädliche Reaktionen erzeugen

(venturebeat.com)

4 Punkte von xguru 2024-07-23 | 3 Kommentare | Auf WhatsApp teilen

Das Forschungsteam des Apple-Projekts DataComp for Language Models hat auf Hugging Face die offene DCLM-Modellfamilie veröffentlicht
Das Paket umfasst zwei Hauptmodelle mit 7B bzw. 1.4B Parametern
Das Modell mit 7 Milliarden (7B) Parametern zeigt in Benchmarks starke Leistung, übertrifft Mistral-7B und kommt anderen wichtigen offenen Modellen wie Llama 3 und Gemma nahe
Das Projekt wurde durch die Veröffentlichung von Modellgewichten, Trainingscode und Vortrainings-Datensatz zu echtem Open Source

DCLM(DataComp for Language Models)

Das DataComp-Projekt lässt sich als gemeinsame Initiative zur Entwicklung hochwertiger Datensätze beschreiben, um AI-Modelle zu trainieren, insbesondere im multimodalen Bereich
Durch Experimente wurde festgestellt, dass modellbasiertes Filtern, bei dem Machine-Learning-(ML-)Modelle hochwertige Daten automatisch aus größeren Datensätzen herausfiltern und auswählen, entscheidend für den Aufbau hochwertiger Trainingssätze sein kann
Der resultierende Datensatz DCLM-Baseline wurde genutzt, um neue reine Decoder-Transformer-Englischsprachmodelle der DCLM-Reihe mit 7 Milliarden bzw. 1.4 Milliarden Parametern von Grund auf zu trainieren
Das 7B-Modell wurde mit 2,5 Billionen Tokens unter Verwendung eines auf dem OpenLM-Framework basierenden Vortrainings-Rezepts trainiert und erreicht 63,7 % 5-Shot-Genauigkeit bei MMLU
Das ist eine Verbesserung um 6,6 Prozentpunkte gegenüber dem bisherigen Open-Data-State-of-the-Art-Sprachmodell MAP-Neo bei gleichzeitig 40 % geringerem Rechenaufwand im Training

Starke und kleinere Modelle

Auch die Version mit 1,4 Milliarden (1.4B) Parametern zeigt in den Tests MMLU, Core und Extended beeindruckende Leistung
Im 5-Shot-MMLU-Test erreichte sie 41,9 %, was deutlich über anderen Modellen dieser Kategorie liegt, darunter auch Hugging Faces kürzlich veröffentlichtes SmolLM
Das größere Modell ist derzeit unter Apples Sample Code License verfügbar, während das kleinere unter Apache 2.0 veröffentlicht wurde, was kommerzielle Nutzung, Verbreitung und Modifikation erlaubt
In der HF-Bibliothek gibt es auch eine instruction-tuned Version des 7-Milliarden-Parameter-Modells
Es sollte beachtet werden, dass es sich um frühe Forschung handelt, die die Wirksamkeit von Datenkuratierung hervorhebt
- Das Modell ist nicht für Apple-Geräte gedacht und kann in den Test-Trainingsdaten bestimmte Verzerrungen aufweisen oder schädliche Reaktionen erzeugen

3 Kommentare

j2sus91 2024-07-23

Weil der Nutzen am größten ist, wenn es ins iPhone integriert wird.
Samsung fokussiert sich ebenfalls auf On-Device.

xguru 2024-07-23

Apple veröffentlicht 8 kleine KI-Sprachmodelle für den Einsatz direkt auf dem Gerät

Apple konzentriert sich also weiterhin auf kleine Modelle für On-Device-KI. Ich möchte sie möglichst bald selbst ausprobieren.

godrm 2024-07-23

Ab nächstem Jahr kann man es dann vielleicht richtig nutzen, haha.

Apple demonstriert offene AI-Kompetenz: Neu veröffentlichte Modelle übertreffen Mistral

DCLM(DataComp for Language Models)

Starke und kleinere Modelle

Verwandte Beiträge

3 Kommentare