Apple veröffentlicht acht kleine KI-Sprachmodelle für den Einsatz auf dem Gerät

xguru · 2024-04-29T10:03:01+09:00

Apple hat OpenELM vorgestellt, ein KI-Sprachmodell, das klein genug ist, um direkt auf Smartphones ausgeführt zu werden OpenELM steht für "Open-source Efficient Language Models" und ist auf Hugging Face unter der Apple Sample Code License verfügbar Der Quellcode wurde veröffentlicht, doch die Lizenz enthält einige Einschränkungen und entspricht daher möglicherweise nicht der üblichen Definition von "Open Source" Merkmale der OpenELM-Modelle OpenELM besteht aus acht Modellen mit 270 Millionen bis 3 Milliarden Parametern Die jüngere Forschung konzentriert sich darauf, kleine KI-Sprachmodelle zu entwickeln, die so leistungsfähig sind wie große KI-Sprachmodelle von vor einigen Jahren Die OpenELM-Modelle werden in zwei Varianten angeboten: als vortrainierte (pretrained) Versionen und als auf Anweisungen abgestimmte (instruction-tuned) Versionen OpenELM-270M, OpenELM-450M, OpenELM-1_1B, OpenELM-3B OpenELM-270M-Instruct, OpenELM-450M-Instruct, OpenELM-1_1B-Instruct, OpenELM-3B-Instruct Trainingsdaten und Leistung der OpenELM-Modelle OpenELM verfügt über ein Kontextfenster von bis zu 2048 Tokens Es wurde mit Daten im Umfang von rund 1,8 Billionen Tokens trainiert, darunter öffentlich verfügbare Datensätze wie RefinedWeb, eine deduplizierte Version von PILE, eine Teilmenge von RedPajama und eine Teilmenge von Dolma v1.6 Mit Apples "layer-wise scaling strategy" werden Parameter effizienter auf die einzelnen Layer verteilt, um Rechenressourcen zu sparen und die Modellleistung zu verbessern OpenELM zeigt eine um 2,36 % höhere Genauigkeit als Allen AIs OLMo 1B, obwohl es mit nur halb so vielen Pretraining-Tokens trainiert wurde Zusätzlich veröffentlichte Materialien und Apples Ziel Apple hat den Code der für das OpenELM-Training verwendeten CoreNet-Bibliothek sowie reproduzierbare Trainingsrezepte veröffentlicht Ungewöhnlich für ein großes Technologieunternehmen wurden sogar die Gewichte veröffentlicht, um Transparenz zu betonen Durch die Veröffentlichung von Quellcode, Modellgewichten und Trainingsmaterialien soll laut Apple "die offene Forschungsgemeinschaft gestärkt und bereichert" werden Apple warnt jedoch davor, dass die mit öffentlichen Datensätzen trainierten Modelle ungenaue, schädliche, voreingenommene oder anstößige Ausgaben erzeugen könnten Ausblick Apple hat neue KI-Sprachmodellfunktionen bislang noch nicht in Endkundengeräte integriert Es wird jedoch spekuliert, dass das voraussichtlich im Juni auf der WWDC vorgestellte iOS-18-Update neue KI-Funktionen enthalten wird, die zur Wahrung der Privatsphäre auf Verarbeitung direkt auf dem Gerät setzen Für komplexere KI-Verarbeitung außerhalb des Geräts könnte Apple außerdem Google oder OpenAI einsetzen, um Siri zu verbessern

(arstechnica.com)

7 Punkte von xguru 2024-04-29 | 2 Kommentare | Auf WhatsApp teilen

Apple hat OpenELM vorgestellt, ein KI-Sprachmodell, das klein genug ist, um direkt auf Smartphones ausgeführt zu werden
OpenELM steht für "Open-source Efficient Language Models" und ist auf Hugging Face unter der Apple Sample Code License verfügbar
Der Quellcode wurde veröffentlicht, doch die Lizenz enthält einige Einschränkungen und entspricht daher möglicherweise nicht der üblichen Definition von "Open Source"

Merkmale der OpenELM-Modelle

OpenELM besteht aus acht Modellen mit 270 Millionen bis 3 Milliarden Parametern
Die jüngere Forschung konzentriert sich darauf, kleine KI-Sprachmodelle zu entwickeln, die so leistungsfähig sind wie große KI-Sprachmodelle von vor einigen Jahren
Die OpenELM-Modelle werden in zwei Varianten angeboten: als vortrainierte (pretrained) Versionen und als auf Anweisungen abgestimmte (instruction-tuned) Versionen
- OpenELM-270M, OpenELM-450M, OpenELM-1_1B, OpenELM-3B
- OpenELM-270M-Instruct, OpenELM-450M-Instruct, OpenELM-1_1B-Instruct, OpenELM-3B-Instruct

Trainingsdaten und Leistung der OpenELM-Modelle

OpenELM verfügt über ein Kontextfenster von bis zu 2048 Tokens
Es wurde mit Daten im Umfang von rund 1,8 Billionen Tokens trainiert, darunter öffentlich verfügbare Datensätze wie RefinedWeb, eine deduplizierte Version von PILE, eine Teilmenge von RedPajama und eine Teilmenge von Dolma v1.6
Mit Apples "layer-wise scaling strategy" werden Parameter effizienter auf die einzelnen Layer verteilt, um Rechenressourcen zu sparen und die Modellleistung zu verbessern
OpenELM zeigt eine um 2,36 % höhere Genauigkeit als Allen AIs OLMo 1B, obwohl es mit nur halb so vielen Pretraining-Tokens trainiert wurde

Zusätzlich veröffentlichte Materialien und Apples Ziel

Apple hat den Code der für das OpenELM-Training verwendeten CoreNet-Bibliothek sowie reproduzierbare Trainingsrezepte veröffentlicht
Ungewöhnlich für ein großes Technologieunternehmen wurden sogar die Gewichte veröffentlicht, um Transparenz zu betonen
Durch die Veröffentlichung von Quellcode, Modellgewichten und Trainingsmaterialien soll laut Apple "die offene Forschungsgemeinschaft gestärkt und bereichert" werden
Apple warnt jedoch davor, dass die mit öffentlichen Datensätzen trainierten Modelle ungenaue, schädliche, voreingenommene oder anstößige Ausgaben erzeugen könnten

Ausblick

Apple hat neue KI-Sprachmodellfunktionen bislang noch nicht in Endkundengeräte integriert
Es wird jedoch spekuliert, dass das voraussichtlich im Juni auf der WWDC vorgestellte iOS-18-Update neue KI-Funktionen enthalten wird, die zur Wahrung der Privatsphäre auf Verarbeitung direkt auf dem Gerät setzen
Für komplexere KI-Verarbeitung außerhalb des Geräts könnte Apple außerdem Google oder OpenAI einsetzen, um Siri zu verbessern

2 Kommentare

2024-04-29

[Dieser Kommentar wurde ausgeblendet.]

tsboard 2024-04-29

Ich bin gespannt, wie groß die Änderungen mit dem iOS-18-Update tatsächlich ausfallen werden. Ich freue mich auch schon sehr auf den M4 mit seinen erweiterten KI-Funktionen!