- Apple hat OpenELM vorgestellt, ein KI-Sprachmodell, das klein genug ist, um direkt auf Smartphones ausgeführt zu werden
- OpenELM steht für "Open-source Efficient Language Models" und ist auf Hugging Face unter der Apple Sample Code License verfügbar
- Der Quellcode wurde veröffentlicht, doch die Lizenz enthält einige Einschränkungen und entspricht daher möglicherweise nicht der üblichen Definition von "Open Source"
Merkmale der OpenELM-Modelle
- OpenELM besteht aus acht Modellen mit 270 Millionen bis 3 Milliarden Parametern
- Die jüngere Forschung konzentriert sich darauf, kleine KI-Sprachmodelle zu entwickeln, die so leistungsfähig sind wie große KI-Sprachmodelle von vor einigen Jahren
- Die OpenELM-Modelle werden in zwei Varianten angeboten: als vortrainierte (
pretrained) Versionen und als auf Anweisungen abgestimmte (instruction-tuned) Versionen
- OpenELM-270M, OpenELM-450M, OpenELM-1_1B, OpenELM-3B
- OpenELM-270M-Instruct, OpenELM-450M-Instruct, OpenELM-1_1B-Instruct, OpenELM-3B-Instruct
Trainingsdaten und Leistung der OpenELM-Modelle
- OpenELM verfügt über ein Kontextfenster von bis zu 2048 Tokens
- Es wurde mit Daten im Umfang von rund 1,8 Billionen Tokens trainiert, darunter öffentlich verfügbare Datensätze wie RefinedWeb, eine deduplizierte Version von PILE, eine Teilmenge von RedPajama und eine Teilmenge von Dolma v1.6
- Mit Apples "layer-wise scaling strategy" werden Parameter effizienter auf die einzelnen Layer verteilt, um Rechenressourcen zu sparen und die Modellleistung zu verbessern
- OpenELM zeigt eine um 2,36 % höhere Genauigkeit als Allen AIs OLMo 1B, obwohl es mit nur halb so vielen Pretraining-Tokens trainiert wurde
Zusätzlich veröffentlichte Materialien und Apples Ziel
- Apple hat den Code der für das OpenELM-Training verwendeten CoreNet-Bibliothek sowie reproduzierbare Trainingsrezepte veröffentlicht
- Ungewöhnlich für ein großes Technologieunternehmen wurden sogar die Gewichte veröffentlicht, um Transparenz zu betonen
- Durch die Veröffentlichung von Quellcode, Modellgewichten und Trainingsmaterialien soll laut Apple "die offene Forschungsgemeinschaft gestärkt und bereichert" werden
- Apple warnt jedoch davor, dass die mit öffentlichen Datensätzen trainierten Modelle ungenaue, schädliche, voreingenommene oder anstößige Ausgaben erzeugen könnten
Ausblick
- Apple hat neue KI-Sprachmodellfunktionen bislang noch nicht in Endkundengeräte integriert
- Es wird jedoch spekuliert, dass das voraussichtlich im Juni auf der WWDC vorgestellte iOS-18-Update neue KI-Funktionen enthalten wird, die zur Wahrung der Privatsphäre auf Verarbeitung direkt auf dem Gerät setzen
- Für komplexere KI-Verarbeitung außerhalb des Geräts könnte Apple außerdem Google oder OpenAI einsetzen, um Siri zu verbessern
2 Kommentare
Ich bin gespannt, wie groß die Änderungen mit dem iOS-18-Update tatsächlich ausfallen werden. Ich freue mich auch schon sehr auf den M4 mit seinen erweiterten KI-Funktionen!