- Enthält den Trainingscode von MobileLLM, vorgestellt im auf der ICML 2024 präsentierten Paper "MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases"
- In dieser Studie werden mehrere Designelemente ganzheitlich berücksichtigt, um hochwertige LLMs mit weniger als 1 Milliarde Parametern zu erhalten
- MobileLLM wird durch die Integration von (1) der Aktivierungsfunktion SwiGLU, (2) einer tiefen und schmalen Architektur, (3) Shared Embeddings und (4) Grouped Query Attention aufgebaut
- MobileLLM-125M/350M erreicht bei Zero-Shot-Common-Sense-Reasoning-Aufgaben gegenüber den bisherigen 125M/350M-SoTA-Modellen jeweils eine um 2,7 % bzw. 4,3 % höhere Genauigkeit
- In der aktualisierten Version wurden die MobileLLM-600M/1B/1.5B-Modelle auf größere Modelle erweitert und zeigen SoTA-Ergebnisse
Zusammenfassung von GN⁺
- MobileLLM stellt eine optimierte Designphilosophie für hochwertige Sprachmodelle mit weniger als 1 Milliarde Parametern vor
- Durch die Integration von Elementen wie der Aktivierungsfunktion SwiGLU, einer tiefen und schmalen Architektur, Shared Embeddings und Grouped Query Attention wird die Leistung verbessert
- Bei Zero-Shot-Common-Sense-Reasoning-Aufgaben wird eine höhere Genauigkeit als bei bestehenden Modellen erreicht
- Diese Studie leistet einen wichtigen Beitrag für Anwendungsfälle von Sprachmodellen auf mobilen und Embedded-Geräten
- Ähnliche Projekte mit vergleichbaren Funktionen sind GPT-neo, OPT und BLOOM
1 Kommentare
Hacker-News-Kommentare
Es wird erwähnt, dass die Modelle MobileLLM-125M/350M eine um 2,7 % bzw. 4,3 % höhere Genauigkeit als die bisherigen 125M/350M-SoTA-Modelle zeigen
Es wird erwähnt, dass das 1.5B-Parameter-Modell einen ziemlich großen Fortschritt erzielt hat
Es wird gefragt, ob die Apple Watch die Hardware-Leistung hat, um Inferenz mit kleinen Modellen auszuführen
Es wird gefragt, ob das auf mobile Geräte beschränkt bleiben muss
Es wird erwähnt, dass aktuell On-Device-STT wie ein Wake-Word benötigt wird
Es wird nach einer App gesucht, die auf dem iPhone laufen kann
Es wird gefragt, wie weit man den Teil „tiefer und schmaler“ treiben kann
Es wird gefragt, ob Methoden wie Distillation helfen könnten
Es wird erwähnt, dass kleine Modelle den größten Größenvorteil durch Sharing bzw. Weight Tying zwischen linearem Head und Token-Embeddings zu erzielen scheinen
Es wird gefragt, ob sich mit diesem Modell auch auf einem Windows-PC Modelle trainieren lassen
Klingt interessant, aber es wird gefragt, welche Anwendungsfälle es außer besserer Autovervollständigung noch gibt