3 Punkte von GN⁺ 2024-07-11 | 1 Kommentare | Auf WhatsApp teilen
  • Enthält den Trainingscode von MobileLLM, vorgestellt im auf der ICML 2024 präsentierten Paper "MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases"
  • In dieser Studie werden mehrere Designelemente ganzheitlich berücksichtigt, um hochwertige LLMs mit weniger als 1 Milliarde Parametern zu erhalten
  • MobileLLM wird durch die Integration von (1) der Aktivierungsfunktion SwiGLU, (2) einer tiefen und schmalen Architektur, (3) Shared Embeddings und (4) Grouped Query Attention aufgebaut
  • MobileLLM-125M/350M erreicht bei Zero-Shot-Common-Sense-Reasoning-Aufgaben gegenüber den bisherigen 125M/350M-SoTA-Modellen jeweils eine um 2,7 % bzw. 4,3 % höhere Genauigkeit
  • In der aktualisierten Version wurden die MobileLLM-600M/1B/1.5B-Modelle auf größere Modelle erweitert und zeigen SoTA-Ergebnisse

Zusammenfassung von GN⁺

  • MobileLLM stellt eine optimierte Designphilosophie für hochwertige Sprachmodelle mit weniger als 1 Milliarde Parametern vor
  • Durch die Integration von Elementen wie der Aktivierungsfunktion SwiGLU, einer tiefen und schmalen Architektur, Shared Embeddings und Grouped Query Attention wird die Leistung verbessert
  • Bei Zero-Shot-Common-Sense-Reasoning-Aufgaben wird eine höhere Genauigkeit als bei bestehenden Modellen erreicht
  • Diese Studie leistet einen wichtigen Beitrag für Anwendungsfälle von Sprachmodellen auf mobilen und Embedded-Geräten
  • Ähnliche Projekte mit vergleichbaren Funktionen sind GPT-neo, OPT und BLOOM

1 Kommentare

 
GN⁺ 2024-07-11
Hacker-News-Kommentare
  • Es wird erwähnt, dass die Modelle MobileLLM-125M/350M eine um 2,7 % bzw. 4,3 % höhere Genauigkeit als die bisherigen 125M/350M-SoTA-Modelle zeigen

    • Die kleinen Modelle wurden zwar leicht verbessert, reichen aber für denselben Einsatzzweck wie Online-Modelle noch nicht aus
    • Es wird angemerkt, dass mit schrittweisem Fortschritt nichts verkehrt ist
  • Es wird erwähnt, dass das 1.5B-Parameter-Modell einen ziemlich großen Fortschritt erzielt hat

    • Es wird gefragt, warum keine größeren Modelle verwendet wurden
    • Es wird erwähnt, dass ein effizientes Modell, das zu Hardware in Raspberry-Pi-Größe passt, ein Gamechanger sein könnte
    • Es wird erwähnt, dass das TinyLlama-7B-Modell gerade so läuft
  • Es wird gefragt, ob die Apple Watch die Hardware-Leistung hat, um Inferenz mit kleinen Modellen auszuführen

    • Es wird gefragt, ob dafür ein Entwicklerkonto nötig ist
  • Es wird gefragt, ob das auf mobile Geräte beschränkt bleiben muss

    • Es wird erwähnt, dass es NPC-Dialoge in Spielen interessanter machen könnte, wenn es nicht viele Ressourcen verbraucht
    • Es wird erwähnt, dass es noch besser wäre, wenn man es so abstimmen könnte, dass es das NPC-Verhalten oder Handlungen beeinflusst
  • Es wird erwähnt, dass aktuell On-Device-STT wie ein Wake-Word benötigt wird

    • Es wird nach einem Modell mit der niedrigsten WER gesucht, das auf einem RPi 4B laufen kann
    • openWakeWord wird gerade angesehen
    • Es wird erwähnt, dass es für ein DIY-Inventarsystem benötigt wird
  • Es wird nach einer App gesucht, die auf dem iPhone laufen kann

    • Derzeit ist nur die MLC-App bekannt, und sie enthält nur drei alte Modelle
  • Es wird gefragt, wie weit man den Teil „tiefer und schmaler“ treiben kann

    • Es wird erwähnt, dass sich die Performance verbessern würde, wenn das FFN in den L2-Cache passt
  • Es wird gefragt, ob Methoden wie Distillation helfen könnten

  • Es wird erwähnt, dass kleine Modelle den größten Größenvorteil durch Sharing bzw. Weight Tying zwischen linearem Head und Token-Embeddings zu erzielen scheinen

    • Es wird gefragt, ob es danach Forschung dazu gibt, wie sich die Größe weiter verringern lässt
  • Es wird gefragt, ob sich mit diesem Modell auch auf einem Windows-PC Modelle trainieren lassen

    • Es wird erwähnt, dass nicht viel RAM vorhanden ist
  • Klingt interessant, aber es wird gefragt, welche Anwendungsfälle es außer besserer Autovervollständigung noch gibt