- Meta hat leichtgewichtige quantisierte Llama-Modelle veröffentlicht, die auf mobilen Geräten ausgeführt werden können
- Optimiert für Anwendungen mit kurzem Kontext von 8K oder weniger
- Die quantisierten Modelle erreichen eine 2- bis 4-fache Geschwindigkeitssteigerung, eine Reduzierung der Modellgröße um 56 % und eine Verringerung des Speicherverbrauchs um 41 %.
- Quantisierungstechniken
- Für die Modelle Llama 3.2 1B und 3B werden Quantization-Aware Training (QAT) und SpinQuant verwendet.
- QAT priorisiert Genauigkeit, SpinQuant priorisiert Portabilität.
- Beide Quantisierungsmethoden werden über das ExecuTorch-Framework von PyTorch unterstützt.
- Optimierung für mobile Geräte
- Entwickelt für die Ausführung auf Qualcomm- und MediaTek-SoCs.
- Tests auf einem Android OnePlus 12 zeigen deutlich reduzierte Modellgröße und geringeren Speicherverbrauch.
- Die Leistung wird durch die Nutzung von mobiler CPU und NPU optimiert.
- Quantisierungseinstellungen
- Entwickelt mit Blick auf das Inferenz-Framework ExecuTorch von PyTorch und das Arm-CPU-Backend.
- Alle linearen Layer werden in 4-Bit-Gruppen quantisiert, für Aktivierungen wird dynamische 8-Bit-Quantisierung verwendet.
- Quantization-Aware Training (QAT) und LoRA
- Zur Optimierung der Leistung in Umgebungen mit niedriger Präzision wird QAT eingesetzt, das während des Trainings des Llama-3.2-Modells Quantisierungseffekte simuliert.
- Für die QAT-Initialisierung wird ein BF16-Llama-3.2-Modell-Checkpoint verwendet, anschließend erfolgt zusätzliches SFT-Training mit QAT.
- Das Backbone des QAT-Modells wird eingefroren, danach wird SFT erneut mit angewendeten LoRA-Adaptern durchgeführt.
- QAT wird mit der
torchao API ausgeführt.
- SpinQuant
- Weniger genau als QAT + LoRA, aber hoch portabel, da es auch ohne Zugriff auf Datensätze funktioniert.
- Modelle können passend zu unterschiedlichen Hardware-Zielen und Anwendungsfällen quantisiert werden.
- Ergebnisse
- Der QLoRA-Ansatz zeigt insgesamt die beste Qualität.
- Gegenüber BF16 verbessert sich die Decode-Latenz im Durchschnitt um das 2,5-Fache, die Prefill-Latenz um das 4,2-Fache.
- Die Modellgröße sinkt im Durchschnitt um 56 %, der Speicherverbrauch um 41 %.
- Gemessen auf einem Android OnePlus 12; auf iOS-Geräten ist die Genauigkeit ähnlich, die Leistung wurde jedoch nicht bewertet.
Zusammenfassung von GN⁺
- Metas quantisierte Llama-Modelle zielen auf Gewichtsreduktion und Leistungsoptimierung für den Einsatz auf mobilen Geräten.
- Mit QAT und SpinQuant werden quantisierte Modelle angeboten, die sowohl Genauigkeit als auch Portabilität berücksichtigen.
- Durch die Nutzung mobiler CPU und NPU wird die Leistung maximiert, gleichzeitig wird der Einsatz auf unterschiedlicher Hardware unterstützt.
- Durch enge Zusammenarbeit mit verschiedenen mobilen Plattformen und Partnern scheint eine Lösung erreicht worden zu sein, die sich auf realen Produkten einsetzen lässt.
- Metas Llama-Modelle gelten als wettbewerbsfähig in Bezug auf Offenheit, Anpassbarkeit und Kosteneffizienz; durch kontinuierliche Innovationen wird ein leistungsstarkes mobiles KI-Erlebnis erwartet.
Noch keine Kommentare.