Meta veröffentlicht quantisierte Llama-Modelle mit höherer Geschwindigkeit und geringerem Speicherverbrauch

(ai.meta.com)

2 Punkte von GN⁺ 2024-10-25 | Noch keine Kommentare. | Auf WhatsApp teilen

Meta hat leichtgewichtige quantisierte Llama-Modelle veröffentlicht, die auf mobilen Geräten ausgeführt werden können
Optimiert für Anwendungen mit kurzem Kontext von 8K oder weniger
Die quantisierten Modelle erreichen eine 2- bis 4-fache Geschwindigkeitssteigerung, eine Reduzierung der Modellgröße um 56 % und eine Verringerung des Speicherverbrauchs um 41 %.
Quantisierungstechniken
- Für die Modelle Llama 3.2 1B und 3B werden Quantization-Aware Training (QAT) und SpinQuant verwendet.
- QAT priorisiert Genauigkeit, SpinQuant priorisiert Portabilität.
- Beide Quantisierungsmethoden werden über das ExecuTorch-Framework von PyTorch unterstützt.
Optimierung für mobile Geräte
- Entwickelt für die Ausführung auf Qualcomm- und MediaTek-SoCs.
- Tests auf einem Android OnePlus 12 zeigen deutlich reduzierte Modellgröße und geringeren Speicherverbrauch.
- Die Leistung wird durch die Nutzung von mobiler CPU und NPU optimiert.
Quantisierungseinstellungen
- Entwickelt mit Blick auf das Inferenz-Framework ExecuTorch von PyTorch und das Arm-CPU-Backend.
- Alle linearen Layer werden in 4-Bit-Gruppen quantisiert, für Aktivierungen wird dynamische 8-Bit-Quantisierung verwendet.
Quantization-Aware Training (QAT) und LoRA
- Zur Optimierung der Leistung in Umgebungen mit niedriger Präzision wird QAT eingesetzt, das während des Trainings des Llama-3.2-Modells Quantisierungseffekte simuliert.
- Für die QAT-Initialisierung wird ein BF16-Llama-3.2-Modell-Checkpoint verwendet, anschließend erfolgt zusätzliches SFT-Training mit QAT.
- Das Backbone des QAT-Modells wird eingefroren, danach wird SFT erneut mit angewendeten LoRA-Adaptern durchgeführt.
- QAT wird mit der torchao API ausgeführt.
SpinQuant
- Weniger genau als QAT + LoRA, aber hoch portabel, da es auch ohne Zugriff auf Datensätze funktioniert.
- Modelle können passend zu unterschiedlichen Hardware-Zielen und Anwendungsfällen quantisiert werden.
Ergebnisse
- Der QLoRA-Ansatz zeigt insgesamt die beste Qualität.
- Gegenüber BF16 verbessert sich die Decode-Latenz im Durchschnitt um das 2,5-Fache, die Prefill-Latenz um das 4,2-Fache.
- Die Modellgröße sinkt im Durchschnitt um 56 %, der Speicherverbrauch um 41 %.
- Gemessen auf einem Android OnePlus 12; auf iOS-Geräten ist die Genauigkeit ähnlich, die Leistung wurde jedoch nicht bewertet.

Zusammenfassung von GN⁺

Metas quantisierte Llama-Modelle zielen auf Gewichtsreduktion und Leistungsoptimierung für den Einsatz auf mobilen Geräten.
Mit QAT und SpinQuant werden quantisierte Modelle angeboten, die sowohl Genauigkeit als auch Portabilität berücksichtigen.
Durch die Nutzung mobiler CPU und NPU wird die Leistung maximiert, gleichzeitig wird der Einsatz auf unterschiedlicher Hardware unterstützt.
Durch enge Zusammenarbeit mit verschiedenen mobilen Plattformen und Partnern scheint eine Lösung erreicht worden zu sein, die sich auf realen Produkten einsetzen lässt.
Metas Llama-Modelle gelten als wettbewerbsfähig in Bezug auf Offenheit, Anpassbarkeit und Kosteneffizienz; durch kontinuierliche Innovationen wird ein leistungsstarkes mobiles KI-Erlebnis erwartet.

Meta veröffentlicht quantisierte Llama-Modelle mit höherer Geschwindigkeit und geringerem Speicherverbrauch

Zusammenfassung von GN⁺

Verwandte Beiträge

Noch keine Kommentare.