2 Punkte von GN⁺ 2024-10-25 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Meta hat leichtgewichtige quantisierte Llama-Modelle veröffentlicht, die auf mobilen Geräten ausgeführt werden können
  • Optimiert für Anwendungen mit kurzem Kontext von 8K oder weniger
  • Die quantisierten Modelle erreichen eine 2- bis 4-fache Geschwindigkeitssteigerung, eine Reduzierung der Modellgröße um 56 % und eine Verringerung des Speicherverbrauchs um 41 %.
  • Quantisierungstechniken
    • Für die Modelle Llama 3.2 1B und 3B werden Quantization-Aware Training (QAT) und SpinQuant verwendet.
    • QAT priorisiert Genauigkeit, SpinQuant priorisiert Portabilität.
    • Beide Quantisierungsmethoden werden über das ExecuTorch-Framework von PyTorch unterstützt.
  • Optimierung für mobile Geräte
    • Entwickelt für die Ausführung auf Qualcomm- und MediaTek-SoCs.
    • Tests auf einem Android OnePlus 12 zeigen deutlich reduzierte Modellgröße und geringeren Speicherverbrauch.
    • Die Leistung wird durch die Nutzung von mobiler CPU und NPU optimiert.
  • Quantisierungseinstellungen
    • Entwickelt mit Blick auf das Inferenz-Framework ExecuTorch von PyTorch und das Arm-CPU-Backend.
    • Alle linearen Layer werden in 4-Bit-Gruppen quantisiert, für Aktivierungen wird dynamische 8-Bit-Quantisierung verwendet.
  • Quantization-Aware Training (QAT) und LoRA
    • Zur Optimierung der Leistung in Umgebungen mit niedriger Präzision wird QAT eingesetzt, das während des Trainings des Llama-3.2-Modells Quantisierungseffekte simuliert.
    • Für die QAT-Initialisierung wird ein BF16-Llama-3.2-Modell-Checkpoint verwendet, anschließend erfolgt zusätzliches SFT-Training mit QAT.
    • Das Backbone des QAT-Modells wird eingefroren, danach wird SFT erneut mit angewendeten LoRA-Adaptern durchgeführt.
    • QAT wird mit der torchao API ausgeführt.
  • SpinQuant
    • Weniger genau als QAT + LoRA, aber hoch portabel, da es auch ohne Zugriff auf Datensätze funktioniert.
    • Modelle können passend zu unterschiedlichen Hardware-Zielen und Anwendungsfällen quantisiert werden.
  • Ergebnisse
    • Der QLoRA-Ansatz zeigt insgesamt die beste Qualität.
    • Gegenüber BF16 verbessert sich die Decode-Latenz im Durchschnitt um das 2,5-Fache, die Prefill-Latenz um das 4,2-Fache.
    • Die Modellgröße sinkt im Durchschnitt um 56 %, der Speicherverbrauch um 41 %.
    • Gemessen auf einem Android OnePlus 12; auf iOS-Geräten ist die Genauigkeit ähnlich, die Leistung wurde jedoch nicht bewertet.

Zusammenfassung von GN⁺

  • Metas quantisierte Llama-Modelle zielen auf Gewichtsreduktion und Leistungsoptimierung für den Einsatz auf mobilen Geräten.
  • Mit QAT und SpinQuant werden quantisierte Modelle angeboten, die sowohl Genauigkeit als auch Portabilität berücksichtigen.
  • Durch die Nutzung mobiler CPU und NPU wird die Leistung maximiert, gleichzeitig wird der Einsatz auf unterschiedlicher Hardware unterstützt.
  • Durch enge Zusammenarbeit mit verschiedenen mobilen Plattformen und Partnern scheint eine Lösung erreicht worden zu sein, die sich auf realen Produkten einsetzen lässt.
  • Metas Llama-Modelle gelten als wettbewerbsfähig in Bezug auf Offenheit, Anpassbarkeit und Kosteneffizienz; durch kontinuierliche Innovationen wird ein leistungsstarkes mobiles KI-Erlebnis erwartet.

Noch keine Kommentare.

Noch keine Kommentare.