3 Punkte von caaat 2026-03-12 | 8 Kommentare | Auf WhatsApp teilen

Ein Beitrag, der zusammenfasst, wie das Gemma 3-Modell mit MLC-LLM lokal auf iOS-Geräten ausgeführt wird, sowie die tatsächlich gemessenen Leistungskennzahlen.

Zusammenfassung

  • Einsatz von MLC-LLM: Durch Beschleunigung über die Metal API wird auch auf mobilen Geräten eine komfortable Inferenzumgebung mit nahezu keiner Latenz aufgebaut
  • Build-Prozess für Gemma 3 1B: Leitfaden für den gesamten Workflow – vom Download des Modells von Hugging Face über die Quantisierung q4f16_1, die Anwendung des Gesprächstemplates (gemma3_instruction) bis zur Kompilierung der Metal-Kernel
  • Leistungs- und Ressourcenkennzahlen:
    • Gemma 2 2B: etwa 2,4 GB VRAM-Belegung
    • Gemma 3 1B: etwa 1,14 GB VRAM-Belegung
  • Ausführungstipps: Enthält auch die Methode, ein benutzerdefiniertes Modell über die Konfiguration mlc-package-config.json in ein Xcode-Projekt zu paketieren

Bewertung

  • Mit MLC-LLM lassen sich leistungsfähige LLMs direkt auf iOS-Geräte portieren, sodass sowohl Datenschutz als auch Offline-Ausführung als Vorteile genutzt werden können
  • Es zeigt sich, dass die Erzeugung strukturierter Antworten wie im JSON-Format etwas schwerfällt
  • Für den Einsatz bei Funktionen, die komplexe System-Prompts benötigen, oder bei Aufgaben zur Datenextraktion scheinen ergänzende Arbeiten wie Prompt Engineering oder zusätzliches Fine-Tuning erforderlich zu sein
  • Wenn künftig die Anbindung modellspezifischer Pipelines und die Optimierung des Projekts parallel vorangetrieben werden, dürfte sich ein noch praxisnäheres On-Device-AI-Service aufbauen lassen

8 Kommentare

 
wedding 2026-03-17

Ich nutze auf dem Galaxy Fold 4 qwen 3 0.6b q5, aber bisher fühlt es sich noch etwas unbefriedigend an.

 
dolsangodkimchi 2026-03-18

Ich würde gern wissen, welcher Teil genau enttäuschend ist.
Liegt es daran, dass das Modell zu klein ist und die LLM-Leistung unbefriedigend ist, oder daran, dass die Ausführungsperformance beim lokalen Betrieb unbefriedigend ist?

 
wedding 2026-03-20

Die Performance lässt zu wünschen übrig. GPU- oder bestimmte NPU-Unterstützung gibt es noch nicht, deshalb ist es langsam..

 
newbie1004 2026-03-13

Ich forsche derzeit am gemma3-1b-int4-Modell auf einem Galaxy Note 20 Ultra.

Es läuft auf dem Niveau älterer Modelle.

 
kaboom45 2026-03-14

Oh, wird Vulkan-Beschleunigung vielleicht unterstützt?

 
wedding 2026-03-24

Bei anderen scheint es zu funktionieren, aber bei mir klappt es nicht. schluchz

 
kji96 2026-03-13

Wäre es auf dem Galaxy Note20 nicht schwierig, es flüssig zu nutzen, bis ein Modell erscheint, das auf CPUs mit etwas geringerer Leistung gut läuft (also gut optimiert ist)?

Wenn man sich den obigen Inhalt ansieht, steht dort, dass es für Metal-Kernel speziell für den Mac entwickelt wurde.
Soweit ich weiß, ermöglicht die Verwendung von MLX schnelleres Laden und Ausführen als bei gewöhnlichem GGUF.

 
newbie1004 2026-03-13

Aber bis 4B ist es etwas grenzwertig ;;