ANEMLL – Open-Source-Projekt zum Ausführen von LLMs auf der Apple Neural Engine

(github.com/Anemll)

3 Punkte von GN⁺ 2025-05-05 | 1 Kommentare | Auf WhatsApp teilen

Bietet eine LLM-Inferenz-Pipeline, die auf der Apple Neural Engine (ANE) ausgeführt werden kann
Ermöglicht On-Device-Inferenz in Swift/C++-basierten Apps oder iOS/macOS-Apps auf Basis von Hugging-Face-Modellen
Die neueste 0.3.0 Alpha enthält Werkzeuge zum Konvertieren von Hugging-Face-Modellen ins CoreML-Format, eine Swift-basierte Inferenz-CLI-Implementierung, Beispiel-Apps für iOS/macOS, Python-Testcode und Benchmark-Tools
Unterstützt LLaMA 3.2 (1B / 8B) sowie Distilled DeepSeek R1 8B und DeepHermes 3B/8B; eine Erweiterung auf weitere Modellarchitekturen ist geplant
Ziel ist es, ein flexibles und einfach nutzbares Framework bereitzustellen, mit dem sich Hugging-Face-Modelle für ANE konvertieren lassen

1 Kommentare

GN⁺ 2025-05-05

Hacker-News-Kommentare

Es wird gefragt, ob es Folgemaßnahmen zu Apples Behauptung gab, dass ANE-optimierte Modelle „bis zu 10-mal schneller bei 14-mal geringerem Speicherverbrauch“ seien
- MLX und llama.cpp unterstützen ANE nicht
- llama.cpp untersucht diese Idee
- MLX unterstützt ANE nicht, obwohl es von Apple stammt
Zur Markteinführung von Snapdragon-X-Laptops wurde behauptet, die NPU würde für LLMs genutzt werden
- Man glaubte Qualcomms Behauptungen, aber in der Praxis liefen die Modelle nur auf der CPU
- Die NPU ist nur bei kleinen Modellen energieeffizient und für große Modelle ungeeignet
- Vulkan-Unterstützung ist die einzige Hoffnung
Es fühlte sich an, als sei die Neural Engine verschwendetes Silizium
- Man könnte mehr GPU-Kerne hinzufügen und die Neural-Processing-API bei Bedarf auf die GPU umleiten
- Andere Meinungen wären willkommen
Der Hauptvorteil ist ein deutlich geringerer Stromverbrauch
- Benchmarks auf M1 Max und M4 Pro zeigen, dass die GPU schneller ist, aber deutlich mehr Strom verbraucht
- ANE-Modelle sind auf 512 Tokens begrenzt und daher derzeit schwer produktiv einsetzbar
Im README fehlt die wichtigste Information
- Es wird gefragt, wie viele Tokens pro Sekunde im Vergleich zu llama.cpp / MLX bei gleicher Quantisierung möglich sind
- Ein Plattformwechsel lohnt sich nur bei deutlichen Verbesserungen
Es wird versucht herauszufinden, worin das Geheimnis dieser Technik besteht
- Es wird gefragt, ob die Abhängigkeit von coremltools der entscheidende Punkt ist oder ob es noch andere wichtige Techniken gibt
Apples Unified Memory bietet genug RAM, um große Modelle auszuführen, für die sonst mehrere GPUs nötig wären
Es wird gefragt, ob coreml das ANE nutzt
- Es wird gefragt, ob es in coreml Engpässe gibt, die Low-Level-Zugriff erfordern
Es wird gefragt, ob es auf MacBooks der M-Serie einen Leistungsvorteil bei der Inferenz gibt
- Es wird gefragt, ob das Hauptziel darin besteht, Inferenz auf anderen Plattformen wie iOS zum Laufen zu bringen
- Falls es einen Leistungsvorteil gibt, würde man gern einen Vergleich der Tokens pro Sekunde mit Ollama sehen
Apples strenge Kontrolle über das ANE ist überraschend
- Man hofft, dass der Tag kommt, an dem Menschen es tatsächlich nutzen können
- Es wird gefragt, ob Unternehmen die Technik verbergen, um die Kontrolle zu behalten, oder ob es tatsächlich gewichtige technische Gründe dafür gibt

ANEMLL – Open-Source-Projekt zum Ausführen von LLMs auf der Apple Neural Engine

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare