- Bietet eine LLM-Inferenz-Pipeline, die auf der Apple Neural Engine (ANE) ausgeführt werden kann
- Ermöglicht On-Device-Inferenz in Swift/C++-basierten Apps oder iOS/macOS-Apps auf Basis von Hugging-Face-Modellen
- Die neueste 0.3.0 Alpha enthält Werkzeuge zum Konvertieren von Hugging-Face-Modellen ins CoreML-Format, eine Swift-basierte Inferenz-CLI-Implementierung, Beispiel-Apps für iOS/macOS, Python-Testcode und Benchmark-Tools
- Unterstützt LLaMA 3.2 (1B / 8B) sowie Distilled DeepSeek R1 8B und DeepHermes 3B/8B; eine Erweiterung auf weitere Modellarchitekturen ist geplant
- Ziel ist es, ein flexibles und einfach nutzbares Framework bereitzustellen, mit dem sich Hugging-Face-Modelle für ANE konvertieren lassen
1 Kommentare
Hacker-News-Kommentare
Es wird gefragt, ob es Folgemaßnahmen zu Apples Behauptung gab, dass ANE-optimierte Modelle „bis zu 10-mal schneller bei 14-mal geringerem Speicherverbrauch“ seien
Zur Markteinführung von Snapdragon-X-Laptops wurde behauptet, die NPU würde für LLMs genutzt werden
Es fühlte sich an, als sei die Neural Engine verschwendetes Silizium
Der Hauptvorteil ist ein deutlich geringerer Stromverbrauch
Im README fehlt die wichtigste Information
Es wird versucht herauszufinden, worin das Geheimnis dieser Technik besteht
Apples Unified Memory bietet genug RAM, um große Modelle auszuführen, für die sonst mehrere GPUs nötig wären
Es wird gefragt, ob coreml das ANE nutzt
Es wird gefragt, ob es auf MacBooks der M-Serie einen Leistungsvorteil bei der Inferenz gibt
Apples strenge Kontrolle über das ANE ist überraschend