3 Punkte von GN⁺ 2025-05-05 | 1 Kommentare | Auf WhatsApp teilen
  • Bietet eine LLM-Inferenz-Pipeline, die auf der Apple Neural Engine (ANE) ausgeführt werden kann
  • Ermöglicht On-Device-Inferenz in Swift/C++-basierten Apps oder iOS/macOS-Apps auf Basis von Hugging-Face-Modellen
  • Die neueste 0.3.0 Alpha enthält Werkzeuge zum Konvertieren von Hugging-Face-Modellen ins CoreML-Format, eine Swift-basierte Inferenz-CLI-Implementierung, Beispiel-Apps für iOS/macOS, Python-Testcode und Benchmark-Tools
  • Unterstützt LLaMA 3.2 (1B / 8B) sowie Distilled DeepSeek R1 8B und DeepHermes 3B/8B; eine Erweiterung auf weitere Modellarchitekturen ist geplant
  • Ziel ist es, ein flexibles und einfach nutzbares Framework bereitzustellen, mit dem sich Hugging-Face-Modelle für ANE konvertieren lassen

1 Kommentare

 
GN⁺ 2025-05-05
Hacker-News-Kommentare
  • Es wird gefragt, ob es Folgemaßnahmen zu Apples Behauptung gab, dass ANE-optimierte Modelle „bis zu 10-mal schneller bei 14-mal geringerem Speicherverbrauch“ seien

    • MLX und llama.cpp unterstützen ANE nicht
    • llama.cpp untersucht diese Idee
    • MLX unterstützt ANE nicht, obwohl es von Apple stammt
  • Zur Markteinführung von Snapdragon-X-Laptops wurde behauptet, die NPU würde für LLMs genutzt werden

    • Man glaubte Qualcomms Behauptungen, aber in der Praxis liefen die Modelle nur auf der CPU
    • Die NPU ist nur bei kleinen Modellen energieeffizient und für große Modelle ungeeignet
    • Vulkan-Unterstützung ist die einzige Hoffnung
  • Es fühlte sich an, als sei die Neural Engine verschwendetes Silizium

    • Man könnte mehr GPU-Kerne hinzufügen und die Neural-Processing-API bei Bedarf auf die GPU umleiten
    • Andere Meinungen wären willkommen
  • Der Hauptvorteil ist ein deutlich geringerer Stromverbrauch

    • Benchmarks auf M1 Max und M4 Pro zeigen, dass die GPU schneller ist, aber deutlich mehr Strom verbraucht
    • ANE-Modelle sind auf 512 Tokens begrenzt und daher derzeit schwer produktiv einsetzbar
  • Im README fehlt die wichtigste Information

    • Es wird gefragt, wie viele Tokens pro Sekunde im Vergleich zu llama.cpp / MLX bei gleicher Quantisierung möglich sind
    • Ein Plattformwechsel lohnt sich nur bei deutlichen Verbesserungen
  • Es wird versucht herauszufinden, worin das Geheimnis dieser Technik besteht

    • Es wird gefragt, ob die Abhängigkeit von coremltools der entscheidende Punkt ist oder ob es noch andere wichtige Techniken gibt
  • Apples Unified Memory bietet genug RAM, um große Modelle auszuführen, für die sonst mehrere GPUs nötig wären

  • Es wird gefragt, ob coreml das ANE nutzt

    • Es wird gefragt, ob es in coreml Engpässe gibt, die Low-Level-Zugriff erfordern
  • Es wird gefragt, ob es auf MacBooks der M-Serie einen Leistungsvorteil bei der Inferenz gibt

    • Es wird gefragt, ob das Hauptziel darin besteht, Inferenz auf anderen Plattformen wie iOS zum Laufen zu bringen
    • Falls es einen Leistungsvorteil gibt, würde man gern einen Vergleich der Tokens pro Sekunde mit Ollama sehen
  • Apples strenge Kontrolle über das ANE ist überraschend

    • Man hofft, dass der Tag kommt, an dem Menschen es tatsächlich nutzen können
    • Es wird gefragt, ob Unternehmen die Technik verbergen, um die Kontrolle zu behalten, oder ob es tatsächlich gewichtige technische Gründe dafür gibt