31 Punkte von xguru 2026-05-12 | 6 Kommentare | Auf WhatsApp teilen
  • Eine Inferenz-Engine zum Ausführen lokaler AI-Modelle auf Macs mit Apple Silicon, die native Metal-Compute-Kernel auf Basis von Apples MLX-Framework nutzt
  • Gegenüber Ollama bis zu 4,2× schnellere Inferenz – auf Basis von Phi-4 Mini 14B 180 tok/s (3,2× gegenüber Ollama mit 56 tok/s), auf Basis von Qwen3.5-9B 108 tok/s (2,6× gegenüber Ollama mit 41 tok/s)
  • Im gecachten Zustand TTFT von 0,08 Sekunden (auf Basis von Kimi-Linear-48B), bei den meisten Modellen im Bereich von 0,1–0,3 Sekunden
  • 17 integrierte Tool-Call-Parser und automatische Erkennung anhand des Modellnamens — selbst wenn 4bit-quantisierte Modelle fehlerhafte Tool-Calls als Text ausgeben, werden diese automatisch in ein strukturiertes Format zurückgeführt
  • Bietet optimales Modell-Mapping nach RAM – von einem MacBook Air mit 16 GB (Qwen3.5-4B, 160 tok/s) bis zu einem Mac Studio Ultra mit 256 GB (DeepSeek V4 Flash 158B, 31 tok/s, 1M Kontext)
    • 16 GB MacBook Air/Pro: Qwen3.5-4B 4bit → 2,4 GB RAM-Nutzung, 160 tok/s, geeignet für Chat, Coding und Tool-Calls
    • 24 GB MacBook Pro: Qwen3.5-9B 4bit → 5,1 GB, 108 tok/s, Allzweckmodell
    • 32 GB Mac Mini/Studio: Qwen3.5-27B 4bit (15,3 GB, 39 tok/s), Nemotron-Nano 30B 4bit (18 GB, 141 tok/s, 100 % Tool-Calls), Qwen3.6-35B-A3B 4bit (20 GB, 95 tok/s, 256 MoE-Experten, 262K Kontext)
    • 48~64 GB: Qwen3.5-35B-A3B 8bit → 37 GB, 83 tok/s, optimale Balance aus Intelligenz + Geschwindigkeit
    • 96 GB+: Qwen3.5-122B mxfp4 → 65 GB, 57 tok/s, Frontier-Level-Intelligenz
    • 128 GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91 GB, 56 tok/s, Frontier-MoE ab day 0
    • 192~256 GB: Qwen3.5-122B 8bit (130 GB, 44 tok/s) oder DeepSeek V4 Flash 8-bit (136 GB, 31 tok/s, 1M Kontext)
    • 4bit spart Speicher (in den meisten Fällen empfohlen), 8bit für hochwertige Inferenz, mxfp4 ist ein hochwertiges 4bit-Format
  • Funktion zur Trennung des Reasoning-Prozesses, die den Inferenzprozess von chain-of-thought-Modellen in ein separates Feld reasoning_content auslagert – unterstützt Formate von Qwen3, DeepSeek-R1, MiniMax und GPT-OSS
  • Durch KV-Cache-Trimming für Standard-Transformer und DeltaNet-State-Snapshots für die hybride Architektur von Qwen3.5 (~0,1 ms Wiederherstellung) wird TTFT bei Multi-Turn-Konversationen um das 2- bis 5-Fache verbessert; immer aktiv, ohne separates Flag
  • Unterstützt Smart Cloud Routing, das große Kontextanfragen mit langsamer lokalem Prefill automatisch an Cloud-LLMs wie GPT-5 oder Claude weiterleitet
  • Drop-in-Ersatz für die OpenAI API — OpenAI-kompatible Apps wie Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent und Open WebUI lassen sich sofort über localhost:8000/v1 anbinden
  • Unterstützt Multimodalität und optionale Erweiterungen wie Vision (Gemma 4, Qwen-VL), Audio (TTS/STT), Embeddings, Gradio Chat UI und schema-beschränkte JSON-Generierung
  • Integriert verschiedene Optimierungstechniken wie TurboQuant V-cache (86 % Speicherersparnis), KV-Cache-Quantisierung, Prefill-Chunking und tool logits bias
  • Bietet den MHI (Model-Harness Index) zur Messung der Kompatibilität von Modell- und Agent-Harnesses — Qwopus 27B erreicht mit MHI 92 den höchsten Wert
  • Zusätzliche Beschleunigungstechniken wie Speculative Decode (1,5~2,3×), EAGLE-3 (3~6,5×) und ReDrafter (1,4~1,5×) sind in der Roadmap enthalten
  • Apache-2.0-Lizenz

6 Kommentare

 
hulryung 2026-05-13

Gibt es hier tatsächlich Leute, die so etwas auf einem 128-GB-MBP nutzen? (Ich bin auf eure Meinungen gespannt)
Kostet wohl ungefähr 8 Millionen Won, da frage ich mich, ob sich das nach etwa einem Jahr rechnet..
Wenn man andererseits darüber nachdenkt, würde man selbst bei local AI vermutlich zusätzlich noch ein Abo nutzen, haha

 
emptybynature 2026-05-16

Ich nutze gerade ein M5 Max mit 128 GB, habe Codex, DeepSeek und Kimi alle im Abo und zahle auch noch für APIs, haha. Bei lokalen Modellen ist für einen praktisch nutzbaren Einsatz selbst auf einem MacBook mit 128 GB eigentlich fast nur Qwen 3.6 27B wirklich brauchbar. Andere Modelle mit ähnlicher Parameterzahl liefern schlechtere Leistung, und Modelle wie 122B starten zwar irgendwie, laufen aber nicht auf einem Niveau, mit dem man tatsächlich arbeiten könnte.

 
mrdoosun 2026-05-13

Die Geschwindigkeitswerte sind zwar beeindruckend, aber mir fallen persönlich eher die OpenAI-API-Kompatibilität, der Tool-Calling-Parser und die Trennung von Reasoning ins Auge.

Wenn man lokale Modelle an Entwickler-Tools oder Backend-Agent-Workflows anbindet, entscheiden in der Praxis nicht nur die reine Inferenzgeschwindigkeit, sondern ebenso Unterschiede im Antwortformat je nach Modell, die Wiederherstellung kaputter Tool Calls und die TTFT bei langen Kontexten maßgeblich über die tatsächliche Nutzbarkeit. In dieser Hinsicht wirkt es weniger wie eine „schnelle lokale Inferenz-Engine“ als vielmehr wie eine „lokale Engine, die sich stabil an einen Agent-Harness anbinden lässt“.

Die Benchmarks müsste man zwar unter identischen Bedingungen reproduzieren, aber wenn auf Apple Silicon ein lokaler Entwicklungs-Loop in diesem Umfang möglich wird, dürften die Kosten für Prototypen oder interne Tool-Experimente deutlich sinken. Auch der Versuch, wie bei MHI die Modell-Harness-Kompatibilität gesondert zu betrachten, ist spannend.

 
parkindani 2026-05-12

Im Vergleich zu omlx würde mich interessieren, wie die Leistung ausfällt.

 
xguru 2026-05-12

Ich teste persönlich gerade DeepSeek4 mit antirez/ds4, und dabei scheint ds4 bei der Geschwindigkeit etwas schneller zu sein.

ds4 ist allerdings nur für 128 GB gedacht, daher etwas speziell, aber für andere Modelle könnte es gut sein.

Kürzlich war ein Tweet des HuggingFace-CEO ziemlich populär, in dem er meinte, Qwen3.6 27B sei beim Coden im Flugzeug auf Opus-Niveau gewesen. Das hier sollte ich also auch mal mit 3.6 27B ausprobieren.
https://x.com/julien_c/status/2047647522173104145

 
yangeok 2026-05-12

Ich bin gespannt, wie die Leistung auf Koreanisch sein wird … Ich nutze die 96-GB-Version; die Leistung wird wohl hinter der von kostenpflichtigen LLMs zurückbleiben, oder ..?

Schon auf dem Niveau von Gemini CLI wäre es wohl gut, haha