Rapid-MLX – ultraschnelle lokale AI-Engine exklusiv für Apple Silicon

xguru · 2026-05-12T09:46:02+09:00

Eine Inferenz-Engine zum Ausführen lokaler AI-Modelle auf Macs mit Apple Silicon, die native Metal-Compute-Kernel auf Basis von Apples MLX-Framework nutzt Gegenüber Ollama bis zu 4,2× schnellere Inferenz – auf Basis von Phi-4 Mini 14B 180 tok/s (3,2× gegenüber Ollama mit 56 tok/s), auf Basis von Qwen3.5-9B 108 tok/s (2,6× gegenüber Ollama mit 41 tok/s) Im gecachten Zustand TTFT von 0,08 Sekunden (auf Basis von Kimi-Linear-48B), bei den meisten Modellen im Bereich von 0,1–0,3 Sekunden 17 integrierte Tool-Call-Parser und automatische Erkennung anhand des Modellnamens — selbst wenn 4bit-quantisierte Modelle fehlerhafte Tool-Calls als Text ausgeben, werden diese automatisch in ein strukturiertes Format zurückgeführt Bietet optimales Modell-Mapping nach RAM – von einem MacBook Air mit 16 GB (Qwen3.5-4B, 160 tok/s) bis zu einem Mac Studio Ultra mit 256 GB (DeepSeek V4 Flash 158B, 31 tok/s, 1M Kontext) 16 GB MacBook Air/Pro: Qwen3.5-4B 4bit → 2,4 GB RAM-Nutzung, 160 tok/s, geeignet für Chat, Coding und Tool-Calls 24 GB MacBook Pro: Qwen3.5-9B 4bit → 5,1 GB, 108 tok/s, Allzweckmodell 32 GB Mac Mini/Studio: Qwen3.5-27B 4bit (15,3 GB, 39 tok/s), Nemotron-Nano 30B 4bit (18 GB, 141 tok/s, 100 % Tool-Calls), Qwen3.6-35B-A3B 4bit (20 GB, 95 tok/s, 256 MoE-Experten, 262K Kontext) 48~64 GB: Qwen3.5-35B-A3B 8bit → 37 GB, 83 tok/s, optimale Balance aus Intelligenz + Geschwindigkeit 96 GB+: Qwen3.5-122B mxfp4 → 65 GB, 57 tok/s, Frontier-Level-Intelligenz 128 GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91 GB, 56 tok/s, Frontier-MoE ab day 0 192~256 GB: Qwen3.5-122B 8bit (130 GB, 44 tok/s) oder DeepSeek V4 Flash 8-bit (136 GB, 31 tok/s, 1M Kontext) 4bit spart Speicher (in den meisten Fällen empfohlen), 8bit für hochwertige Inferenz, mxfp4 ist ein hochwertiges 4bit-Format Funktion zur Trennung des Reasoning-Prozesses, die den Inferenzprozess von chain-of-thought-Modellen in ein separates Feld reasoning_content auslagert – unterstützt Formate von Qwen3, DeepSeek-R1, MiniMax und GPT-OSS Durch KV-Cache-Trimming für Standard-Transformer und DeltaNet-State-Snapshots für die hybride Architektur von Qwen3.5 (~0,1 ms Wiederherstellung) wird TTFT bei Multi-Turn-Konversationen um das 2- bis 5-Fache verbessert; immer aktiv, ohne separates Flag Unterstützt Smart Cloud Routing, das große Kontextanfragen mit langsamer lokalem Prefill automatisch an Cloud-LLMs wie GPT-5 oder Claude weiterleitet Drop-in-Ersatz für die OpenAI API — OpenAI-kompatible Apps wie Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent und Open WebUI lassen sich sofort über localhost:8000/v1 anbinden Unterstützt Multimodalität und optionale Erweiterungen wie Vision (Gemma 4, Qwen-VL), Audio (TTS/STT), Embeddings, Gradio Chat UI und schema-beschränkte JSON-Generierung Integriert verschiedene Optimierungstechniken wie TurboQuant V-cache (86 % Speicherersparnis), KV-Cache-Quantisierung, Prefill-Chunking und tool logits bias Bietet den MHI (Model-Harness Index) zur Messung der Kompatibilität von Modell- und Agent-Harnesses — Qwopus 27B erreicht mit MHI 92 den höchsten Wert Zusätzliche Beschleunigungstechniken wie Speculative Decode (1,5~2,3×), EAGLE-3 (3~6,5×) und ReDrafter (1,4~1,5×) sind in der Roadmap enthalten Apache-2.0-Lizenz

(github.com/raullenchai)

13 Punkte von xguru 7 시간 전 | 3 Kommentare | Auf WhatsApp teilen

Eine Inferenz-Engine zum Ausführen lokaler AI-Modelle auf Macs mit Apple Silicon, die native Metal-Compute-Kernel auf Basis von Apples MLX-Framework nutzt
Gegenüber Ollama bis zu 4,2× schnellere Inferenz – auf Basis von Phi-4 Mini 14B 180 tok/s (3,2× gegenüber Ollama mit 56 tok/s), auf Basis von Qwen3.5-9B 108 tok/s (2,6× gegenüber Ollama mit 41 tok/s)
Im gecachten Zustand TTFT von 0,08 Sekunden (auf Basis von Kimi-Linear-48B), bei den meisten Modellen im Bereich von 0,1–0,3 Sekunden
17 integrierte Tool-Call-Parser und automatische Erkennung anhand des Modellnamens — selbst wenn 4bit-quantisierte Modelle fehlerhafte Tool-Calls als Text ausgeben, werden diese automatisch in ein strukturiertes Format zurückgeführt
Bietet optimales Modell-Mapping nach RAM – von einem MacBook Air mit 16 GB (Qwen3.5-4B, 160 tok/s) bis zu einem Mac Studio Ultra mit 256 GB (DeepSeek V4 Flash 158B, 31 tok/s, 1M Kontext)
- 16 GB MacBook Air/Pro: Qwen3.5-4B 4bit → 2,4 GB RAM-Nutzung, 160 tok/s, geeignet für Chat, Coding und Tool-Calls
- 24 GB MacBook Pro: Qwen3.5-9B 4bit → 5,1 GB, 108 tok/s, Allzweckmodell
- 32 GB Mac Mini/Studio: Qwen3.5-27B 4bit (15,3 GB, 39 tok/s), Nemotron-Nano 30B 4bit (18 GB, 141 tok/s, 100 % Tool-Calls), Qwen3.6-35B-A3B 4bit (20 GB, 95 tok/s, 256 MoE-Experten, 262K Kontext)
- 48~64 GB: Qwen3.5-35B-A3B 8bit → 37 GB, 83 tok/s, optimale Balance aus Intelligenz + Geschwindigkeit
- 96 GB+: Qwen3.5-122B mxfp4 → 65 GB, 57 tok/s, Frontier-Level-Intelligenz
- 128 GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91 GB, 56 tok/s, Frontier-MoE ab day 0
- 192~256 GB: Qwen3.5-122B 8bit (130 GB, 44 tok/s) oder DeepSeek V4 Flash 8-bit (136 GB, 31 tok/s, 1M Kontext)
- 4bit spart Speicher (in den meisten Fällen empfohlen), 8bit für hochwertige Inferenz, mxfp4 ist ein hochwertiges 4bit-Format
Funktion zur Trennung des Reasoning-Prozesses, die den Inferenzprozess von chain-of-thought-Modellen in ein separates Feld reasoning_content auslagert – unterstützt Formate von Qwen3, DeepSeek-R1, MiniMax und GPT-OSS
Durch KV-Cache-Trimming für Standard-Transformer und DeltaNet-State-Snapshots für die hybride Architektur von Qwen3.5 (~0,1 ms Wiederherstellung) wird TTFT bei Multi-Turn-Konversationen um das 2- bis 5-Fache verbessert; immer aktiv, ohne separates Flag
Unterstützt Smart Cloud Routing, das große Kontextanfragen mit langsamer lokalem Prefill automatisch an Cloud-LLMs wie GPT-5 oder Claude weiterleitet
Drop-in-Ersatz für die OpenAI API — OpenAI-kompatible Apps wie Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent und Open WebUI lassen sich sofort über localhost:8000/v1 anbinden
Unterstützt Multimodalität und optionale Erweiterungen wie Vision (Gemma 4, Qwen-VL), Audio (TTS/STT), Embeddings, Gradio Chat UI und schema-beschränkte JSON-Generierung
Integriert verschiedene Optimierungstechniken wie TurboQuant V-cache (86 % Speicherersparnis), KV-Cache-Quantisierung, Prefill-Chunking und tool logits bias
Bietet den MHI (Model-Harness Index) zur Messung der Kompatibilität von Modell- und Agent-Harnesses — Qwopus 27B erreicht mit MHI 92 den höchsten Wert
Zusätzliche Beschleunigungstechniken wie Speculative Decode (1,5~2,3×), EAGLE-3 (3~6,5×) und ReDrafter (1,4~1,5×) sind in der Roadmap enthalten
Apache-2.0-Lizenz

3 Kommentare

parkindani 3 시간 전

Im Vergleich zu omlx würde mich interessieren, wie die Leistung ausfällt.

xguru 6 시간 전

Ich teste persönlich gerade DeepSeek4 mit antirez/ds4, und dabei scheint ds4 bei der Geschwindigkeit etwas schneller zu sein.

ds4 ist allerdings nur für 128 GB gedacht, daher etwas speziell, aber für andere Modelle könnte es gut sein.

Kürzlich war ein Tweet des HuggingFace-CEO ziemlich populär, in dem er meinte, Qwen3.6 27B sei beim Coden im Flugzeug auf Opus-Niveau gewesen. Das hier sollte ich also auch mal mit 3.6 27B ausprobieren.
https://x.com/julien_c/status/2047647522173104145

yangeok 6 시간 전

Ich bin gespannt, wie die Leistung auf Koreanisch sein wird … Ich nutze die 96-GB-Version; die Leistung wird wohl hinter der von kostenpflichtigen LLMs zurückbleiben, oder ..?

Schon auf dem Niveau von Gemini CLI wäre es wohl gut, haha

Rapid-MLX – ultraschnelle lokale AI-Engine exklusiv für Apple Silicon

Verwandte Beiträge

3 Kommentare