Uzu - Hochleistungs-AI-Inferenz-Engine für Apple Silicon

xguru · 2025-07-17T10:51:02+09:00

Rust-basierte Inferenz-Engine zum schnellen Ausführen von AI-Modellen in Apple-Silicon-Umgebungen Hybride Architektur, die wahlweise GPU-Kernel oder den unter CoreML liegenden MPSGraph nutzt Verwendet Modelle in einem eigenen Format; über das lalamo-Tool lassen sich verschiedene Modelle wie Llama3 konvertieren und einsetzen Bei der Geschwindigkeit llama.cpp in den meisten Fällen überlegen; insbesondere bei Qwen3-0.6B wurde eine 13-fach höhere Verarbeitungsgeschwindigkeit erreicht Durch Swift-Bindings, CLI-Schnittstelle und Rust-API ist flexible Entwicklung und Integration möglich Modularer Aufbau und Nutzung des Unified Memory von Apple-Geräten zur Maximierung der Leistung sowie überprüfbare Inferenzpfade für mehr Zuverlässigkeit und Skalierbarkeit

(github.com/trymirai)

19 Punkte von xguru 2025-07-17 | Noch keine Kommentare. | Auf WhatsApp teilen

Rust-basierte Inferenz-Engine zum schnellen Ausführen von AI-Modellen in Apple-Silicon-Umgebungen
Hybride Architektur, die wahlweise GPU-Kernel oder den unter CoreML liegenden MPSGraph nutzt
Verwendet Modelle in einem eigenen Format; über das lalamo-Tool lassen sich verschiedene Modelle wie Llama3 konvertieren und einsetzen
Bei der Geschwindigkeit llama.cpp in den meisten Fällen überlegen; insbesondere bei Qwen3-0.6B wurde eine 13-fach höhere Verarbeitungsgeschwindigkeit erreicht
Durch Swift-Bindings, CLI-Schnittstelle und Rust-API ist flexible Entwicklung und Integration möglich
Modularer Aufbau und Nutzung des Unified Memory von Apple-Geräten zur Maximierung der Leistung sowie überprüfbare Inferenzpfade für mehr Zuverlässigkeit und Skalierbarkeit

Uzu - Hochleistungs-AI-Inferenz-Engine für Apple Silicon

Verwandte Beiträge

Noch keine Kommentare.