- Rust-basierte Inferenz-Engine zum schnellen Ausführen von AI-Modellen in Apple-Silicon-Umgebungen
- Hybride Architektur, die wahlweise GPU-Kernel oder den unter CoreML liegenden MPSGraph nutzt
- Verwendet Modelle in einem eigenen Format; über das lalamo-Tool lassen sich verschiedene Modelle wie Llama3 konvertieren und einsetzen
- Bei der Geschwindigkeit llama.cpp in den meisten Fällen überlegen; insbesondere bei Qwen3-0.6B wurde eine 13-fach höhere Verarbeitungsgeschwindigkeit erreicht
- Durch Swift-Bindings, CLI-Schnittstelle und Rust-API ist flexible Entwicklung und Integration möglich
- Modularer Aufbau und Nutzung des Unified Memory von Apple-Geräten zur Maximierung der Leistung sowie überprüfbare Inferenzpfade für mehr Zuverlässigkeit und Skalierbarkeit
Noch keine Kommentare.