Cactus – Ollama für Smartphones

(github.com/cactus-compute)

22 Punkte von xguru 2025-08-05 | Noch keine Kommentare. | Auf WhatsApp teilen

Ein Cross-Platform-Framework, mit dem sich GGUF-Modelle direkt auf verschiedenen Geräten ausführen lassen (Smartphones, Laptops, TVs, Kameras usw.)
- Beliebige GGUF-Modelle von Huggingface, etwa Qwen, Gemma, Llama, DeepSeek usw., können verwendet werden
- LLM-/VLM-/TTS-Modelle direkt in der App bereitstellen und ausführen
Unterstützt Flutter, React-Native, Kotlin Multiplatform und kann verschiedene Modelltypen wie Text-, Vision-, Embedding- und TTS-Modelle on-device ausführen
Unterstützt Modelle von FP32 bis zu 2-Bit-quantisierten Varianten und ermöglicht dadurch hohe Effizienz und stromsparenden Betrieb in mobilen Umgebungen
Unterstützt Chat-Templates (Jinja2), Token-Streaming, automatisches Cloud-Local-Fallback sowie Speech-to-Text
Das Cactus-Backend ist in C/C++ geschrieben und läuft daher direkt in nahezu jeder Umgebung, darunter Mobilgeräte, PCs, Embedded-Systeme und IoT
Auf aktuellen Smartphones läuft Gemma3 1B Q4 mit 20–50 Token/s, Qwen3 4B Q4 mit 7–18 Token/s
Empfohlene Modelle können bei HuggingFace Cactus-Compute heruntergeladen werden

Einsatzpunkte und Vorteile

Im Unterschied zu bestehenden On-Device-LLM-Frameworks bietet es integrierte Unterstützung für mehrere Plattformen, was die Umsetzung einer lokalen Cloud-Hybrid-Architektur erleichtert
Aktuelle LLM-/VLM-/TTS-Modelle mit hoher Leistung und niedrigem Stromverbrauch auf Mobilgeräten nutzbar
Geeignet für vielfältige B2C-/B2B-Szenarien wie private Datenverarbeitung innerhalb von Apps/Services, Offline-AI und Kostensenkung