- Ein Cross-Platform-Framework, mit dem sich GGUF-Modelle direkt auf verschiedenen Geräten ausführen lassen (Smartphones, Laptops, TVs, Kameras usw.)
- Beliebige GGUF-Modelle von Huggingface, etwa Qwen, Gemma, Llama, DeepSeek usw., können verwendet werden
- LLM-/VLM-/TTS-Modelle direkt in der App bereitstellen und ausführen
- Unterstützt Flutter, React-Native, Kotlin Multiplatform und kann verschiedene Modelltypen wie Text-, Vision-, Embedding- und TTS-Modelle on-device ausführen
- Unterstützt Modelle von FP32 bis zu 2-Bit-quantisierten Varianten und ermöglicht dadurch hohe Effizienz und stromsparenden Betrieb in mobilen Umgebungen
- Unterstützt Chat-Templates (Jinja2), Token-Streaming, automatisches Cloud-Local-Fallback sowie Speech-to-Text
- Das Cactus-Backend ist in C/C++ geschrieben und läuft daher direkt in nahezu jeder Umgebung, darunter Mobilgeräte, PCs, Embedded-Systeme und IoT
- Auf aktuellen Smartphones läuft Gemma3 1B Q4 mit 20–50 Token/s, Qwen3 4B Q4 mit 7–18 Token/s
- Empfohlene Modelle können bei HuggingFace Cactus-Compute heruntergeladen werden
Einsatzpunkte und Vorteile
- Im Unterschied zu bestehenden On-Device-LLM-Frameworks bietet es integrierte Unterstützung für mehrere Plattformen, was die Umsetzung einer lokalen Cloud-Hybrid-Architektur erleichtert
- Aktuelle LLM-/VLM-/TTS-Modelle mit hoher Leistung und niedrigem Stromverbrauch auf Mobilgeräten nutzbar
- Geeignet für vielfältige B2C-/B2B-Szenarien wie private Datenverarbeitung innerhalb von Apps/Services, Offline-AI und Kostensenkung
Noch keine Kommentare.