Shimmy – leichtgewichtiger, datenschutzorientierter OpenAI-API-Server als Ollama-Alternative
(github.com/Michael-A-Kuykendall)- Ein Tool, das dafür entwickelt wurde, LLMs vollständig offline in einer lokalen Umgebung auszuführen, und als einzelne 4,8-MB-Binärdatei, 142-mal kleiner als Ollama, bereitgestellt wird
- 100 % kompatibel mit der OpenAI API, sodass bestehende Entwicklungstools wie Python, Node.js, VSCode Copilot, Cursor und Continue.dev unverändert angebunden werden können
- Zero-Config-Architektur, die sofort nach der Installation einsatzbereit ist
- Automatische Modellerkennung aus Hugging Face, Ollama, lokalen Verzeichnissen usw.
- Unterstützung für automatische Portzuweisung und Erkennung von LoRA-Adaptern
- CPU/GPU-Hybrid-Inferenz auf Basis von MOE (Mixture of Experts), wodurch sich große Modelle ab 70B auch auf gewöhnlichen PCs ausführen lassen
- Dank CPU-Offloading und intelligenter Layer-Verteilung stabiler Betrieb auch bei knapper VRAM-Ausstattung
- Feingranulare Steuerung über die Optionen
--cpu-moeund--n-cpu-moe
- Unterstützung verschiedener Backends für GPU-Beschleunigung wie CUDA, Vulkan, OpenCL und MLX (Apple Silicon)
- Automatische Erkennung zur Laufzeit, mit automatischem Wechsel auf CPU, falls keine GPU vorhanden ist
- Asynchrone Architektur auf Basis von Rust + Tokio für hohe Leistung und Speicherstabilität
- Verwendet das llama.cpp-Backend und ist mit GGUF-Modellen kompatibel
- Enthält LRU-Cache, automatisches Load Balancing und integriertes Prometheus-Monitoring
- Sicherheits- und datenschutzorientiertes Design
- Daten und Code verlassen die lokale Umgebung nicht
- Keine API-Schlüssel, keine Tarife, keine tokenbasierte Abrechnung erforderlich
- Unter MIT-Lizenz dauerhaft kostenlos verfügbar: “FREE now, FREE forever”
5 Kommentare
Ich habe Koreanisch, Englisch, Chinesisch und sogar Japanisch getestet, aber zunächst gibt es offenbar ein Problem bei der Verarbeitung von Japanisch.
Wenn das Backend am Ende ohnehin
llama.cppist, kann man es dann wirklich als dependency-free bezeichnen ...Wow, das ist wirklich der Hammer, krass. Das muss ich sofort ausprobieren.
wow
Bei den Mitwirkenden sind Claude und Copilot beide aufgeführt.