Shimmy – leichtgewichtiger, datenschutzorientierter OpenAI-API-Server als Ollama-Alternative

xguru · 2025-10-30T09:31:02+09:00

Ein Tool, das dafür entwickelt wurde, LLMs vollständig offline in einer lokalen Umgebung auszuführen, und als einzelne 4,8-MB-Binärdatei, 142-mal kleiner als Ollama, bereitgestellt wird 100 % kompatibel mit der OpenAI API, sodass bestehende Entwicklungstools wie Python, Node.js, VSCode Copilot, Cursor und Continue.dev unverändert angebunden werden können Zero-Config-Architektur, die sofort nach der Installation einsatzbereit ist Automatische Modellerkennung aus Hugging Face, Ollama, lokalen Verzeichnissen usw. Unterstützung für automatische Portzuweisung und Erkennung von LoRA-Adaptern CPU/GPU-Hybrid-Inferenz auf Basis von MOE (Mixture of Experts), wodurch sich große Modelle ab 70B auch auf gewöhnlichen PCs ausführen lassen Dank CPU-Offloading und intelligenter Layer-Verteilung stabiler Betrieb auch bei knapper VRAM-Ausstattung Feingranulare Steuerung über die Optionen --cpu-moe und --n-cpu-moe Unterstützung verschiedener Backends für GPU-Beschleunigung wie CUDA, Vulkan, OpenCL und MLX (Apple Silicon) Automatische Erkennung zur Laufzeit, mit automatischem Wechsel auf CPU, falls keine GPU vorhanden ist Asynchrone Architektur auf Basis von Rust + Tokio für hohe Leistung und Speicherstabilität Verwendet das llama.cpp-Backend und ist mit GGUF-Modellen kompatibel Enthält LRU-Cache, automatisches Load Balancing und integriertes Prometheus-Monitoring Sicherheits- und datenschutzorientiertes Design Daten und Code verlassen die lokale Umgebung nicht Keine API-Schlüssel, keine Tarife, keine tokenbasierte Abrechnung erforderlich Unter MIT-Lizenz dauerhaft kostenlos verfügbar: “FREE now, FREE forever”

(github.com/Michael-A-Kuykendall)

57 Punkte von xguru 2025-10-30 | 5 Kommentare | Auf WhatsApp teilen

Ein Tool, das dafür entwickelt wurde, LLMs vollständig offline in einer lokalen Umgebung auszuführen, und als einzelne 4,8-MB-Binärdatei, 142-mal kleiner als Ollama, bereitgestellt wird
100 % kompatibel mit der OpenAI API, sodass bestehende Entwicklungstools wie Python, Node.js, VSCode Copilot, Cursor und Continue.dev unverändert angebunden werden können
Zero-Config-Architektur, die sofort nach der Installation einsatzbereit ist
- Automatische Modellerkennung aus Hugging Face, Ollama, lokalen Verzeichnissen usw.
- Unterstützung für automatische Portzuweisung und Erkennung von LoRA-Adaptern
CPU/GPU-Hybrid-Inferenz auf Basis von MOE (Mixture of Experts), wodurch sich große Modelle ab 70B auch auf gewöhnlichen PCs ausführen lassen
- Dank CPU-Offloading und intelligenter Layer-Verteilung stabiler Betrieb auch bei knapper VRAM-Ausstattung
- Feingranulare Steuerung über die Optionen --cpu-moe und --n-cpu-moe
Unterstützung verschiedener Backends für GPU-Beschleunigung wie CUDA, Vulkan, OpenCL und MLX (Apple Silicon)
- Automatische Erkennung zur Laufzeit, mit automatischem Wechsel auf CPU, falls keine GPU vorhanden ist
Asynchrone Architektur auf Basis von Rust + Tokio für hohe Leistung und Speicherstabilität
- Verwendet das llama.cpp-Backend und ist mit GGUF-Modellen kompatibel
- Enthält LRU-Cache, automatisches Load Balancing und integriertes Prometheus-Monitoring
Sicherheits- und datenschutzorientiertes Design
- Daten und Code verlassen die lokale Umgebung nicht
- Keine API-Schlüssel, keine Tarife, keine tokenbasierte Abrechnung erforderlich
Unter MIT-Lizenz dauerhaft kostenlos verfügbar: “FREE now, FREE forever”

5 Kommentare

nextstep 2025-11-01

Ich habe Koreanisch, Englisch, Chinesisch und sogar Japanisch getestet, aber zunächst gibt es offenbar ein Problem bei der Verarbeitung von Japanisch.

woung717 2025-11-01

Wenn das Backend am Ende ohnehin llama.cpp ist, kann man es dann wirklich als dependency-free bezeichnen ...

tsboard 2025-10-30

Wow, das ist wirklich der Hammer, krass. Das muss ich sofort ausprobieren.

kimjoin2 2025-10-30

wow

mssmss 2025-10-30

Bei den Mitwirkenden sind Claude und Copilot beide aufgeführt.

Shimmy – leichtgewichtiger, datenschutzorientierter OpenAI-API-Server als Ollama-Alternative

Verwandte Beiträge

5 Kommentare