57 Punkte von xguru 2025-10-30 | 5 Kommentare | Auf WhatsApp teilen
  • Ein Tool, das dafür entwickelt wurde, LLMs vollständig offline in einer lokalen Umgebung auszuführen, und als einzelne 4,8-MB-Binärdatei, 142-mal kleiner als Ollama, bereitgestellt wird
  • 100 % kompatibel mit der OpenAI API, sodass bestehende Entwicklungstools wie Python, Node.js, VSCode Copilot, Cursor und Continue.dev unverändert angebunden werden können
  • Zero-Config-Architektur, die sofort nach der Installation einsatzbereit ist
    • Automatische Modellerkennung aus Hugging Face, Ollama, lokalen Verzeichnissen usw.
    • Unterstützung für automatische Portzuweisung und Erkennung von LoRA-Adaptern
  • CPU/GPU-Hybrid-Inferenz auf Basis von MOE (Mixture of Experts), wodurch sich große Modelle ab 70B auch auf gewöhnlichen PCs ausführen lassen
    • Dank CPU-Offloading und intelligenter Layer-Verteilung stabiler Betrieb auch bei knapper VRAM-Ausstattung
    • Feingranulare Steuerung über die Optionen --cpu-moe und --n-cpu-moe
  • Unterstützung verschiedener Backends für GPU-Beschleunigung wie CUDA, Vulkan, OpenCL und MLX (Apple Silicon)
    • Automatische Erkennung zur Laufzeit, mit automatischem Wechsel auf CPU, falls keine GPU vorhanden ist
  • Asynchrone Architektur auf Basis von Rust + Tokio für hohe Leistung und Speicherstabilität
    • Verwendet das llama.cpp-Backend und ist mit GGUF-Modellen kompatibel
    • Enthält LRU-Cache, automatisches Load Balancing und integriertes Prometheus-Monitoring
  • Sicherheits- und datenschutzorientiertes Design
    • Daten und Code verlassen die lokale Umgebung nicht
    • Keine API-Schlüssel, keine Tarife, keine tokenbasierte Abrechnung erforderlich
  • Unter MIT-Lizenz dauerhaft kostenlos verfügbar: “FREE now, FREE forever”

5 Kommentare

 
nextstep 2025-11-01

Ich habe Koreanisch, Englisch, Chinesisch und sogar Japanisch getestet, aber zunächst gibt es offenbar ein Problem bei der Verarbeitung von Japanisch.

 
woung717 2025-11-01

Wenn das Backend am Ende ohnehin llama.cpp ist, kann man es dann wirklich als dependency-free bezeichnen ...

 
tsboard 2025-10-30

Wow, das ist wirklich der Hammer, krass. Das muss ich sofort ausprobieren.

 
kimjoin2 2025-10-30

wow

 
mssmss 2025-10-30

Bei den Mitwirkenden sind Claude und Copilot beide aufgeführt.