- Ein Tool, das unter Hunderten von LLM-Modellen und Anbietern mit einem einzigen Befehl die Modelle findet, die auf meinem System-RAM, meiner CPU und GPU tatsächlich ausführbar sind
- Bewertet jedes Modell nach Qualität, Geschwindigkeit, Eignung und Kontext und zeigt an, ob es lauffähig ist; unterstützt sowohl TUI (Terminal-UI) als auch CLI-Modus
- Unterstützt Multi-GPU, MoE-Strukturen, dynamische Quantisierung, Geschwindigkeitsschätzung und Integration mit lokalen Laufzeiten (Ollama, llama.cpp, MLX)
- Analysiert pro Modell den Ausführungsmodus (GPU, CPU+GPU, CPU) und den Eignungsgrad (Perfect, Good, Marginal, Too Tight) und schlägt die optimale Kombination vor
- Bietet Entwicklern, die LLMs in lokalen Umgebungen effizient nutzen wollen, eine automatisierte hardwarebasierte Modellauswahl
Überblick über die wichtigsten Funktionen
- llmfit ist ein terminalbasiertes Tool, das die Hardware-Spezifikationen des Systems erkennt und bewertet, ob LLM-Modelle tatsächlich ausgeführt werden können
- Liest RAM-, CPU- und GPU-Informationen aus und berechnet für jedes Modell Bewertungen für Qualität, Geschwindigkeit, Eignung und Kontext
- Die Ergebnisse werden entweder als interaktive TUI oder in klassischer CLI dargestellt
- Unterstützt Multi-GPU, Mixture-of-Experts (MoE), dynamische Quantisierungsauswahl, Geschwindigkeitsschätzung und Integration lokaler Laufzeiten
- Unterstützt als lokale Laufzeiten Ollama, llama.cpp und MLX; installierte Modelle können automatisch erkannt und heruntergeladen werden
- Mit dem Plan-Modus lassen sich die minimalen und empfohlenen Hardware-Anforderungen für ein bestimmtes Modell rückwärts berechnen
- Läuft auf verschiedenen Plattformen wie macOS, Linux, Windows und Ascend
Installation und Ausführung
- Unter macOS/Linux Installation mit
brew install llmfit oder curl -fsSL https://llmfit.axjns.dev/install.sh | sh
- Unter Windows ist die Installation über
cargo install llmfit möglich
- Beim Start mit dem Befehl
llmfit öffnet sich die TUI und zeigt Systemspezifikationen sowie die Modellliste an
- Im CLI-Modus stehen verschiedene Unterbefehle zur Verfügung, z. B.
llmfit --cli, llmfit fit --perfect -n 5, llmfit recommend --json
Funktionsweise
- Hardware-Erkennung: Sammelt RAM-, CPU- und GPU-Informationen über
sysinfo, nvidia-smi, rocm-smi, system_profiler usw.
- Modell-Datenbank: Holt Hunderte von Modellen über die HuggingFace API und speichert sie in
data/hf_models.json
- Enthält wichtige Modelle wie Meta Llama, Mistral, Qwen, Google Gemma, Microsoft Phi, DeepSeek und IBM Granite
- Dynamische Quantisierung: Durchläuft die Stufen Q8_0 bis Q2_K und wählt automatisch die hochwertigste Quantisierung innerhalb des verfügbaren Speichers
- Geschwindigkeitsschätzung: Verwendet die auf GPU-Speicherbandbreite basierende Formel
(bandwidth_GB_s / model_size_GB) × 0.55
- Integrierte Bandbreitentabelle für rund 80 GPUs
- Eignungsanalyse: Bewertet für die Modi GPU, CPU+GPU und CPU die Ausführbarkeit sowie die verbleibenden Speicherreserven
Benutzeroberfläche
- TUI-Tastenkürzel:
f für Eignungsfilter, a für Verfügbarkeitsfilter, s zum Ändern des Sortierkriteriums
p zum Wechsel in den Plan-Modus, d zum Herunterladen von Modellen, t zum Wechseln des Themes
- Im Plan-Modus lassen sich Kontextlänge, Quantisierung, Ziel-Token-Geschwindigkeit usw. anpassen, um die benötigte VRAM/RAM/CPU zu berechnen
- Themes: 6 integrierte Farbthemes, darunter Default, Dracula, Solarized, Nord, Monokai und Gruvbox
Laufzeiten und Integrationsfunktionen
- Ollama-Integration: Verbindung zu lokalen oder entfernten Ollama-Instanzen (
OLLAMA_HOST-Umgebungsvariable), um installierte Modelle zu erkennen und herunterzuladen
- llama.cpp-Integration: Lädt HuggingFace-GGUF-Dateien in den lokalen Cache herunter und zeigt den Installationsstatus an
- MLX-Integration: Unterstützt Modell-Cache und Server-Anbindung für Apple Silicon
- OpenClaw-Anbindung: Über den Skill
llmfit-advisor kann der OpenClaw-Agent automatisch zur Hardware passende Modelle empfehlen und konfigurieren
Verwaltung der Modell-Datenbank
- Mit dem Skript
scripts/scrape_hf_models.py wird die Modellliste automatisch über die HuggingFace API erzeugt
- Mit
make update-models werden die Daten aktualisiert und die Binärdatei neu gebaut
- Modelle werden in Kategorien wie allgemein, Coding, Reasoning, multimodal, Chat und Embedding eingeteilt
- Der GGUF-Source-Cache (
data/gguf_sources_cache.json) zwischenspeichert Download-Pfade für 7 Tage
Plattformunterstützung
- Linux/macOS (Apple Silicon): vollständig unterstützt
- Windows: Unterstützt RAM-/CPU-Erkennung und NVIDIA-GPUs (
nvidia-smi)
- Falls die GPU-Erkennung fehlschlägt, kann VRAM manuell mit der Option
--memory= angegeben werden
Lizenz
1 Kommentare
Hacker-News-Kommentare
Dieses Projekt wirkt ziemlich cool und nützlich, aber ich wünschte, es wäre eine Website
Eine ausführbare Datei laufen zu lassen, ist mir unangenehm. Ich denke, so eine Funktion ließe sich auch im Web gut umsetzen
Laut der GitHub-Erklärung müssen Dinge wie RAM-Größe, Anzahl der GPUs und Backend-Typen (CUDA, Metal usw.) auf Systemebene ausgelesen werden
Wegen der Sandbox-Beschränkungen des Browsers kann JavaScript nicht direkt auf solche Informationen zugreifen
Für eine Web-Version müsste der Nutzer also z. B. einen macOS-
.spx- oder Linux-inxi-Report hochladen oder die Hardware-Konfiguration manuell auswählenDas ist weniger bequem, hat aber den Vorteil, dass man auch virtuelle Hardware-Kombinationen testen kann
Ehrlich gesagt glaube ich nicht, dass viele Leute, die lokale Modelle ausführen, ihre eigene Hardware nicht kennen
Dieses Projekt ist wirklich großartig
Eigentlich braucht man nur die LLM-Größe und die Speicherbandbreite
Mit einer einfachen Formel kann man beurteilen, ob ein Modell passt
Um zum Beispiel ein 32B-Modell mit 4bit auszuführen, braucht man mindestens 16 GB VRAM
Mit
tok/s = memory_bandwidth / llm_sizekommt man für eine RTX3090 (960GB/s) auf ungefähr 60 tok/sBei MoE-Modellen bestimmen die aktiven Parameter die Geschwindigkeit
Wenn man noch etwa 10 % Puffer einrechnet, erhält man eine realistische Schätzung
Wenn man die Modellparameter per
mmaplädt, kann man bei ausreichend RAM ohne Performance-Verlust skalierenOptisch sieht es gut aus, aber auf meiner Maschine läuft Qwen 3.5 problemlos, während das Tool sagt, es sei nicht möglich
Letztlich kann man solche Tools wohl nur als grobe Orientierung nutzen
Mit Custom-Tuning wie bei Unsloth kann man in der Praxis noch mehr Modelle ausführen
Es kommen auch so schnell neue Modelle heraus, dass die Wartung wohl nicht einfach ist
Auf lange Sicht kann so etwas die Lebensdauer der Festplatte verkürzen
Die Idee ist gut, aber die empfohlenen Modelle sind etwas veraltet
Für mein M4 MacBook Pro (128 GB RAM) werden Qwen 2.5 oder Starcoder 2 empfohlen
Wie schon mehrere gesagt haben, wäre das als Website besser als als CLI-Tool
Es sollte reichen, CPU-, RAM- und GPU-Spezifikationen in ein Formular einzugeben, um das zu berechnen
Ich verstehe nicht, warum man das unbedingt herunterladen und ausführen muss
Es wäre schön, einfach die Spezifikationen per Dropdown auszuwählen und dann das Ergebnis zu sehen
Die meisten Fälle werden gut abgedeckt, aber bei Dingen wie AMD-iGPUs ohne ROCm-Unterstützung kann man es Vulkan-basiert ausführen
Wenn man per Treibereinstellung System-RAM wie VRAM nutzt, lassen sich auch Modelle laden, die eigentlich nicht möglich wären
Das ist besonders nützlich bei Layer-Offloading oder quantisierten MoE-Modellen
Claude liefert auch ziemlich gute Modell-Empfehlungen, wenn man die Systemspezifikationen eingibt
Ob die Informationen aktuell sind, weiß ich nicht sicher. Getestet habe ich auf Basis von Ollama und LM Studio
Ich lasse Claude oder Codex mit Ollama mehrere Modelle nacheinander ausführen und die Leistung automatisch bewerten
In etwa 30 Minuten kann man so ein Modell finden, das zum eigenen System passt