llmfit – Ein Terminal-Tool, das passende LLM-Modelle für meine Hardware findet und automatisch optimiert

(github.com/AlexsJones)

28 Punkte von GN⁺ 2026-03-03 | 1 Kommentare | Auf WhatsApp teilen

Ein Tool, das unter Hunderten von LLM-Modellen und Anbietern mit einem einzigen Befehl die Modelle findet, die auf meinem System-RAM, meiner CPU und GPU tatsächlich ausführbar sind
Bewertet jedes Modell nach Qualität, Geschwindigkeit, Eignung und Kontext und zeigt an, ob es lauffähig ist; unterstützt sowohl TUI (Terminal-UI) als auch CLI-Modus
Unterstützt Multi-GPU, MoE-Strukturen, dynamische Quantisierung, Geschwindigkeitsschätzung und Integration mit lokalen Laufzeiten (Ollama, llama.cpp, MLX)
Analysiert pro Modell den Ausführungsmodus (GPU, CPU+GPU, CPU) und den Eignungsgrad (Perfect, Good, Marginal, Too Tight) und schlägt die optimale Kombination vor
Bietet Entwicklern, die LLMs in lokalen Umgebungen effizient nutzen wollen, eine automatisierte hardwarebasierte Modellauswahl

Überblick über die wichtigsten Funktionen

llmfit ist ein terminalbasiertes Tool, das die Hardware-Spezifikationen des Systems erkennt und bewertet, ob LLM-Modelle tatsächlich ausgeführt werden können
- Liest RAM-, CPU- und GPU-Informationen aus und berechnet für jedes Modell Bewertungen für Qualität, Geschwindigkeit, Eignung und Kontext
- Die Ergebnisse werden entweder als interaktive TUI oder in klassischer CLI dargestellt
Unterstützt Multi-GPU, Mixture-of-Experts (MoE), dynamische Quantisierungsauswahl, Geschwindigkeitsschätzung und Integration lokaler Laufzeiten
Unterstützt als lokale Laufzeiten Ollama, llama.cpp und MLX; installierte Modelle können automatisch erkannt und heruntergeladen werden
Mit dem Plan-Modus lassen sich die minimalen und empfohlenen Hardware-Anforderungen für ein bestimmtes Modell rückwärts berechnen
Läuft auf verschiedenen Plattformen wie macOS, Linux, Windows und Ascend

Installation und Ausführung

Unter macOS/Linux Installation mit brew install llmfit oder curl -fsSL https://llmfit.axjns.dev/install.sh | sh
Unter Windows ist die Installation über cargo install llmfit möglich
Beim Start mit dem Befehl llmfit öffnet sich die TUI und zeigt Systemspezifikationen sowie die Modellliste an
Im CLI-Modus stehen verschiedene Unterbefehle zur Verfügung, z. B. llmfit --cli, llmfit fit --perfect -n 5, llmfit recommend --json

Funktionsweise

Hardware-Erkennung: Sammelt RAM-, CPU- und GPU-Informationen über sysinfo, nvidia-smi, rocm-smi, system_profiler usw.
Modell-Datenbank: Holt Hunderte von Modellen über die HuggingFace API und speichert sie in data/hf_models.json
- Enthält wichtige Modelle wie Meta Llama, Mistral, Qwen, Google Gemma, Microsoft Phi, DeepSeek und IBM Granite
Dynamische Quantisierung: Durchläuft die Stufen Q8_0 bis Q2_K und wählt automatisch die hochwertigste Quantisierung innerhalb des verfügbaren Speichers
Geschwindigkeitsschätzung: Verwendet die auf GPU-Speicherbandbreite basierende Formel (bandwidth_GB_s / model_size_GB) × 0.55
- Integrierte Bandbreitentabelle für rund 80 GPUs
Eignungsanalyse: Bewertet für die Modi GPU, CPU+GPU und CPU die Ausführbarkeit sowie die verbleibenden Speicherreserven

Benutzeroberfläche

TUI-Tastenkürzel:
- f für Eignungsfilter, a für Verfügbarkeitsfilter, s zum Ändern des Sortierkriteriums
- p zum Wechsel in den Plan-Modus, d zum Herunterladen von Modellen, t zum Wechseln des Themes
Im Plan-Modus lassen sich Kontextlänge, Quantisierung, Ziel-Token-Geschwindigkeit usw. anpassen, um die benötigte VRAM/RAM/CPU zu berechnen
Themes: 6 integrierte Farbthemes, darunter Default, Dracula, Solarized, Nord, Monokai und Gruvbox

Laufzeiten und Integrationsfunktionen

Ollama-Integration: Verbindung zu lokalen oder entfernten Ollama-Instanzen (OLLAMA_HOST-Umgebungsvariable), um installierte Modelle zu erkennen und herunterzuladen
llama.cpp-Integration: Lädt HuggingFace-GGUF-Dateien in den lokalen Cache herunter und zeigt den Installationsstatus an
MLX-Integration: Unterstützt Modell-Cache und Server-Anbindung für Apple Silicon
OpenClaw-Anbindung: Über den Skill llmfit-advisor kann der OpenClaw-Agent automatisch zur Hardware passende Modelle empfehlen und konfigurieren

Verwaltung der Modell-Datenbank

Mit dem Skript scripts/scrape_hf_models.py wird die Modellliste automatisch über die HuggingFace API erzeugt
Mit make update-models werden die Daten aktualisiert und die Binärdatei neu gebaut
Modelle werden in Kategorien wie allgemein, Coding, Reasoning, multimodal, Chat und Embedding eingeteilt
Der GGUF-Source-Cache (data/gguf_sources_cache.json) zwischenspeichert Download-Pfade für 7 Tage

Plattformunterstützung

Linux/macOS (Apple Silicon): vollständig unterstützt
Windows: Unterstützt RAM-/CPU-Erkennung und NVIDIA-GPUs (nvidia-smi)
Falls die GPU-Erkennung fehlschlägt, kann VRAM manuell mit der Option --memory= angegeben werden

Lizenz

MIT-Lizenz

1 Kommentare

GN⁺ 2026-03-03

Hacker-News-Kommentare

Dieses Projekt wirkt ziemlich cool und nützlich, aber ich wünschte, es wäre eine Website
Eine ausführbare Datei laufen zu lassen, ist mir unangenehm. Ich denke, so eine Funktion ließe sich auch im Web gut umsetzen
- Dieses Tool ist auf Hardware-Erkennung angewiesen, deshalb gibt es im Web Einschränkungen
  Laut der GitHub-Erklärung müssen Dinge wie RAM-Größe, Anzahl der GPUs und Backend-Typen (CUDA, Metal usw.) auf Systemebene ausgelesen werden
  Wegen der Sandbox-Beschränkungen des Browsers kann JavaScript nicht direkt auf solche Informationen zugreifen
  Für eine Web-Version müsste der Nutzer also z. B. einen macOS-.spx- oder Linux-inxi-Report hochladen oder die Hardware-Konfiguration manuell auswählen
  Das ist weniger bequem, hat aber den Vorteil, dass man auch virtuelle Hardware-Kombinationen testen kann
- Bei Hugging Face gibt es etwas Ähnliches, dort muss man die Hardware-Informationen aber manuell eingeben
  Ehrlich gesagt glaube ich nicht, dass viele Leute, die lokale Modelle ausführen, ihre eigene Hardware nicht kennen
- Ich habe neulich die Website whatmodelscanirun.com gesehen, das könnte als Referenz nützlich sein
- Auch bei Hugging Face gibt es bereits eine eingebaute Funktion
- Es gibt auch die Community-basierte LLM-Modell-DB-Seite inferbench.com. Dort werden Token-Geschwindigkeit und Konfigurationsinfos geteilt
Dieses Projekt ist wirklich großartig
Eigentlich braucht man nur die LLM-Größe und die Speicherbandbreite
Mit einer einfachen Formel kann man beurteilen, ob ein Modell passt
Um zum Beispiel ein 32B-Modell mit 4bit auszuführen, braucht man mindestens 16 GB VRAM
Mit tok/s = memory_bandwidth / llm_size kommt man für eine RTX3090 (960GB/s) auf ungefähr 60 tok/s
Bei MoE-Modellen bestimmen die aktiven Parameter die Geschwindigkeit
Wenn man noch etwa 10 % Puffer einrechnet, erhält man eine realistische Schätzung
- Der KV-Cache lässt sich leicht auslagern, weil pro Token nur wenige Schreibvorgänge anfallen
  Wenn man die Modellparameter per mmap lädt, kann man bei ausreichend RAM ohne Performance-Verlust skalieren
- Gute Faustregel. In den meisten Fällen steigt der RAM-Verbrauch allerdings mit größerem Kontextfenster exponentiell an
- Diese Formel kannte ich nicht, danke fürs Teilen
Optisch sieht es gut aus, aber auf meiner Maschine läuft Qwen 3.5 problemlos, während das Tool sagt, es sei nicht möglich
Letztlich kann man solche Tools wohl nur als grobe Orientierung nutzen
Mit Custom-Tuning wie bei Unsloth kann man in der Praxis noch mehr Modelle ausführen
Es kommen auch so schnell neue Modelle heraus, dass die Wartung wohl nicht einfach ist
- Wahrscheinlich findet dabei Swapping zwischen Festplatte und RAM statt
  Auf lange Sicht kann so etwas die Lebensdauer der Festplatte verkürzen
Die Idee ist gut, aber die empfohlenen Modelle sind etwas veraltet
Für mein M4 MacBook Pro (128 GB RAM) werden Qwen 2.5 oder Starcoder 2 empfohlen
Wie schon mehrere gesagt haben, wäre das als Website besser als als CLI-Tool
Es sollte reichen, CPU-, RAM- und GPU-Spezifikationen in ein Formular einzugeben, um das zu berechnen
Ich verstehe nicht, warum man das unbedingt herunterladen und ausführen muss
Es wäre schön, einfach die Spezifikationen per Dropdown auszuwählen und dann das Ergebnis zu sehen
Die meisten Fälle werden gut abgedeckt, aber bei Dingen wie AMD-iGPUs ohne ROCm-Unterstützung kann man es Vulkan-basiert ausführen
Wenn man per Treibereinstellung System-RAM wie VRAM nutzt, lassen sich auch Modelle laden, die eigentlich nicht möglich wären
Das ist besonders nützlich bei Layer-Offloading oder quantisierten MoE-Modellen
Claude liefert auch ziemlich gute Modell-Empfehlungen, wenn man die Systemspezifikationen eingibt
- Ich habe Claude auch gefragt: „Was ist das beste lokale LLM, das auf diesem Computer laufen kann?“ Es hat mir das bereits installierte Modell und noch eine weitere Empfehlung genannt
  Ob die Informationen aktuell sind, weiß ich nicht sicher. Getestet habe ich auf Basis von Ollama und LM Studio
Ich lasse Claude oder Codex mit Ollama mehrere Modelle nacheinander ausführen und die Leistung automatisch bewerten
In etwa 30 Minuten kann man so ein Modell finden, das zum eigenen System passt
- Mich würde interessieren, ob du diesen Prompt teilen könntest

llmfit – Ein Terminal-Tool, das passende LLM-Modelle für meine Hardware findet und automatisch optimiert

Überblick über die wichtigsten Funktionen

Installation und Ausführung

Funktionsweise

Benutzeroberfläche

Laufzeiten und Integrationsfunktionen

Verwaltung der Modell-Datenbank

Plattformunterstützung

Lizenz

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare