28 Punkte von GN⁺ 2026-03-03 | 1 Kommentare | Auf WhatsApp teilen
  • Ein Tool, das unter Hunderten von LLM-Modellen und Anbietern mit einem einzigen Befehl die Modelle findet, die auf meinem System-RAM, meiner CPU und GPU tatsächlich ausführbar sind
  • Bewertet jedes Modell nach Qualität, Geschwindigkeit, Eignung und Kontext und zeigt an, ob es lauffähig ist; unterstützt sowohl TUI (Terminal-UI) als auch CLI-Modus
  • Unterstützt Multi-GPU, MoE-Strukturen, dynamische Quantisierung, Geschwindigkeitsschätzung und Integration mit lokalen Laufzeiten (Ollama, llama.cpp, MLX)
  • Analysiert pro Modell den Ausführungsmodus (GPU, CPU+GPU, CPU) und den Eignungsgrad (Perfect, Good, Marginal, Too Tight) und schlägt die optimale Kombination vor
  • Bietet Entwicklern, die LLMs in lokalen Umgebungen effizient nutzen wollen, eine automatisierte hardwarebasierte Modellauswahl

Überblick über die wichtigsten Funktionen

  • llmfit ist ein terminalbasiertes Tool, das die Hardware-Spezifikationen des Systems erkennt und bewertet, ob LLM-Modelle tatsächlich ausgeführt werden können
    • Liest RAM-, CPU- und GPU-Informationen aus und berechnet für jedes Modell Bewertungen für Qualität, Geschwindigkeit, Eignung und Kontext
    • Die Ergebnisse werden entweder als interaktive TUI oder in klassischer CLI dargestellt
  • Unterstützt Multi-GPU, Mixture-of-Experts (MoE), dynamische Quantisierungsauswahl, Geschwindigkeitsschätzung und Integration lokaler Laufzeiten
  • Unterstützt als lokale Laufzeiten Ollama, llama.cpp und MLX; installierte Modelle können automatisch erkannt und heruntergeladen werden
  • Mit dem Plan-Modus lassen sich die minimalen und empfohlenen Hardware-Anforderungen für ein bestimmtes Modell rückwärts berechnen
  • Läuft auf verschiedenen Plattformen wie macOS, Linux, Windows und Ascend

Installation und Ausführung

  • Unter macOS/Linux Installation mit brew install llmfit oder curl -fsSL https://llmfit.axjns.dev/install.sh | sh
  • Unter Windows ist die Installation über cargo install llmfit möglich
  • Beim Start mit dem Befehl llmfit öffnet sich die TUI und zeigt Systemspezifikationen sowie die Modellliste an
  • Im CLI-Modus stehen verschiedene Unterbefehle zur Verfügung, z. B. llmfit --cli, llmfit fit --perfect -n 5, llmfit recommend --json

Funktionsweise

  • Hardware-Erkennung: Sammelt RAM-, CPU- und GPU-Informationen über sysinfo, nvidia-smi, rocm-smi, system_profiler usw.
  • Modell-Datenbank: Holt Hunderte von Modellen über die HuggingFace API und speichert sie in data/hf_models.json
    • Enthält wichtige Modelle wie Meta Llama, Mistral, Qwen, Google Gemma, Microsoft Phi, DeepSeek und IBM Granite
  • Dynamische Quantisierung: Durchläuft die Stufen Q8_0 bis Q2_K und wählt automatisch die hochwertigste Quantisierung innerhalb des verfügbaren Speichers
  • Geschwindigkeitsschätzung: Verwendet die auf GPU-Speicherbandbreite basierende Formel (bandwidth_GB_s / model_size_GB) × 0.55
    • Integrierte Bandbreitentabelle für rund 80 GPUs
  • Eignungsanalyse: Bewertet für die Modi GPU, CPU+GPU und CPU die Ausführbarkeit sowie die verbleibenden Speicherreserven

Benutzeroberfläche

  • TUI-Tastenkürzel:
    • f für Eignungsfilter, a für Verfügbarkeitsfilter, s zum Ändern des Sortierkriteriums
    • p zum Wechsel in den Plan-Modus, d zum Herunterladen von Modellen, t zum Wechseln des Themes
  • Im Plan-Modus lassen sich Kontextlänge, Quantisierung, Ziel-Token-Geschwindigkeit usw. anpassen, um die benötigte VRAM/RAM/CPU zu berechnen
  • Themes: 6 integrierte Farbthemes, darunter Default, Dracula, Solarized, Nord, Monokai und Gruvbox

Laufzeiten und Integrationsfunktionen

  • Ollama-Integration: Verbindung zu lokalen oder entfernten Ollama-Instanzen (OLLAMA_HOST-Umgebungsvariable), um installierte Modelle zu erkennen und herunterzuladen
  • llama.cpp-Integration: Lädt HuggingFace-GGUF-Dateien in den lokalen Cache herunter und zeigt den Installationsstatus an
  • MLX-Integration: Unterstützt Modell-Cache und Server-Anbindung für Apple Silicon
  • OpenClaw-Anbindung: Über den Skill llmfit-advisor kann der OpenClaw-Agent automatisch zur Hardware passende Modelle empfehlen und konfigurieren

Verwaltung der Modell-Datenbank

  • Mit dem Skript scripts/scrape_hf_models.py wird die Modellliste automatisch über die HuggingFace API erzeugt
  • Mit make update-models werden die Daten aktualisiert und die Binärdatei neu gebaut
  • Modelle werden in Kategorien wie allgemein, Coding, Reasoning, multimodal, Chat und Embedding eingeteilt
  • Der GGUF-Source-Cache (data/gguf_sources_cache.json) zwischenspeichert Download-Pfade für 7 Tage

Plattformunterstützung

  • Linux/macOS (Apple Silicon): vollständig unterstützt
  • Windows: Unterstützt RAM-/CPU-Erkennung und NVIDIA-GPUs (nvidia-smi)
  • Falls die GPU-Erkennung fehlschlägt, kann VRAM manuell mit der Option --memory= angegeben werden

Lizenz

  • MIT-Lizenz

1 Kommentare

 
GN⁺ 2026-03-03
Hacker-News-Kommentare
  • Dieses Projekt wirkt ziemlich cool und nützlich, aber ich wünschte, es wäre eine Website
    Eine ausführbare Datei laufen zu lassen, ist mir unangenehm. Ich denke, so eine Funktion ließe sich auch im Web gut umsetzen

    • Dieses Tool ist auf Hardware-Erkennung angewiesen, deshalb gibt es im Web Einschränkungen
      Laut der GitHub-Erklärung müssen Dinge wie RAM-Größe, Anzahl der GPUs und Backend-Typen (CUDA, Metal usw.) auf Systemebene ausgelesen werden
      Wegen der Sandbox-Beschränkungen des Browsers kann JavaScript nicht direkt auf solche Informationen zugreifen
      Für eine Web-Version müsste der Nutzer also z. B. einen macOS-.spx- oder Linux-inxi-Report hochladen oder die Hardware-Konfiguration manuell auswählen
      Das ist weniger bequem, hat aber den Vorteil, dass man auch virtuelle Hardware-Kombinationen testen kann
    • Bei Hugging Face gibt es etwas Ähnliches, dort muss man die Hardware-Informationen aber manuell eingeben
      Ehrlich gesagt glaube ich nicht, dass viele Leute, die lokale Modelle ausführen, ihre eigene Hardware nicht kennen
    • Ich habe neulich die Website whatmodelscanirun.com gesehen, das könnte als Referenz nützlich sein
    • Auch bei Hugging Face gibt es bereits eine eingebaute Funktion
    • Es gibt auch die Community-basierte LLM-Modell-DB-Seite inferbench.com. Dort werden Token-Geschwindigkeit und Konfigurationsinfos geteilt
  • Dieses Projekt ist wirklich großartig
    Eigentlich braucht man nur die LLM-Größe und die Speicherbandbreite
    Mit einer einfachen Formel kann man beurteilen, ob ein Modell passt
    Um zum Beispiel ein 32B-Modell mit 4bit auszuführen, braucht man mindestens 16 GB VRAM
    Mit tok/s = memory_bandwidth / llm_size kommt man für eine RTX3090 (960GB/s) auf ungefähr 60 tok/s
    Bei MoE-Modellen bestimmen die aktiven Parameter die Geschwindigkeit
    Wenn man noch etwa 10 % Puffer einrechnet, erhält man eine realistische Schätzung

    • Der KV-Cache lässt sich leicht auslagern, weil pro Token nur wenige Schreibvorgänge anfallen
      Wenn man die Modellparameter per mmap lädt, kann man bei ausreichend RAM ohne Performance-Verlust skalieren
    • Gute Faustregel. In den meisten Fällen steigt der RAM-Verbrauch allerdings mit größerem Kontextfenster exponentiell an
    • Diese Formel kannte ich nicht, danke fürs Teilen
  • Optisch sieht es gut aus, aber auf meiner Maschine läuft Qwen 3.5 problemlos, während das Tool sagt, es sei nicht möglich
    Letztlich kann man solche Tools wohl nur als grobe Orientierung nutzen
    Mit Custom-Tuning wie bei Unsloth kann man in der Praxis noch mehr Modelle ausführen
    Es kommen auch so schnell neue Modelle heraus, dass die Wartung wohl nicht einfach ist

    • Wahrscheinlich findet dabei Swapping zwischen Festplatte und RAM statt
      Auf lange Sicht kann so etwas die Lebensdauer der Festplatte verkürzen
  • Die Idee ist gut, aber die empfohlenen Modelle sind etwas veraltet
    Für mein M4 MacBook Pro (128 GB RAM) werden Qwen 2.5 oder Starcoder 2 empfohlen

  • Wie schon mehrere gesagt haben, wäre das als Website besser als als CLI-Tool
    Es sollte reichen, CPU-, RAM- und GPU-Spezifikationen in ein Formular einzugeben, um das zu berechnen

  • Ich verstehe nicht, warum man das unbedingt herunterladen und ausführen muss
    Es wäre schön, einfach die Spezifikationen per Dropdown auszuwählen und dann das Ergebnis zu sehen

  • Die meisten Fälle werden gut abgedeckt, aber bei Dingen wie AMD-iGPUs ohne ROCm-Unterstützung kann man es Vulkan-basiert ausführen
    Wenn man per Treibereinstellung System-RAM wie VRAM nutzt, lassen sich auch Modelle laden, die eigentlich nicht möglich wären
    Das ist besonders nützlich bei Layer-Offloading oder quantisierten MoE-Modellen

  • Claude liefert auch ziemlich gute Modell-Empfehlungen, wenn man die Systemspezifikationen eingibt

    • Ich habe Claude auch gefragt: „Was ist das beste lokale LLM, das auf diesem Computer laufen kann?“ Es hat mir das bereits installierte Modell und noch eine weitere Empfehlung genannt
      Ob die Informationen aktuell sind, weiß ich nicht sicher. Getestet habe ich auf Basis von Ollama und LM Studio
  • Ich lasse Claude oder Codex mit Ollama mehrere Modelle nacheinander ausführen und die Leistung automatisch bewerten
    In etwa 30 Minuten kann man so ein Modell finden, das zum eigenen System passt

    • Mich würde interessieren, ob du diesen Prompt teilen könntest