whichllm – Das lokale LLM finden, das auf meiner Hardware tatsächlich läuft und die beste Leistung liefert
(github.com/Andyyyy64)- Ein CLI-Tool, das auf Basis gemessener Benchmarks statt nur der Parameterzahl automatisch lokale LLMs empfiehlt, die zur Hardware des Nutzers passen
- Erkennt GPU/CPU/RAM automatisch und präsentiert unter HuggingFace-Modellen ein Ranking der besten Modelle für das jeweilige System
- Unterstützt NVIDIA, AMD, Apple Silicon und reine CPU-Systeme
- Das zentrale Ziel ist nicht, einfach das größte Modell zu wählen, das in den VRAM passt, sondern das tatsächlich beste Modell unter diesen auszuwählen
- Beispiel: Bei einer RTX-4090-Simulation wird selbst dann, wenn ein 32B-Modell hineinpasst, ein Modell der neueren Generation, 27B (Qwen3.6-27B), auf Platz 1 empfohlen
- Zusammengeführte Bewertung aus mehreren Benchmarks: LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO und Open LLM Leaderboard werden zu einem Score von 0–100 zusammengeführt
- Erkennung aktueller Modelle (Recency-aware): Ältere Leaderboards werden entlang der Modell-Linie abgewertet, damit Modelle aus 2024 keine aktuellen Modelle mit veralteten Scores überholen können
- 5-stufige Einstufung der Evidenz – mit Tags wie
direct/variant/base_model/line_interp/self_reportedplus Vertrauensabschlag- Blockiert sowohl falsche Selbstangaben von Uploadern als auch Cross-Family-Vererbung, bei der kleine Forks sich hohe Scores großer Basismodelle ausleihen
- Wenn die Parameterzahl mehr als um das Doppelte vom dominanten Familienmitglied abweicht, wird die Vererbung verweigert
- Architekturbewusste Schätzung von VRAM und Geschwindigkeit – VRAM basiert auf Gewichten + GQA-KV-Cache + Aktivierungen + Overhead; bei der Geschwindigkeit werden bandbreitengebundene Faktoren, MoE active vs total sowie Unified Memory vs partielles PCIe-Offloading berücksichtigt
- Unterstützt einen One-Command-Workflow, mit dem sich per
whichllm runin einer Zeile sofort Modell-Download und Chat ausführen lassen- Erstellt mit
uveine isolierte Umgebung, installiert Abhängigkeiten, lädt das Modell herunter und startet automatisch einen interaktiven Chat - Unterstützt alle Formate: GGUF / AWQ / GPTQ / FP16 / BF16
- Erstellt mit
- Hardware-Planungsbefehle
whichllm --gpu "RTX 5090"– Beliebige GPU simulieren und vor dem Kauf prüfenwhichllm plan "llama 3 70b"– Rückwärtssuche nach den für ein bestimmtes Modell nötigen GPUswhichllm upgrade "RTX 4090" "RTX 5090" "H100"– Aktuelle Maschine mit Kandidaten-GPUs vergleichen
- Ollama-Integration: Pipelines lassen sich in der Form
whichllm --top 1 --json | jq -r '.models[0].model_id'aufbauen - Ausgabe von Code-Snippets: Mit
whichllm snippet "qwen 7b"wird direkt kopierbarer Python-Code vonllama_cpp.Llama.from_pretrainedbis zur Chat-Vervollständigung ausgegeben - MIT-Lizenz
3 Kommentare
Ich würde diese fünf empfehlen. Drei davon sind Qwen.
Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B
Ich habe bisher die Website https://www.canirun.ai/ genutzt, aber das sollte ich wohl auch mal ausprobieren.