whichllm – Das lokale LLM finden, das auf meiner Hardware tatsächlich läuft und die beste Leistung liefert

xguru · 2026-05-18T10:06:01+09:00

Ein CLI-Tool, das auf Basis gemessener Benchmarks statt nur der Parameterzahl automatisch lokale LLMs empfiehlt, die zur Hardware des Nutzers passen Erkennt GPU/CPU/RAM automatisch und präsentiert unter HuggingFace-Modellen ein Ranking der besten Modelle für das jeweilige System Unterstützt NVIDIA, AMD, Apple Silicon und reine CPU-Systeme Das zentrale Ziel ist nicht, einfach das größte Modell zu wählen, das in den VRAM passt, sondern das tatsächlich beste Modell unter diesen auszuwählen Beispiel: Bei einer RTX-4090-Simulation wird selbst dann, wenn ein 32B-Modell hineinpasst, ein Modell der neueren Generation, 27B (Qwen3.6-27B), auf Platz 1 empfohlen Zusammengeführte Bewertung aus mehreren Benchmarks: LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO und Open LLM Leaderboard werden zu einem Score von 0–100 zusammengeführt Erkennung aktueller Modelle (Recency-aware): Ältere Leaderboards werden entlang der Modell-Linie abgewertet, damit Modelle aus 2024 keine aktuellen Modelle mit veralteten Scores überholen können 5-stufige Einstufung der Evidenz – mit Tags wie direct / variant / base_model / line_interp / self_reported plus Vertrauensabschlag Blockiert sowohl falsche Selbstangaben von Uploadern als auch Cross-Family-Vererbung, bei der kleine Forks sich hohe Scores großer Basismodelle ausleihen Wenn die Parameterzahl mehr als um das Doppelte vom dominanten Familienmitglied abweicht, wird die Vererbung verweigert Architekturbewusste Schätzung von VRAM und Geschwindigkeit – VRAM basiert auf Gewichten + GQA-KV-Cache + Aktivierungen + Overhead; bei der Geschwindigkeit werden bandbreitengebundene Faktoren, MoE active vs total sowie Unified Memory vs partielles PCIe-Offloading berücksichtigt Unterstützt einen One-Command-Workflow, mit dem sich per whichllm run in einer Zeile sofort Modell-Download und Chat ausführen lassen Erstellt mit uv eine isolierte Umgebung, installiert Abhängigkeiten, lädt das Modell herunter und startet automatisch einen interaktiven Chat Unterstützt alle Formate: GGUF / AWQ / GPTQ / FP16 / BF16 Hardware-Planungsbefehle whichllm --gpu "RTX 5090" – Beliebige GPU simulieren und vor dem Kauf prüfen whichllm plan "llama 3 70b" – Rückwärtssuche nach den für ein bestimmtes Modell nötigen GPUs whichllm upgrade "RTX 4090" "RTX 5090" "H100" – Aktuelle Maschine mit Kandidaten-GPUs vergleichen Ollama-Integration: Pipelines lassen sich in der Form whichllm --top 1 --json | jq -r '.models[0].model_id' aufbauen Ausgabe von Code-Snippets: Mit whichllm snippet "qwen 7b" wird direkt kopierbarer Python-Code von llama_cpp.Llama.from_pretrained bis zur Chat-Vervollständigung ausgegeben MIT-Lizenz

(github.com/Andyyyy64)

71 Punkte von xguru 2026-05-18 | 3 Kommentare | Auf WhatsApp teilen

Ein CLI-Tool, das auf Basis gemessener Benchmarks statt nur der Parameterzahl automatisch lokale LLMs empfiehlt, die zur Hardware des Nutzers passen
Erkennt GPU/CPU/RAM automatisch und präsentiert unter HuggingFace-Modellen ein Ranking der besten Modelle für das jeweilige System
- Unterstützt NVIDIA, AMD, Apple Silicon und reine CPU-Systeme
Das zentrale Ziel ist nicht, einfach das größte Modell zu wählen, das in den VRAM passt, sondern das tatsächlich beste Modell unter diesen auszuwählen
- Beispiel: Bei einer RTX-4090-Simulation wird selbst dann, wenn ein 32B-Modell hineinpasst, ein Modell der neueren Generation, 27B (Qwen3.6-27B), auf Platz 1 empfohlen
Zusammengeführte Bewertung aus mehreren Benchmarks: LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO und Open LLM Leaderboard werden zu einem Score von 0–100 zusammengeführt
Erkennung aktueller Modelle (Recency-aware): Ältere Leaderboards werden entlang der Modell-Linie abgewertet, damit Modelle aus 2024 keine aktuellen Modelle mit veralteten Scores überholen können
5-stufige Einstufung der Evidenz – mit Tags wie direct / variant / base_model / line_interp / self_reported plus Vertrauensabschlag
- Blockiert sowohl falsche Selbstangaben von Uploadern als auch Cross-Family-Vererbung, bei der kleine Forks sich hohe Scores großer Basismodelle ausleihen
- Wenn die Parameterzahl mehr als um das Doppelte vom dominanten Familienmitglied abweicht, wird die Vererbung verweigert
Architekturbewusste Schätzung von VRAM und Geschwindigkeit – VRAM basiert auf Gewichten + GQA-KV-Cache + Aktivierungen + Overhead; bei der Geschwindigkeit werden bandbreitengebundene Faktoren, MoE active vs total sowie Unified Memory vs partielles PCIe-Offloading berücksichtigt
Unterstützt einen One-Command-Workflow, mit dem sich per whichllm run in einer Zeile sofort Modell-Download und Chat ausführen lassen
- Erstellt mit uv eine isolierte Umgebung, installiert Abhängigkeiten, lädt das Modell herunter und startet automatisch einen interaktiven Chat
- Unterstützt alle Formate: GGUF / AWQ / GPTQ / FP16 / BF16
Hardware-Planungsbefehle
- whichllm --gpu "RTX 5090" – Beliebige GPU simulieren und vor dem Kauf prüfen
- whichllm plan "llama 3 70b" – Rückwärtssuche nach den für ein bestimmtes Modell nötigen GPUs
- whichllm upgrade "RTX 4090" "RTX 5090" "H100" – Aktuelle Maschine mit Kandidaten-GPUs vergleichen
Ollama-Integration: Pipelines lassen sich in der Form whichllm --top 1 --json | jq -r '.models[0].model_id' aufbauen
Ausgabe von Code-Snippets: Mit whichllm snippet "qwen 7b" wird direkt kopierbarer Python-Code von llama_cpp.Llama.from_pretrained bis zur Chat-Vervollständigung ausgegeben
MIT-Lizenz

3 Kommentare

xguru 2026-05-18

Ich würde diese fünf empfehlen. Drei davon sind Qwen.

Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B

nezz1204 2026-05-19

Ich habe bisher die Website https://www.canirun.ai/ genutzt, aber das sollte ich wohl auch mal ausprobieren.

popopo 2026-05-18

╭────────────────────────────────────────────────────── Hardware-Info ──────────────────────────────────────────────────────╮  
│ GPU 0: Strix Halo [Radeon Graphics / Radeon 8050S Graphics / Radeon 8060S Graphics] — Shared Memory — BW: 256 GB/s      │  
│ CPU: AMD RYZEN AI MAX+ 395 w/ Radeon 8060S — 16 Kerne (AVX2, AVX-512)                                                    │  
│ RAM: 117.5 GB                                                                                                             │  
│ Freier Speicherplatz: 174.1 GB                                                                                            │  
│ OS: linux                                                                                                                 │  
╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯  
  
                                               Empfohlene Modelle  
┏━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━┳━━━━━━━━┳━━━━━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━┳━━━━━━━━━━┓  
┃   # ┃ Modell                                    ┃ Params ┃ Quant  ┃ Veröffentlicht ┃ Downloads ┃ Score ┃ Lizenz  ┃  
┡━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━╇━━━━━━━━╇━━━━━━━━━━━━╇━━━━━━━━━━━╇━━━━━━━╇━━━━━━━━━━┩  
│   1 │ Qwen/Qwen3-Next-80B-A3B-Instruct          │  81.3B │  Q6_K  │ 2025-09-09 │    336.2K │  94.9 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   2 │ openai/gpt-oss-120b                       │ 120.4B │  Q6_K  │ 2025-08-04 │      4.7M │  91.9 │ apache-… │  
│     │                                           │ (5.1B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   3 │ Qwen/Qwen3.6-27B                          │  27.8B │ Q3_K_M │ 2026-04-21 │      3.6M │  85.1 │ apache-… │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   4 │ Qwen/Qwen3-30B-A3B                        │  30.0B │  Q6_K  │ 2025-04-27 │      1.7M │  83.5 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   5 │ google/gemma-4-26B-A4B-it                 │  26.5B │  Q6_K  │ 2026-03-11 │      8.7M │  81.2 │ apache-… │  
│     │                                           │ (3.8B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   6 │ openai/gpt-oss-20b                        │  21.5B │  Q6_K  │ 2025-08-04 │      7.6M │  77.9 │ apache-… │  
│     │                                           │ (3.6B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   7 │ zai-org/GLM-4.7-Flash                     │  31.2B │  Q6_K  │ 2026-01-19 │    742.3K │  77.2 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   8 │ zai-org/GLM-4.5-Air                       │ 110.5B │  Q6_K  │ 2025-07-20 │    384.2K │  75.6 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   9 │ meta-llama/Llama-4-Scout-17B-16E-Instruct │ 109.0B │ Q5_K_M │ 2025-04-02 │    391.1K │  74.7 │ other    │  
│     │                                           │ (17.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│  10 │ Qwen/Qwen3-32B                            │  32.0B │ Q5_K_M │ 2025-04-27 │      7.0M │  73.9 │ apache-… │  
└─────┴───────────────────────────────────────────┴────────┴────────┴────────────┴───────────┴───────┴──────────┘  
  Vertrauen in Top-Empfehlung: Hoch (direkter Benchmark, Abstand +2.9)  
  Benchmark-Referenz: kuratierter Snapshot 2026-05; Live AA / LiveBench / Aider zusammengeführt, wenn erreichbar.

whichllm – Das lokale LLM finden, das auf meiner Hardware tatsächlich läuft und die beste Leistung liefert

Verwandte Beiträge

3 Kommentare