71 Punkte von xguru 2026-05-18 | 3 Kommentare | Auf WhatsApp teilen
  • Ein CLI-Tool, das auf Basis gemessener Benchmarks statt nur der Parameterzahl automatisch lokale LLMs empfiehlt, die zur Hardware des Nutzers passen
  • Erkennt GPU/CPU/RAM automatisch und präsentiert unter HuggingFace-Modellen ein Ranking der besten Modelle für das jeweilige System
    • Unterstützt NVIDIA, AMD, Apple Silicon und reine CPU-Systeme
  • Das zentrale Ziel ist nicht, einfach das größte Modell zu wählen, das in den VRAM passt, sondern das tatsächlich beste Modell unter diesen auszuwählen
    • Beispiel: Bei einer RTX-4090-Simulation wird selbst dann, wenn ein 32B-Modell hineinpasst, ein Modell der neueren Generation, 27B (Qwen3.6-27B), auf Platz 1 empfohlen
  • Zusammengeführte Bewertung aus mehreren Benchmarks: LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO und Open LLM Leaderboard werden zu einem Score von 0–100 zusammengeführt
  • Erkennung aktueller Modelle (Recency-aware): Ältere Leaderboards werden entlang der Modell-Linie abgewertet, damit Modelle aus 2024 keine aktuellen Modelle mit veralteten Scores überholen können
  • 5-stufige Einstufung der Evidenz – mit Tags wie direct / variant / base_model / line_interp / self_reported plus Vertrauensabschlag
    • Blockiert sowohl falsche Selbstangaben von Uploadern als auch Cross-Family-Vererbung, bei der kleine Forks sich hohe Scores großer Basismodelle ausleihen
    • Wenn die Parameterzahl mehr als um das Doppelte vom dominanten Familienmitglied abweicht, wird die Vererbung verweigert
  • Architekturbewusste Schätzung von VRAM und Geschwindigkeit – VRAM basiert auf Gewichten + GQA-KV-Cache + Aktivierungen + Overhead; bei der Geschwindigkeit werden bandbreitengebundene Faktoren, MoE active vs total sowie Unified Memory vs partielles PCIe-Offloading berücksichtigt
  • Unterstützt einen One-Command-Workflow, mit dem sich per whichllm run in einer Zeile sofort Modell-Download und Chat ausführen lassen
    • Erstellt mit uv eine isolierte Umgebung, installiert Abhängigkeiten, lädt das Modell herunter und startet automatisch einen interaktiven Chat
    • Unterstützt alle Formate: GGUF / AWQ / GPTQ / FP16 / BF16
  • Hardware-Planungsbefehle
    • whichllm --gpu "RTX 5090" – Beliebige GPU simulieren und vor dem Kauf prüfen
    • whichllm plan "llama 3 70b" – Rückwärtssuche nach den für ein bestimmtes Modell nötigen GPUs
    • whichllm upgrade "RTX 4090" "RTX 5090" "H100" – Aktuelle Maschine mit Kandidaten-GPUs vergleichen
  • Ollama-Integration: Pipelines lassen sich in der Form whichllm --top 1 --json | jq -r '.models[0].model_id' aufbauen
  • Ausgabe von Code-Snippets: Mit whichllm snippet "qwen 7b" wird direkt kopierbarer Python-Code von llama_cpp.Llama.from_pretrained bis zur Chat-Vervollständigung ausgegeben
  • MIT-Lizenz

3 Kommentare

 
xguru 2026-05-18

Ich würde diese fünf empfehlen. Drei davon sind Qwen.

Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B

 
nezz1204 2026-05-19

Ich habe bisher die Website https://www.canirun.ai/ genutzt, aber das sollte ich wohl auch mal ausprobieren.

 
popopo 2026-05-18
╭────────────────────────────────────────────────────── Hardware-Info ──────────────────────────────────────────────────────╮  
│ GPU 0: Strix Halo [Radeon Graphics / Radeon 8050S Graphics / Radeon 8060S Graphics] — Shared Memory — BW: 256 GB/s      │  
│ CPU: AMD RYZEN AI MAX+ 395 w/ Radeon 8060S — 16 Kerne (AVX2, AVX-512)                                                    │  
│ RAM: 117.5 GB                                                                                                             │  
│ Freier Speicherplatz: 174.1 GB                                                                                            │  
│ OS: linux                                                                                                                 │  
╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯  
  
                                               Empfohlene Modelle  
┏━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━┳━━━━━━━━┳━━━━━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━┳━━━━━━━━━━┓  
┃   # ┃ Modell                                    ┃ Params ┃ Quant  ┃ Veröffentlicht ┃ Downloads ┃ Score ┃ Lizenz  ┃  
┡━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━╇━━━━━━━━╇━━━━━━━━━━━━╇━━━━━━━━━━━╇━━━━━━━╇━━━━━━━━━━┩  
│   1 │ Qwen/Qwen3-Next-80B-A3B-Instruct          │  81.3B │  Q6_K  │ 2025-09-09 │    336.2K │  94.9 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   2 │ openai/gpt-oss-120b                       │ 120.4B │  Q6_K  │ 2025-08-04 │      4.7M │  91.9 │ apache-… │  
│     │                                           │ (5.1B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   3 │ Qwen/Qwen3.6-27B                          │  27.8B │ Q3_K_M │ 2026-04-21 │      3.6M │  85.1 │ apache-… │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   4 │ Qwen/Qwen3-30B-A3B                        │  30.0B │  Q6_K  │ 2025-04-27 │      1.7M │  83.5 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   5 │ google/gemma-4-26B-A4B-it                 │  26.5B │  Q6_K  │ 2026-03-11 │      8.7M │  81.2 │ apache-… │  
│     │                                           │ (3.8B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   6 │ openai/gpt-oss-20b                        │  21.5B │  Q6_K  │ 2025-08-04 │      7.6M │  77.9 │ apache-… │  
│     │                                           │ (3.6B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   7 │ zai-org/GLM-4.7-Flash                     │  31.2B │  Q6_K  │ 2026-01-19 │    742.3K │  77.2 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   8 │ zai-org/GLM-4.5-Air                       │ 110.5B │  Q6_K  │ 2025-07-20 │    384.2K │  75.6 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   9 │ meta-llama/Llama-4-Scout-17B-16E-Instruct │ 109.0B │ Q5_K_M │ 2025-04-02 │    391.1K │  74.7 │ other    │  
│     │                                           │ (17.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│  10 │ Qwen/Qwen3-32B                            │  32.0B │ Q5_K_M │ 2025-04-27 │      7.0M │  73.9 │ apache-… │  
└─────┴───────────────────────────────────────────┴────────┴────────┴────────────┴───────────┴───────┴──────────┘  
  Vertrauen in Top-Empfehlung: Hoch (direkter Benchmark, Abstand +2.9)  
  Benchmark-Referenz: kuratierter Snapshot 2026-05; Live AA / LiveBench / Aider zusammengeführt, wenn erreichbar.