vLLM Compose - Mehrere vLLM-Modelle mit Docker-Compose-Profilen einfach umschalten/servieren

(bae-changhyun.github.io)

3 Punkte von matthew624 2026-03-30 | Noch keine Kommentare. | Auf WhatsApp teilen

Ein spezielles TUI-Verwaltungstool für vLLM, das die Unbequemlichkeiten beim lokalen Servieren mehrerer LLMs löst (für jedes Modell Docker-Befehle erneut eingeben, sich GPU-Einstellungen merken, Status überwachen).

Speichert modellbezogene Konfigurationen als YAML-Profile; Start/Stopp im TUI mit einem einzigen Druck auf Enter
Quick Setup: Gibt man nur den Modellnamen ein, werden Profil und Konfiguration automatisch erstellt
Enthält ein Dashboard zur GPU-Echtzeitüberwachung sowie eine Funktion zur Vorabschätzung des Speicherverbrauchs (hf-mem)
Autovervollständigung für vLLM-Argumente: Die in einem tatsächlichen vLLM-Image verfügbaren Argumente werden automatisch extrahiert und per Tab-Taste vervollständigt
MIT-Lizenz; benötigt Python 3.10+ / Docker / NVIDIA-GPU-Umgebung

https://bae-changhyun.github.io/vllm-compose/

vLLM Compose - Mehrere vLLM-Modelle mit Docker-Compose-Profilen einfach umschalten/servieren

Verwandte Beiträge

Noch keine Kommentare.