vLLM Compose - Mehrere vLLM-Modelle mit Docker-Compose-Profilen einfach umschalten/servieren
(bae-changhyun.github.io)Ein spezielles TUI-Verwaltungstool für vLLM, das die Unbequemlichkeiten beim lokalen Servieren mehrerer LLMs löst (für jedes Modell Docker-Befehle erneut eingeben, sich GPU-Einstellungen merken, Status überwachen).
- Speichert modellbezogene Konfigurationen als YAML-Profile; Start/Stopp im TUI mit einem einzigen Druck auf Enter
- Quick Setup: Gibt man nur den Modellnamen ein, werden Profil und Konfiguration automatisch erstellt
- Enthält ein Dashboard zur GPU-Echtzeitüberwachung sowie eine Funktion zur Vorabschätzung des Speicherverbrauchs (
hf-mem) - Autovervollständigung für vLLM-Argumente: Die in einem tatsächlichen vLLM-Image verfügbaren Argumente werden automatisch extrahiert und per Tab-Taste vervollständigt
- MIT-Lizenz; benötigt Python 3.10+ / Docker / NVIDIA-GPU-Umgebung
Noch keine Kommentare.