nvidia-smi oder nvtop prüfen nur, ob Kernel auf der GPU ausgeführt werden, und können daher 100 % Auslastung anzeigen, selbst wenn nur ein winziger Teil der tatsächlichen Hardware-Kapazität genutzt wird
- Utilyze liest GPU-Performance-Counter direkt aus und zeigt die tatsächliche Ressourcennutzung live an; der Overhead ist vernachlässigbar
- Es berechnet die Attainable-SOL-Obergrenze – die unter der jeweiligen Kombination aus Workload, Modell und Hardware realistisch erreichbare maximale Auslastung –, sodass sich erkennen lässt, wie viel Spielraum aktuell noch nach oben besteht
- Laufende Inferenz-Server werden automatisch erkannt, ebenso die auf jeder GPU geladenen Modelle; derzeit wird als Backend nur vLLM unterstützt (SGLang und weitere sollen später folgen)
- Unterstützte Hardware ist NVIDIA Ampere oder neuer (A100, H100, H200, B200, RTX 3000+); aktuell werden auf H100-80G und A100-80G einige Modelle in Konfigurationen mit bis zu 8 GPUs pro Node unterstützt
- Die Architektur sieht vor, den Profiling-Server unter Linux auszuführen und sich unter macOS/Windows über einen WebSocket-basierten Remote-Client zu verbinden
- Pro einzelner Geräte-ID kann nur eine Instanz überwacht werden – eine Einschränkung der Gerätezugriffsmethode der NVIDIA Perf SDK API
- Für die Ausführung ohne sudo ist nach dem Setzen von
NVreg_RestrictProfilingToAdminUsers=0 ein Neustart erforderlich
- Apache-2.0-Lizenz
Noch keine Kommentare.