Utilyze – Ein Tool, das misst, wie effizient eine GPU tatsächlich nützliche Arbeit ausführt

xguru · 2026-05-22T09:31:03+09:00

nvidia-smi oder nvtop prüfen nur, ob Kernel auf der GPU ausgeführt werden, und können daher 100 % Auslastung anzeigen, selbst wenn nur ein winziger Teil der tatsächlichen Hardware-Kapazität genutzt wird Utilyze liest GPU-Performance-Counter direkt aus und zeigt die tatsächliche Ressourcennutzung live an; der Overhead ist vernachlässigbar Es berechnet die Attainable-SOL-Obergrenze – die unter der jeweiligen Kombination aus Workload, Modell und Hardware realistisch erreichbare maximale Auslastung –, sodass sich erkennen lässt, wie viel Spielraum aktuell noch nach oben besteht Laufende Inferenz-Server werden automatisch erkannt, ebenso die auf jeder GPU geladenen Modelle; derzeit wird als Backend nur vLLM unterstützt (SGLang und weitere sollen später folgen) Unterstützte Hardware ist NVIDIA Ampere oder neuer (A100, H100, H200, B200, RTX 3000+); aktuell werden auf H100-80G und A100-80G einige Modelle in Konfigurationen mit bis zu 8 GPUs pro Node unterstützt Die Architektur sieht vor, den Profiling-Server unter Linux auszuführen und sich unter macOS/Windows über einen WebSocket-basierten Remote-Client zu verbinden Pro einzelner Geräte-ID kann nur eine Instanz überwacht werden – eine Einschränkung der Gerätezugriffsmethode der NVIDIA Perf SDK API Für die Ausführung ohne sudo ist nach dem Setzen von NVreg_RestrictProfilingToAdminUsers=0 ein Neustart erforderlich Apache-2.0-Lizenz

(github.com/systalyze)

4 Punkte von xguru 2026-05-22 | Noch keine Kommentare. | Auf WhatsApp teilen

nvidia-smi oder nvtop prüfen nur, ob Kernel auf der GPU ausgeführt werden, und können daher 100 % Auslastung anzeigen, selbst wenn nur ein winziger Teil der tatsächlichen Hardware-Kapazität genutzt wird
Utilyze liest GPU-Performance-Counter direkt aus und zeigt die tatsächliche Ressourcennutzung live an; der Overhead ist vernachlässigbar
Es berechnet die Attainable-SOL-Obergrenze – die unter der jeweiligen Kombination aus Workload, Modell und Hardware realistisch erreichbare maximale Auslastung –, sodass sich erkennen lässt, wie viel Spielraum aktuell noch nach oben besteht
Laufende Inferenz-Server werden automatisch erkannt, ebenso die auf jeder GPU geladenen Modelle; derzeit wird als Backend nur vLLM unterstützt (SGLang und weitere sollen später folgen)
Unterstützte Hardware ist NVIDIA Ampere oder neuer (A100, H100, H200, B200, RTX 3000+); aktuell werden auf H100-80G und A100-80G einige Modelle in Konfigurationen mit bis zu 8 GPUs pro Node unterstützt
Die Architektur sieht vor, den Profiling-Server unter Linux auszuführen und sich unter macOS/Windows über einen WebSocket-basierten Remote-Client zu verbinden
Pro einzelner Geräte-ID kann nur eine Instanz überwacht werden – eine Einschränkung der Gerätezugriffsmethode der NVIDIA Perf SDK API
Für die Ausführung ohne sudo ist nach dem Setzen von NVreg_RestrictProfilingToAdminUsers=0 ein Neustart erforderlich
Apache-2.0-Lizenz

Utilyze – Ein Tool, das misst, wie effizient eine GPU tatsächlich nützliche Arbeit ausführt

Verwandte Beiträge

Noch keine Kommentare.