1 Punkte von xguru 1 시간 전 | Noch keine Kommentare. | Auf WhatsApp teilen
  • nvidia-smi oder nvtop prüfen nur, ob Kernel auf der GPU ausgeführt werden, und können daher 100 % Auslastung anzeigen, selbst wenn nur ein winziger Teil der tatsächlichen Hardware-Kapazität genutzt wird
  • Utilyze liest GPU-Performance-Counter direkt aus und zeigt die tatsächliche Ressourcennutzung live an; der Overhead ist vernachlässigbar
  • Es berechnet die Attainable-SOL-Obergrenze – die unter der jeweiligen Kombination aus Workload, Modell und Hardware realistisch erreichbare maximale Auslastung –, sodass sich erkennen lässt, wie viel Spielraum aktuell noch nach oben besteht
  • Laufende Inferenz-Server werden automatisch erkannt, ebenso die auf jeder GPU geladenen Modelle; derzeit wird als Backend nur vLLM unterstützt (SGLang und weitere sollen später folgen)
  • Unterstützte Hardware ist NVIDIA Ampere oder neuer (A100, H100, H200, B200, RTX 3000+); aktuell werden auf H100-80G und A100-80G einige Modelle in Konfigurationen mit bis zu 8 GPUs pro Node unterstützt
  • Die Architektur sieht vor, den Profiling-Server unter Linux auszuführen und sich unter macOS/Windows über einen WebSocket-basierten Remote-Client zu verbinden
  • Pro einzelner Geräte-ID kann nur eine Instanz überwacht werden – eine Einschränkung der Gerätezugriffsmethode der NVIDIA Perf SDK API
  • Für die Ausführung ohne sudo ist nach dem Setzen von NVreg_RestrictProfilingToAdminUsers=0 ein Neustart erforderlich
  • Apache-2.0-Lizenz

Noch keine Kommentare.

Noch keine Kommentare.