NVBeacon – App zum Anzeigen des Status entfernter NVIDIA-GPUs in der macOS-Menüleiste
(github.com/jaein4722)Da ich im Bereich AI-Forschung arbeite, starte ich häufig Trainingsläufe auf gemeinsam genutzten GPU-Servern. Jedes Mal war es ziemlich umständlich, dafür extra das Terminal zu öffnen und nvidia-smi zu prüfen, nur um nachzusehen, ob eine GPU frei ist, ob der Trainingsprozess noch läuft und ob Utilization und Speicher korrekt genutzt werden.
Deshalb habe ich eine App gebaut, mit der man den Status entfernter NVIDIA-GPU-Server direkt in der macOS-Menüleiste sehen kann. Sie verbindet sich per SSH mit dem Server, ruft die Informationen ab und funktioniert ohne separaten Agenten oder zusätzliche Programme, die auf dem Server installiert werden müssen.
In der Menüleiste lässt sich der GPU-Status des verbundenen Servers direkt anzeigen, einschließlich prozessbezogener Informationen. Außerdem werden auch Prozess-UIDs abgerufen, die sich mit dem normalen nvidia-smi nicht ohne Weiteres direkt anzeigen lassen, sodass sich intuitiver erkennen lässt, welcher Benutzer welchen Job ausführt. Ich habe außerdem darauf geachtet, bestehende SSH-Einstellungen möglichst umfassend zu nutzen und die eigenen laufenden Prozesse schnell auffindbar zu machen.
Eigentlich habe ich das Tool für den Eigengebrauch gebaut, aber nachdem ich es Leute in meinem Umfeld kurz testen ließ und die Resonanz besser war als erwartet, habe ich es veröffentlicht. Derzeit ist es nur für macOS verfügbar.
Falls es hier Leute gibt, die in einer ähnlichen Umgebung häufig GPU-Server nutzen, probiert es gern einmal aus. Wenn euch etwas stört oder ihr bestimmte Funktionen braucht, freue ich mich über Feedback!
2 Kommentare
Wow … das wäre wirklich nützlich.
Vielen Dank!
Wir verbessern die App weiter, damit sie noch bequemer zu nutzen ist.