在多卡训练时,我们常常需要监控显卡的运行状态。通常会使用nvidia-smi来查看当前的显卡占用情况。但是当我们需要实时监控的时候nvidia-smi就没有那么方便了,可能就需要搭配watch命令来监控显卡。

image-20240617104354092

nvitop这个工具可以很方便的实时监控服务器上包括显卡在内的硬件参数,如内存使用情况、CPU占用率等,而且会有更加直观的图像化展示。而且安装很方便只需要:

1
pip install nvitop

即可在环境中安装,使用时在命令行输入nvitop就可以进入到监控界面,按下q就可以退出监控。

在实际使用时我一般在电脑上常驻一个终端专门运行nvitop,需要训练时打开窗口看一眼就可以确定哪些卡是空闲的,或者根据显存情况调整batchsize,相比于之前的nvidia-smi好用一万倍!