Kubeservice博客

是非审之于己,毁誉听之于人,得失安之于数

AI之 NVIDAI:A800 nvlink 异常问题

A800 nvlink 异常问题

现象 业务使用PyTorch训练任务时,在一台A800节点上,出现: import torch torch.cuda.is_available() 会出现 RuntimeError: Unexpected error from cudaGetDeviceCount().梃cuda functions

AI之 NVIDAI:Operator、Cuda、CNI、Device、Device plugin环境变量使用

Operator、CNI、Device、Device plugin环境变量使用

NVIDAI GPU 相关环境变量 1. nvidia-container-runtime OCI规范 环境变量 参数说明 描述 NVIDIA_VISIBLE_DEVICES 0,1,2或者GPU-fef8089b,GPU-edab347b或者all或者none 此