재부팅 후 nvidia-smi가 실행되지 않습니다.
문제 설명
VM을 재부팅한 이후 nvidia-smi 명령어가 동작하지 않거나
GPU가 인식되지 않는 문제가 발생합니다.
원인
이 현상은 Ubuntu 커널이 변경되었지만 NVIDIA 드라이버가 새 커널에 맞게 정상적으로 빌드되지 않았을 때 발생합니다.
주로 다음 과정에서 문제가 생깁니다.
-
apt-get upgrade또는 Ubuntu 자동 보안 업데이트(unattended-upgrades)가 커널 패키지를 함께 업데이트 -
재부팅 시 새로운 커널이 적용됨
-
DKMS가 NVIDIA, Mellanox(MLNX-OFED) 드라이버를 새 커널에 맞게 재빌드
-
빌드 도중
-
SSH 세션 종료
-
강제 종료
-
예기치 않은 재부팅
등 중간에 끊기되면 모듈 생성 실패
-
-
결과적으로 새 커널에서 NVIDIA 모듈이 로드되지 않음 →
nvidia-smi실패
해결 방법
아래 권장 조치 중 필요한 항목을 선택하여 진행바랍니다.
1. 깨진 드라이버 재빌드
재부팅 후 드라이버 인식 문제 발생 시 아래의 명령으로 실패한 드라이버 빌드가 가능합니다.
sudo dkms autoinstall
sudo reboot
#재부팅 후 확인
nvidia-smi
커널 자동 변경을 막아 GPU 드라이버가 깨지는 것을 방지합니다.