재부팅 후 nvidia-smi가 실행되지 않습니다.
문제 설명
VM을 재부팅한 이후 nvidia-smi 명령어가 동작하지 않거나
GPU가 인식되지 않는 문제가 발생합니다.
원인
이 현상은 Ubuntu 커널이 변경되었지만 NVIDIA 드라이버가 새 커널에 맞게 정상적으로 빌드되지 않았을 때 발생합니다.
주로 다음 과정에서 문제가 생깁니다.
-
apt-get upgrade또는 Ubuntu 자동 보안 업데이트(unattended-upgrades)가 커널 패키지를 함께 업데이트 -
재부팅 시 새로운 커널이 적용됨
-
DKMS가 NVIDIA, Mellanox(MLNX-OFED) 드라이버를 새 커널에 맞게 재빌드
-
빌드 도중
-
SSH 세션 종료
-
강제 종료
-
예기치 않은 재부팅
등 중간에 끊기되면 모듈 생성 실패
-
-
결과적으로 새 커널에서 NVIDIA 모듈이 로드되지 않음 →
nvidia-smi실패
해결 방법
1) 자동 커널 업데이트 비활성화
sudo apt remove unattended-upgrades
커널 자동 변경을 막아 GPU 드라이버가 깨지는 것을 방지합니다.
2) 패키지 작업은 tmux 환경에서 실행
tmux
이후 apt-get 명령 실행
SSH 연결이 끊겨도 패키지 설 치가 중단되지 않도록 합니다.
3) 깨진 드라이버 재빌드
sudo dkms autoinstall
이후:
sudo reboot
재부팅 후 확인:
nvidia-smi