Skip to main content

재부팅 후 nvidia-smi가 실행되지 않습니다.

문제 설명

VM을 재부팅한 이후 nvidia-smi 명령어가 동작하지 않거나 GPU가 인식되지 않는 문제가 발생합니다.

원인

이 현상은 Ubuntu 커널이 변경되었지만 NVIDIA 드라이버가 새 커널에 맞게 정상적으로 빌드되지 않았을 때 발생합니다.

주로 다음 과정에서 문제가 생깁니다.

  1. apt-get upgrade 또는 Ubuntu 자동 보안 업데이트(unattended-upgrades)가 커널 패키지를 함께 업데이트

  2. 재부팅 시 새로운 커널이 적용됨

  3. DKMS가 NVIDIA, Mellanox(MLNX-OFED) 드라이버를 새 커널에 맞게 재빌드

  4. 빌드 도중

    • SSH 세션 종료

    • 강제 종료

    • 예기치 않은 재부팅

      등 중간에 끊기되면 모듈 생성 실패

  5. 결과적으로 새 커널에서 NVIDIA 모듈이 로드되지 않음 → nvidia-smi 실패

해결 방법

1) 자동 커널 업데이트 비활성화

sudo apt remove unattended-upgrades

커널 자동 변경을 막아 GPU 드라이버가 깨지는 것을 방지합니다.

2) 패키지 작업은 tmux 환경에서 실행

tmux

이후 apt-get 명령 실행

SSH 연결이 끊겨도 패키지 설치가 중단되지 않도록 합니다.

3) 깨진 드라이버 재빌드

sudo dkms autoinstall

이후:

sudo reboot

재부팅 후 확인:

nvidia-smi