メインコンテンツまでスキップ

재부팅 후 nvidia-smi가 실행되지 않습니다.

문제 설명

VM을 재부팅한 이후 nvidia-smi 명령어가 동작하지 않거나 GPU가 인식되지 않는 문제가 발생합니다.

원인

이 현상은 Ubuntu 커널이 변경되었지만 NVIDIA 드라이버가 새 커널에 맞게 정상적으로 빌드되지 않았을 때 발생합니다.

주로 다음 과정에서 문제가 생깁니다.

  1. apt-get upgrade 또는 Ubuntu 자동 보안 업데이트(unattended-upgrades)가 커널 패키지를 함께 업데이트

  2. 재부팅 시 새로운 커널이 적용됨

  3. DKMS가 NVIDIA, Mellanox(MLNX-OFED) 드라이버를 새 커널에 맞게 재빌드

  4. 빌드 도중

    • SSH 세션 종료

    • 강제 종료

    • 예기치 않은 재부팅

      등 중간에 끊기되면 모듈 생성 실패

  5. 결과적으로 새 커널에서 NVIDIA 모듈이 로드되지 않음 → nvidia-smi 실패

해결 방법

아래 권장 조치 중 필요한 항목을 선택하여 진행바랍니다.

1. 깨진 드라이버 재빌드

재부팅 후 드라이버 인식 문제 발생 시 아래의 명령으로 실패한 드라이버 빌드가 가능합니다.

sudo dkms autoinstall

sudo reboot

#재부팅 후 확인
nvidia-smi

커널 자동 변경을 막아 GPU 드라이버가 깨지는 것을 방지합니다.

2. 패키지 작업은 tmux 환경에서 실행

apt-get 실행 시 세션 종료로 인한 중단을 방지하기 위해, tmux 등 세션과 분리된 환경에서 명령을 수행 바랍니다.

tmux

이후 apt-get 명령 실행

SSH 연결이 끊겨도 패키지 설치가 중단되지 않도록 합니다.

3. 자동 커널 업데이트 비활성화

우분투의 자동 커널 업데이트 비활성화를 원하시면 아래의 명령어를 통해 가능합니다.

sudo apt remove unattended-upgrades