メインコンテンツまでスキップ

가상머신 진단 상태

가상머신 진단 상태가 비정상(Unhealthy) 또는 알 수 없음(Unknown) 으로 표시되면 아래 절차로 점검하세요. 상태 자체에 대한 설명은 컴퓨트 대시보드를 참고하세요.


알 수 없음(Unknown)

모니터링 시스템이 가상머신의 상태 정보를 정상적으로 수신하지 못하는 상태입니다.

1단계: 모니터링 에이전트 상태 확인

가상머신 내부의 eci-guest-agent가 정상 동작하는지 확인합니다.

sudo systemctl is-active eci-guest-agent.service
  • active 출력: 서비스 정상. 5분 후에도 상태가 바뀌지 않으면 2단계로 진행
  • inactive 또는 failed 출력: 아래 명령으로 재시작
sudo systemctl restart eci-guest-agent.service

재시작 후 is-active로 다시 확인합니다. 상세 로그는 sudo systemctl status eci-guest-agent.service 에서 확인할 수 있고, Active: active (running) 으로 표시되면 정상입니다.

2단계: 통신 연결 점검

에이전트는 정상이지만 'Unknown' 상태가 지속되면 호스트와의 통신을 직접 테스트합니다.

sudo systemctl stop eci-guest-agent.service
socat VSOCK-LISTEN:11190 STDOUT
테스트 후 반드시 서비스를 재시작하세요

테스트 전에 에이전트를 멈추지 않으면 Address already in use 오류가 발생합니다. 테스트가 끝나면 모니터링 재개를 위해 서비스를 다시 시작해야 합니다.

sudo systemctl start eci-guest-agent.service
  • 정상: 명령어 실행 후 커서가 대기 상태를 유지하며, 잠시 후 {"command": "cpu-metric", "args": null} 같은 요청이 수신됩니다.
  • 비정상: 실행 즉시 오류 메시지가 출력됩니다.

3단계: 지원 문의

위 절차로 해결되지 않으면 다음 정보를 첨부해 지원 채널로 문의하세요.

  • 서비스 로그: sudo journalctl -eu eci-guest-agent.service --no-pager | tail
  • 통신 테스트 오류 메시지 (해당하는 경우)

비정상(Unhealthy)

가상머신에 할당된 GPU가 인식되지 않거나 정상 작동하지 않는 상태입니다.

1단계: GPU 하드웨어 인식 확인

lspci | grep -i nvidia

NVIDIA 디바이스가 출력되지 않으면 하드웨어 인식이 되지 않은 상태입니다.

2단계: 드라이버·CUDA 호환성 확인

CUDA initialize failed 오류가 발생하면 NVIDIA 드라이버와 CUDA Toolkit 버전 호환성을 확인하세요. 자세한 해결 단계는 PyTorch CUDA 호환성 문제GPU 드라이버 FAQ를 참고합니다.

3단계: 지원 문의

해결되지 않으면 다음 정보를 첨부해 지원 채널로 문의하세요.

  • lspci | grep -i nvidia 출력
  • nvidia-smi 출력
  • 사용 중인 CUDA Toolkit 버전과 발생한 오류 메시지 전문

다음 단계