가상머신 진단 상태
가상머신 진단 상태가 비정상(Unhealthy) 또는 알 수 없음(Unknown) 으로 표시되면 아래 절차로 점검하세요. 상태 자체에 대한 설명은 컴퓨트 대시보드를 참고하세요.
알 수 없음(Unknown)
모니터링 시스템이 가상머신의 상태 정보를 정상적으로 수신하지 못하는 상태입니다.
1단계: 모니터링 에이전트 상태 확인
가상머신 내부의 eci-guest-agent가 정상 동작하는지 확인합니다.
sudo systemctl is-active eci-guest-agent.service
active출력: 서비스 정상. 5분 후에도 상태가 바뀌지 않으면 2단계로 진행inactive또는failed출력: 아래 명령으로 재시작
sudo systemctl restart eci-guest-agent.service
재시작 후 is-active로 다시 확인합니다. 상세 로그는 sudo systemctl status eci-guest-agent.service 에서 확인할 수 있고, Active: active (running) 으로 표 시되면 정상입니다.
2단계: 통신 연결 점검
에이전트는 정상이지만 'Unknown' 상태가 지속되면 호스트와의 통신을 직접 테스트합니다.
sudo systemctl stop eci-guest-agent.service
socat VSOCK-LISTEN:11190 STDOUT
테스트 후 반드시 서비스를 재시작하세요
테스트 전에 에이전트를 멈추지 않으면 Address already in use 오류가 발생합니다. 테스트가 끝나면 모니터링 재개를 위해 서비스를 다시 시작해야 합니다.
sudo systemctl start eci-guest-agent.service
- 정상: 명령어 실행 후 커서가 대기 상태를 유지하며, 잠시 후
{"command": "cpu-metric", "args": null}같은 요청이 수신됩니다. - 비정상: 실행 즉시 오류 메시지가 출력됩니다.
3단계: 지원 문의
위 절차로 해결되지 않으면 다음 정보를 첨부해 지원 채널로 문의하세요.
- 서비스 로그:
sudo journalctl -eu eci-guest-agent.service --no-pager | tail - 통신 테스트 오류 메시지 (해당하는 경우)
비정상(Unhealthy)
가상머신에 할당된 GPU가 인식되지 않거나 정상 작동하지 않는 상태입니다.
1단계: GPU 하드웨어 인식 확인
lspci | grep -i nvidia
NVIDIA 디바이스가 출력되지 않으면 하드웨어 인식이 되지 않은 상태입니다.
2단계: 드라이버·CUDA 호환성 확인
CUDA initialize failed 오류가 발생하면 NVIDIA 드라이버와 CUDA Toolkit 버전 호환성을 확인하세요. 자세한 해결 단계는 PyTorch CUDA 호환성 문제와 GPU 드라이버 FAQ를 참고합니다.
3단계: 지원 문의
해결되지 않으면 다음 정보를 첨부해 지원 채널로 문의하세요.
lspci | grep -i nvidia출력nvidia-smi출력- 사용 중인 CUDA Toolkit 버전과 발생한 오류 메시지 전문
다음 단계
- 컴퓨트 대시보드: 비정상 가상머신 일괄 모니터링
- GPU 드라이버 FAQ:
nvidia-smi실패, 드라이버/라이브러리 버전 mismatch - PyTorch CUDA 호환성 문제: PyTorch에서 CUDA 미인식