가상머신 진단 상태

가상머신 진단 상태가 비정상(Unhealthy) 또는 알 수 없음(Unknown) 으로 표시되면 아래 절차로 점검하세요. 상태 자체에 대한 설명은 컴퓨트 대시보드를 참고하세요.

알 수 없음(Unknown)

모니터링 시스템이 가상머신의 상태 정보를 정상적으로 수신하지 못하는 상태입니다.

1단계: 모니터링 에이전트 상태 확인

가상머신 내부의 eci-guest-agent가 정상 동작하는지 확인합니다.

sudo systemctl is-active eci-guest-agent.service

active 출력: 서비스 정상. 5분 후에도 상태가 바뀌지 않으면 2단계로 진행
inactive 또는 failed 출력: 아래 명령으로 재시작

sudo systemctl restart eci-guest-agent.service

재시작 후 is-active로 다시 확인합니다. 상세 로그는 sudo systemctl status eci-guest-agent.service 에서 확인할 수 있고, Active: active (running) 으로 표시되면 정상입니다.

2단계: 통신 연결 점검

에이전트는 정상이지만 'Unknown' 상태가 지속되면 호스트와의 통신을 직접 테스트합니다.

sudo systemctl stop eci-guest-agent.service
socat VSOCK-LISTEN:11190 STDOUT

테스트 후 반드시 서비스를 재시작하세요

테스트 전에 에이전트를 멈추지 않으면 Address already in use 오류가 발생합니다. 테스트가 끝나면 모니터링 재개를 위해 서비스를 다시 시작해야 합니다.

sudo systemctl start eci-guest-agent.service

정상: 명령어 실행 후 커서가 대기 상태를 유지하며, 잠시 후 {"command": "cpu-metric", "args": null} 같은 요청이 수신됩니다.
비정상: 실행 즉시 오류 메시지가 출력됩니다.

3단계: 지원 문의

위 절차로 해결되지 않으면 다음 정보를 첨부해 지원 채널로 문의하세요.

서비스 로그: sudo journalctl -eu eci-guest-agent.service --no-pager | tail
통신 테스트 오류 메시지 (해당하는 경우)

비정상(Unhealthy)

모니터링 시스템이 가상머신에 할당된 GPU를 정상적으로 확인하지 못하거나, GPU가 정상 작동하지 않는 상태입니다.

1단계: GPU 하드웨어 인식 확인

lspci | grep -i nvidia

NVIDIA 디바이스가 출력되지 않으면 하드웨어 인식이 되지 않은 상태입니다.

2단계: nvidia-smi 바이너리 확인

command -v nvidia-smi

경로가 출력됨 (예: /usr/bin/nvidia-smi): 바이너리는 정상입니다. 3단계로 바로 이동합니다.
아무것도 출력되지 않음: nvidia-smi를 찾지 못한 상태입니다. 이 경우 GPU 메트릭을 수집할 수 없어 진단 상태가 계속 비정상으로 유지됩니다. 바이너리가 삭제되었거나 경로가 변경된 것인데 의도된 것이 아니라면, GPU 드라이버 FAQ를 참고하여 복구하시기 바랍니다.

nvidia-smi를 임의로 삭제하거나 경로를 변경하지 마세요

nvidia-smi는 메트릭 수집에도 사용됩니다. 삭제하거나 경로가 변경되어 실행이 안되면 복구 전까지 GPU 메트릭 수집을 하지 못합니다.

3단계: 드라이버·CUDA 호환성 확인

nvidia-smi가 존재하는데도 실행 시 오류가 발생한다면(임의로 삭제하지 않았는데 동작하지 않는 경우) NVIDIA 드라이버와 CUDA Toolkit 버전 호환성을 확인하세요. CUDA initialize failed 오류, nvidia-smi 실패, 드라이버/라이브러리 버전 불일치는 GPU 드라이버 FAQ와 PyTorch CUDA 호환성 문제를 참고합니다.

4단계: 지원 문의

해결되지 않으면 다음 정보를 첨부해 지원 채널로 문의하세요.

lspci | grep -i nvidia 출력
command -v nvidia-smi 및 nvidia-smi 출력
사용 중인 CUDA Toolkit 버전과 발생한 오류 메시지 전문

다음 단계

컴퓨트 대시보드: 비정상 가상머신 일괄 모니터링
GPU 드라이버 FAQ: nvidia-smi 실패, 드라이버/라이브러리 버전 mismatch
PyTorch CUDA 호환성 문제: PyTorch에서 CUDA 미인식

알 수 없음(Unknown)​

1단계: 모니터링 에이전트 상태 확인​

2단계: 통신 연결 점검​

3단계: 지원 문의​

비정상(Unhealthy)​

1단계: GPU 하드웨어 인식 확인​

2단계: nvidia-smi 바이너리 확인​

3단계: 드라이버·CUDA 호환성 확인​

4단계: 지원 문의​

다음 단계​