가상머신 진단상태 문제 해결 가이드

가상머신의 진단상태가 불안정할 때 신속하게 문제를 진단하고 해결할 수 있도록 돕는 가이드입니다. 아래 안내에 따라 점검을 진행해 주세요.

문제 1: '알 수 없음(Unknown)'일 때

모니터링 시스템이 가상머신의 상태 정보를 정상적으로 수신하지 못하고 있음을 의미합니다.

1단계: 모니터링 서비스 상태 확인

가상머신 내부의 모니터링 에이전트(eci-guest-agent)가 올바르게 작동하는지 확인합니다.

1-1. 현재 상태 확인

터미널에 아래 명령어를 입력하세요.

sudo systemctl is-active eci-guest-agent.service

1-2. 결과에 따른 조치

active가 출력될 경우: 서비스는 정상입니다. 5분 후에도 상태가 바뀌지 않으면 2단계: 통신 연결 상태 점검으로 이동하세요.
inactive 또는 failed가 출력될 경우: 서비스가 중단된 상태입니다. 아래 명령어로 즉시 재시작하세요.
```
sudo systemctl restart eci-guest-agent.service
```
재시작 후, is-active 명령어로 다시 상태를 확인해 주세요.

상세 정보 확인 > sudo systemctl status eci-guest-agent.service 명령어를 사용하면 서비스의 상세 실행 로그를 볼 수 있습니다. Active: active (running)으로 표시되면 정상입니다.

2단계: 통신 연결 상태 점검

서비스는 정상이지만 'Unknown' 상태가 지속된다면, VM과 외부 시스템 간의 통신을 직접 테스트합니다.

2-1. 서비스 임시 중단

주의: 정확한 테스트를 위해 실행 중인 에이전트를 잠시 중단해야 합니다. 그렇지 않으면 "Address already in use" 오류가 발생하여 테스트가 불가능합니다.

sudo systemctl stop eci-guest-agent.service

2-2. 통신 테스트

아래 명령어를 실행하여 통신 포트가 열려 있는지 확인합니다.

socat VSOCK-LISTEN:11190 STDOUT

정상: 명령어 실행 후 커서가 멈춘 채 대기 상태를 유지하며, {"command": "cpu-metric", "args": null}와 같은 요청이 일정시간 후에 수신되는 것을 확인할 수 있습니다.
비정상: 실행 즉시 오류 메시지가 출력됩니다.

2-3. 서비스 원상 복구

중요: 테스트가 끝났다면, 모니터링을 재개하기 위해 서비스를 반드시 다시 시작해 주세요.

sudo systemctl start eci-guest-agent.service

3단계: 기술 지원 문의 (문제가 해결되지 않은 경우)

위의 모든 조치 후에도 'Unknown' 상태가 지속된다면, 아래 정보를 수집하여 기술 지원팀에 문의해 주세요. 빠르고 정확한 원인 파악에 큰 도움이 됩니다.

서비스 로그 출력 결과:

sudo journalctl -eu eci-guest-agent.service --no-pager | tail

통신 테스트 시 발생한 오류 메시지 (발생한 경우)

문제 2: '비정상(Unhealthy)'일 때

VM에 할당된 GPU가 인식되지 않거나, 정상적으로 작동하지 않음을 의미합니다.

필수 선행 조건: NVIDIA 드라이버 설치

GPU를 사용하려면 NVIDIA 드라이버가 반드시 설치되어 있어야 합니다. 먼저 드라이버 설치 여부를 확인해 주시기 바랍니다.

1단계: GPU 물리적 인식 확인

시스템이 GPU 하드웨어를 올바르게 인식하는지 확인합니다.

lspci | grep -i nvidia

2단계: CUDA 및 드라이버 호환성 확인

CUDA 기반 프로그램 실행 시 CUDA initialize failed 오류가 발생하면 이 단계를 확인하세요.
설치된 NVIDIA 드라이버와 사용하려는 CUDA Toolkit 버전이 서로 호환되는지 NVIDIA CUDA Compatibility Matrix 문서를 통해 확인합니다.

3단계: 기술 지원 문의

아래 정보를 수집하여 기술 지원팀에 문의해 주십시오.

GPU 인식 확인 결과:
```
lspci | grep -i nvidia
```
NVIDIA 드라이버 상태:
```
nvidia-smi
```
사용 환경 정보:
- 사용 중인 CUDA Toolkit 버전
- 문제가 발생한 애플리케이션 및 전체 오류 메시지

문제 1: '알 수 없음(Unknown)'일 때​

1단계: 모니터링 서비스 상태 확인​

1-1. 현재 상태 확인​

1-2. 결과에 따른 조치​

2단계: 통신 연결 상태 점검​

2-1. 서비스 임시 중단​

2-2. 통신 테스트​

2-3. 서비스 원상 복구​

3단계: 기술 지원 문의 (문제가 해결되지 않은 경우)​

문제 2: '비정상(Unhealthy)'일 때​

필수 선행 조건: NVIDIA 드라이버 설치​

1단계: GPU 물리적 인식 확인​

2단계: CUDA 및 드라이버 호환성 확인​

3단계: 기술 지원 문의​