메트릭 탐색기
개요
메트릭 탐색기는 GPU·CPU·메모리·네트워크·디스크 메트릭을 시계열 차트로 비교 분석하는 도구입니다. 학습 진행 모니터링·병목 분석·유휴 자원 감지·이상 패턴 추적에 사용합니다. 차트별로 여러 쿼리를 구성하고, URL로 공유하거나 CSV로 내보낼 수 있습니다.
사전 요건
Metric.Metric.READ권한
접속 방법
| 진입점 | 용도 |
|---|---|
| 모니터링 > 메트릭 | 여러 가상머신·메트릭을 한 화면에서 비교 (탐색기 본체) |
| 컴퓨트 > 가상머신 > 가상머신 선택 > 메트릭 탭 | 단일 가상머신의 사전 구성된 차트 |
| 컴퓨트 > 대시보드 > 가상머신 클릭 | 해당 가상머신의 메트릭 탭으로 이동 |
주요 메트릭
| 메트릭 | 설명 | 활용 |
|---|---|---|
| GPU 사용률 (%) | GPU SM 코어 점유율 | 학습 중 GPU 활용도 |
| GPU 메모리 사용량 | GPU VRAM 점유 | OOM 위험 사전 감지 |
| GPU 메모리 클럭 / SM 클럭 | GPU 동작 클럭 | 스로틀링 진단 |
| GPU 전력 사용량 / 온도 | 전력·온도 | 하드웨어 한계 도달 여부 |
| CPU 사용률 (%) | CPU 코어 점유율 | 데이터 로더 병목 확인 |
| 메모리 사용률 (%) | 시스템 RAM 점유율 | 메모리 부족 감지 |
| 네트워크 I/O | 인바운드·아웃바운드 트래픽 | 데이터 전송 속도 확인 |
| 블록 스토리지 사용량 | 디스크 사용률 | 디스크 풀 여부 확인 |
쿼리 구성
각 차트에는 여러 개의 쿼리를 추가할 수 있어, 같은 차트 위에서 여러 메트릭을 겹쳐 비교할 수 있습니다.
1. 쿼리 추가
차트 우측 상단 쿼리 추가 버튼을 클릭하면 새 쿼리 행이 추가됩니다.
각 쿼리에서 설정하는 항목:
| 항목 | 설명 |
|---|---|
| 리소스 유형 | 가상머신 / 가상 클러스터 등 |
| 가상머신 | 모니터링 대상 (검색 후 선택) |
| 메트릭 | GPU 사용률, GPU 메모리 등 |
| Split by | 모두(집계) 또는 개별 선택(예: GPU 0, GPU 1을 따로 표시) |
2. 단위 일관성 제약
같은 차트에는 동일 단위의 메트릭만 추가할 수 있습니다(예: % 메트릭과 MB/s 메트릭 혼합 불가). 단위가 다른 메트릭은 차트를 추가해 비교하세요.
3. 쿼리 복제·삭제
쿼리 행 우측의 복제 / 삭제 버튼으로 빠르게 변형할 수 있습니다(예: 동일 메트릭을 다른 가상머신에 적용).
차트 관리
| 작업 | 설명 |
|---|---|
| 차트 추가 | 한 페이지에 최대 8개 차트 배치 (MAX_CHARTS) |
| 차트 복제 | 기존 차트의 쿼리·설정을 복사 |
| 차트 이동 |