メインコンテンツまでスキップ

메트릭 탐색기

개요

메트릭 탐색기는 GPU·CPU·메모리·네트워크·디스크 메트릭을 시계열 차트로 비교 분석하는 도구입니다. 학습 진행 모니터링·병목 분석·유휴 자원 감지·이상 패턴 추적에 사용합니다. 차트별로 여러 쿼리를 구성하고, URL로 공유하거나 CSV로 내보낼 수 있습니다.

사전 요건
  • Metric.Metric.READ 권한

접속 방법

진입점용도
모니터링 > 메트릭여러 가상머신·메트릭을 한 화면에서 비교 (탐색기 본체)
컴퓨트 > 가상머신 > 가상머신 선택 > 메트릭 탭단일 가상머신의 사전 구성된 차트
컴퓨트 > 대시보드 > 가상머신 클릭해당 가상머신의 메트릭 탭으로 이동

주요 메트릭

메트릭설명활용
GPU 사용률 (%)GPU SM 코어 점유율학습 중 GPU 활용도
GPU 메모리 사용량GPU VRAM 점유OOM 위험 사전 감지
GPU 메모리 클럭 / SM 클럭GPU 동작 클럭스로틀링 진단
GPU 전력 사용량 / 온도전력·온도하드웨어 한계 도달 여부
CPU 사용률 (%)CPU 코어 점유율데이터 로더 병목 확인
메모리 사용률 (%)시스템 RAM 점유율메모리 부족 감지
네트워크 I/O인바운드·아웃바운드 트래픽데이터 전송 속도 확인
블록 스토리지 사용량디스크 사용률디스크 풀 여부 확인

쿼리 구성

각 차트에는 여러 개의 쿼리를 추가할 수 있어, 같은 차트 위에서 여러 메트릭을 겹쳐 비교할 수 있습니다.

1. 쿼리 추가

차트 우측 상단 쿼리 추가 버튼을 클릭하면 새 쿼리 행이 추가됩니다.

각 쿼리에서 설정하는 항목:

항목설명
리소스 유형가상머신 / 가상 클러스터 등
가상머신모니터링 대상 (검색 후 선택)
메트릭GPU 사용률, GPU 메모리 등
Split by모두(집계) 또는 개별 선택(예: GPU 0, GPU 1을 따로 표시)

2. 단위 일관성 제약

같은 차트에는 동일 단위의 메트릭만 추가할 수 있습니다(예: % 메트릭과 MB/s 메트릭 혼합 불가). 단위가 다른 메트릭은 차트를 추가해 비교하세요.

3. 쿼리 복제·삭제

쿼리 행 우측의 복제 / 삭제 버튼으로 빠르게 변형할 수 있습니다(예: 동일 메트릭을 다른 가상머신에 적용).


차트 관리

작업설명
차트 추가한 페이지에 최대 8개 차트 배치 (MAX_CHARTS)
차트 복제기존 차트의 쿼리·설정을 복사
차트 이동위/아래 버튼으로 순서 변경
차트 삭제차트 제거
펼치기 / 접기차트 영역을 임시로 축소

차트당 쿼리는 최대 12개 (MAX_QUERIES)까지 추가할 수 있습니다.


차트 설정

차트별 설정 패널에서 시각화를 조정할 수 있습니다.

  • 차트 유형: Line / Area / Bar / Table
  • 차트 제목: 자동 / 직접 입력 / 숨김
  • 범례 위치: 하단 / 우측
  • Y축 범위: 자동 또는 최소·최대 직접 지정
  • Y축 순서: 좌/우 축 교체
  • 호버 카드: 마우스오버 시 상세 표시

여러 차트를 동일 시간 범위로 묶어 시각적으로 비교하기 좋습니다.


시간 범위 및 줌

상단 글로벌 툴바에서 시간 범위·집계 단위를 변경합니다.

범위적합한 상황
최근 1시간진행 중인 학습 모니터링
최근 6시간단기 학습 작업 흐름 확인
최근 24시간야간 학습 결과 확인
최근 7일 / 30일장기 추세 분석

차트에서 드래그하면 해당 구간으로 줌인됩니다. 이전 범위로 되돌리기 버튼으로 줌 이력을 단계별로 되돌릴 수 있습니다.


URL 공유

상단 툴바의 공유 버튼을 누르면 현재 차트 구성·시간 범위가 인코딩된 URL이 클립보드에 복사됩니다. 동료에게 보내거나 인시던트 보고서에 첨부하면 동일 화면을 그대로 재현할 수 있습니다.

인시던트 분석 시

이상 시점이 발견되면 줌 → 공유 링크 복사 → 채널톡/Slack에 공유. 받은 사람은 클릭 한 번으로 같은 차트를 확인할 수 있습니다.


CSV 다운로드

상단 툴바의 CSV 다운로드로 현재 차트의 시계열 데이터를 내보낼 수 있습니다. 외부 분석 도구(Excel, Python pandas 등)에서 추가 분석 가능합니다.

CSV 컬럼: 타임스탬프 + 각 쿼리의 값.


저장된 메트릭

자주 보는 차트 구성을 저장된 메트릭에 저장해 빠르게 불러올 수 있습니다.

브라우저 로컬 저장

저장된 메트릭은 현재 브라우저에만 저장되며 다른 기기·브라우저에서는 사용할 수 없습니다. 팀과 공유해야 하는 구성은 URL 공유를 사용하세요.


차트에서 알림 바로 만들기

GPU 사용률처럼 임계값 기반 알림을 걸고 싶을 때, 차트의 알림 생성 버튼을 클릭하면 현재 쿼리·범위가 자동으로 채워진 채로 알림 생성 페이지로 이동합니다.

차트에 이미 걸린 알림 규칙은 임계선과 함께 표시되며, 알림 규칙 보기 → 링크로 상세 페이지로 이동할 수 있습니다.


활용 팁

GPU 사용률이 낮을 때

  • 데이터 로더 병목 → num_workers 증가, 데이터 prefetch 적용
  • 배치 크기 부족 → 배치 크기 증가
  • CPU 연산 병목 → CPU 사용률 차트와 함께 비교, 프로파일러로 진단

GPU 메모리가 100% 근접할 때

  • 배치 크기 감소, mixed precision(fp16/bf16) 적용
  • gradient checkpointing 활성화
  • 더 큰 GPU 인스턴스 타입으로 전환

시스템 메모리가 100% 근접할 때

  • 데이터 캐싱 줄이기
  • DataLoader의 pin_memory=False 시도
  • 더 큰 메모리 인스턴스로 전환

다음 단계