Skip to main content

알림

개요

알림은 GPU 사용률·메모리·디스크 등의 메트릭이 설정한 임계값을 초과하면 자동으로 통지를 보내는 기능입니다. 학습 완료 감지·이상 상태 조기 발견·비용 누수 방지에 활용합니다.

알림은 세 가지 구성 요소로 동작합니다.

┌─────────┐ 발생 ┌─────────┐ 실행 ┌─────────┐
│ 알림 규칙 │ ──────▶│ 알림 이벤트│ ──────▶│ 액션 │
└─────────┘ └─────────┘ └─────────┘
조건 정의 이력 기록 이메일 발송
구성 요소역할페이지
알림 규칙메트릭 임계값과 평가 조건을 정의모니터링 > 알림 > 알림 규칙
액션알림 발생 시 누구에게 어떻게 보낼지 정의모니터링 > 알림 > 액션
알림 이벤트규칙이 발동된 시점의 이력모니터링 > 알림 > 알림 이벤트
사전 요건
  • Alert.AlertRule.CREATE, Alert.AlertActionTemplate.CREATE 권한
  • 알림 규칙을 만들기 전에 액션을 먼저 생성해야 합니다

평가 상태와 규칙 상태

알림 규칙은 두 종류의 상태를 가집니다.

평가 상태의미
정상 (Ok)메트릭이 임계값 이내
알림 (Alert)임계값을 초과해 알림이 발생한 상태
데이터 없음 (NoData)평가에 필요한 데이터가 부족
규칙 상태의미
활성화 (Activated)주기적으로 평가되며 조건 충족 시 알림 발생
비활성화 (Paused)평가가 중단되어 알림이 발생하지 않음 (설정은 유지)

1단계: 액션 생성

알림 발생 시 호출될 액션(현재는 이메일)을 먼저 만듭니다.

  1. 모니터링 > 알림 > 액션 > + 액션 생성으로 이동합니다.

  2. 다음 항목을 입력합니다.

    항목설명
    액션 이름식별용 이름 (예: GPU 장애 알림)
    액션 종류이메일 (웹훅은 추후 지원 예정)
    수신 이메일사용자 검색으로 추가 또는 쉼표로 직접 입력 (1명 이상 필수)
  3. 생성을 클릭합니다.

현재 액션 종류는 이메일만 지원

Slack 웹훅 등 외부 서비스 연동은 추후 추가될 예정입니다.


2단계: 알림 규칙 생성

  1. 모니터링 > 알림 > 알림 규칙 > + 알림 규칙 생성으로 이동합니다.
  2. 다음 항목을 입력합니다.

기본 정보

항목예시
이름GPU 사용률 경고
설명GPU 사용률이 90%를 초과하면 알림

대상 리소스

항목설명
리소스 타입가상 머신 또는 오브젝트 스토리지
리소스모니터링할 가상머신 또는 버킷 선택
메트릭리소스 타입에 따라 선택 가능 (아래 표 참고)

가상머신 메트릭

카테고리메트릭
GPU사용률(%), 메모리 사용량/총량(MiB), 온도(°C), 전력(W), 클럭 속도(MHz)
CPUUser · System · Idle · I/O Wait · IRQ · Soft IRQ · Steal · Guest · Nice (%)
메모리Total · Available · Active · Inactive · Cached · Buffers · Free (KiB) · Swap
네트워크RX/TX 대역폭(Bps) · 바이트 · 패킷 · 드롭 · 에러
스토리지사용량(Bytes) · 읽기/쓰기 처리량(Bps) · IOPS · 지연 시간(sec)

오브젝트 스토리지 메트릭

메트릭설명
사용량 (Usage)버킷 사용 용량 (Bytes)
오브젝트 수버킷 내 오브젝트 개수
GET / PUT / COPY / LISTAPI 요청 횟수
멀티파트 업로드멀티파트 업로드 작업 수

평가 조건

항목설명
집계 방법평균(avg) / 합계(sum) / 최솟값(min) / 최댓값(max) (AlertAggEnum)
집계 간격1분 / 5분 / 15분 / 30분 / 1시간
연산자> 초과 / >= 이상 / < 미만 / <= 이하
임계값알림이 발동할 값 (예: 5, 90, 0.85)
전체 평가 수최근 평가할 데이터포인트 수 (예: 5): datapoints_to_evaluate
알림 기준 수그중 임계값을 충족해야 알림이 발동하는 횟수 (예: 3): datapoints_to_alert

예: 집계 간격 5분, 전체 평가 수 5, 알림 기준 수 3 → 최근 25분 동안 5분 단위로 5번 측정해서 3번 이상 임계값을 초과하면 알림

완료된 구간만 평가됩니다

시스템은 집계 간격만큼의 데이터를 모아 하나의 집계값으로 만든 뒤 평가합니다. 아직 끝나지 않은 진행 중 구간은 데이터가 불완전하므로 평가에서 제외됩니다.

예를 들어 GPU 사용률 임계값 80%, 집계 간격 5분 규칙에서 10:15~10:20 구간이 시작된 직후 GPU가 일시적으로 95%까지 치솟았다 하더라도, 5분 구간이 완료되어 실제 평균이 산출되기 전까지는 평가에 반영되지 않습니다. 5분이 지난 시점에서 평균이 72%로 계산되면 정상으로 판단됩니다.

평가 다이어그램

폼 우측의 미리보기 다이어그램에서 설정한 조건이 어떻게 평가되는지 시각적으로 확인할 수 있고, 조건을 바꾸면 실시간으로 갱신됩니다.

  • 초록색 점: 임계값 이내의 정상 데이터 포인트
  • 노란색 점: 임계값을 초과한 데이터 포인트
  • 빨간색 점: 알림이 실제로 발동한 시점 (알림 기준 수 충족)
  • 점선: 임계값 기준선

액션 연결

방금 만든 액션을 선택해 연결합니다(여러 개 선택 가능).

  1. 생성을 클릭합니다.

활용 시나리오

GPU 과부하 알림 설정

  1. 모니터링 > 알림 > 액션 탭에서 이메일 액션을 만들고 수신자를 지정합니다.
  2. 알림 규칙 > + 알림 규칙 생성을 클릭합니다.
  3. 대상 리소스로 모니터링할 가상머신을 선택합니다.
  4. 메트릭을 GPU 사용률, 연산자를 >, 임계값을 90으로 설정합니다.
  5. 평가 조건을 집계 간격 5분, 전체 평가 수 5, 알림 기준 수 3으로 설정합니다.
  6. 우측 다이어그램에서 조건이 의도대로 동작하는지 확인합니다.
  7. 만들어 둔 이메일 액션을 선택한 뒤 생성을 클릭합니다.

오브젝트 스토리지 용량 알림 설정

  1. 액션이 없다면 먼저 이메일 액션을 만듭니다.
  2. 알림 규칙 생성에서 리소스 타입을 오브젝트 스토리지로 선택합니다.
  3. 모니터링할 버킷을 선택합니다.
  4. 메트릭을 사용량 (Usage), 연산자를 >=, 임계값을 원하는 용량(Bytes)으로 설정합니다.
  5. 평가 조건과 액션을 설정한 뒤 생성을 클릭합니다.

알림 발생 후 원인 분석

  1. 모니터링 > 알림 > 알림 규칙에서 평가 상태가 Alert인 규칙을 클릭합니다.
  2. 이벤트 탭에서 최근 상태 전이 이력을 확인합니다.
  3. 이벤트를 클릭하면 차트 탭으로 이동해 발생 시점의 메트릭을 함께 볼 수 있습니다.
  4. 임계값 초과 원인을 파악한 뒤 필요한 조치를 취합니다.

자주 사용하는 알림 규칙

목적메트릭집계 / 간격연산자임계값평가 / 발동
학습 완료 감지GPU 사용률avg / 5분<52 / 2
GPU OOM 위험GPU 메모리 사용률max / 1분>903 / 3
가상머신 비정상 종료 감지CPU 사용률avg / 5분<11 / 1
디스크 풀 위험디스크 사용률max / 5분>851 / 1
GPU 유휴(비용 누수)GPU 사용률avg / 1시간<301 / 1

알림 이벤트 확인

알림 규칙이 발동되면 모니터링 > 알림 > 알림 이벤트에 자동으로 이력이 기록됩니다.

컬럼설명
발생 시간알림이 트리거된 시각
규칙발동된 알림 규칙명
상태 전환정상 → 알림 / 알림 → 정상
임계값 / 초과 횟수평가 조건 위반 정보

이벤트 행을 클릭하면 상세 페이지에서 메트릭 차트와 함께 상세 정보를 볼 수 있습니다.


알림 규칙 관리

모니터링 > 알림 > 알림 규칙 목록에서:

  • 활성화 / 비활성화: 토글로 일시 중단 (규칙은 유지)
  • 수정: 임계값·조건·액션 변경
  • 삭제: 규칙 영구 제거

비활성화된 규칙은 평가되지 않으며, 알림 이벤트도 발생하지 않습니다. 유지보수 중인 가상머신에 일시 중지를 걸어두면 거짓 알림을 막을 수 있습니다.

규칙 상세 페이지 탭

규칙 목록에서 규칙을 클릭하면 상세 페이지의 4개 탭에서 다음을 확인할 수 있습니다.

내용
개요평가 상태, 마지막 평가 시각, 조건의 자연어 요약, 대상 리소스 (클릭으로 리소스 페이지 이동)
차트모니터링 메트릭 그래프. 임계값이 점선으로 표시되고 알림 발생 시점에 마커 표시. 최근 30분~48시간
액션규칙에 연결된 알림 액션 목록. 클릭하면 액션 상세 페이지로 이동
이벤트상태 전이 이력 (정상→알림, 알림→정상). 이벤트 클릭 시 그 시점의 차트로 자동 이동

자주 묻는 질문

평가 상태가 "데이터 없음"입니다

  • 대상 가상머신이 실행 중 상태인지 확인
  • 규칙이 활성화 상태인지 확인 (일시 중지된 규칙은 평가되지 않음)
  • 규칙 생성 직후에는 데이터가 충분히 쌓일 때까지 일시적으로 표시될 수 있음

알림 이메일이 오지 않습니다

  • 규칙에 액션이 정상적으로 연결되어 있는지 확인
  • 액션의 수신자 이메일이 올바른지 확인
  • 스팸·정크 메일함 확인

전체 평가 수와 알림 기준 수의 차이는?

  • 전체 평가 수: 최근 몇 개의 데이터 포인트를 확인할지 (윈도우 크기)
  • 알림 기준 수: 그중 몇 개가 임계값을 초과해야 알림을 발생시킬지 (트리거 조건)
  • 둘을 같게 설정하면 모든 포인트가 초과해야 알림이 발생 (엄격), 알림 기준 수를 1로 두면 한 번만 초과해도 발생 (민감)

액션을 삭제해도 되나요?

다른 규칙에서 사용 중인 액션을 삭제하면 해당 규칙의 알림이 끊깁니다. 액션 상세 페이지의 사용 중인 규칙 섹션을 먼저 확인하세요.


다음 단계