알림
1. 개요
ECI 포털의 알림 기능에 대해 설명합니다. 알림 기능을 통해 가상머신(VM)이나 오브젝트 스토리지의 메트릭이 지정한 임계값을 초과할 때 자동으로 알림을 받거나 외부 시스템과 연동할 수 있습니다.
2. 기본 개념
알림은 규칙과 액션 두 가지 요소로 구성됩니다.
메트릭 수집 ──▶ 알림 규칙 (평가 조건) ──▶ 알림 액션 (이메일, 웹훅 등)
- 알림 규칙: "어떤 리소스의 어떤 메트릭이 어떤 조건을 초과하면 알림을 발생시킬 것인가"를 정의
- 알림 액션: "알림이 발생하면 어떤 동작을 수행할 것인가"를 정의 (이메일 알림, 웹훅 호출 등)
2.1 평가 상태
| 상태 | 설명 |
|---|---|
| 정상 (Ok) | 메트릭이 임계값 이내로 정상 |
| 알림 (Alert) | 메트릭이 임계값을 초과하여 알림 발생 |
| 데이터 없음 (NoData) | 평가에 필요한 데이터가 부족 |
2.2 규칙 상태
| 상태 | 설명 |
|---|---|
| 활성화 (Activated) | 규칙이 주기적으로 평가되며 조건 충족 시 알림 발생 |
| 비활성화 (Paused) | 규칙 평가가 중단되며 알림이 발생하지 않음 |
3. 접근 방법
좌측 사이드바에서 모니터링 > 알림을 클릭합니다. 상단 탭에서 규칙 또는 액션을 선택합니다.
4. 알림 액션
알림 액션은 규칙의 조건이 충족되었을 때 실행할 동작을 정의합니다. 하나의 규칙에 여러 액션을 연결할 수 있으며, 하나의 액션을 여러 규칙에서 공유할 수도 있습니다.
4.1 액션 유형
| 유형 | 상태 | 설명 |
|---|---|---|
| 이메일 | 사용 가능 | 지정된 수신자에게 알림 이메일을 발송합니다 |
| 웹훅 | 추후 지원 예정 | 지정된 URL로 HTTP 요청을 전송합니다. 외부 시스템 연동(자동 스케일링, Slack 알림, 티켓 생성 등)에 활용할 수 있습니다 |
- 오토스케일링 API를 호출하여 자동으로 인스턴스를 확장
- Slack/Teams 채널에 알림 메시지 전송
- ITSM 시스템에 자동으로 인시던트 티켓 생성
- 사내 모니터링 대시보드에 이벤트 전달
4.2 액션 생성
알림 규칙을 만들기 전에 먼저 액션을 생성해야 합니다.
- 액션 탭에서 알림 액션 생성 버튼을 클릭합니다.
- 다음 항목을 입력합니다.
| 항목 | 설명 |
|---|---|
| 이름 | 액션 이름 (예: "운영팀 이메일 알림") |
| 유형 | 현재는 이메일만 선택 가능 |
| 수신자 | 알림을 받을 사용자 이메일 (복수 선택 가능, 검색으로 추가) |
- 생성 버튼을 클릭합니다.
4.3 액션 상세 조회
액션 목록에서 액션을 클릭하면 상세 페이지에서 다음을 확인할 수 있습니다.
- 액션 설정 정보 (유형, 수신자 목록)
- 사용 중인 규칙: 이 액션을 사용하는 알림 규칙 목록
4.4 액션 수정
액션 상세 페이지에서 수정 버튼을 클릭하여 이름, 수신자 등을 변경할 수 있습니다.
4.5 액션 삭제
액션 상세 페이지에서 삭제 버튼을 클릭합니다.
다른 규칙에서 사용 중인 액션을 삭제하면 해당 규칙의 알림 동작이 중단될 수 있습니다. 삭제 시 사용 중인 규칙 수가 안내됩니다.
5. 알림 규칙
5.1 규칙 생성
- 규칙 탭에서 알림 규칙 생성 버튼을 클릭합니다.
- 다음 항목을 입력합니다.
기본 정보
| 항목 | 설명 |
|---|---|
| 이름 | 규칙 이름 (예: "GPU 사용률 과부하 알림") |
| 설명 | 규칙에 대한 상세 설명 |
대상 리소스
| 항목 | 설명 |
|---|---|
| 리소스 유형 | 가상머신 또는 오브젝트 스토리지 |
| 리소스 선택 | 모니터링할 특정 VM 또는 버킷 (검색으로 선택) |
리소스 유형에 따라 선택 가능한 메트릭이 달라집니다.
가상머신 메트릭:
| 카테고리 | 메트릭 예시 |
|---|---|
| GPU | 사용률(%), 메모리 사용량/총량(MiB), 온도(°C), 전력(W), 클럭 속도(MHz) |
| CPU | User, System, Idle, I/O Wait, IRQ, Soft IRQ, Steal, Guest, Nice (%) |
| 메모리 | Total, Available, Active, Inactive, Cached, Buffers, Free (KiB), Swap |
| 네트워크 | RX/TX 대역폭(Bps), 바이트, 패킷, 드롭, 에러 |
| 스토리지 | 사용량(Bytes), 읽기/쓰기 처리량(Bps), IOPS, 지연 시간(sec) |
오브젝트 스토리지 메트릭:
| 메트릭 | 설명 |
|---|---|
| 사용량 (Usage) | 버킷 사용 용량 (Bytes) |
| 오브젝트 수 | 버킷 내 오브젝트 개수 |
| GET/PUT/COPY/LIST 요청 수 | API 요청 횟수 |
| 멀티파트 업로드 | 멀티파트 업로드 작업 수 |
조건 설정
| 항목 | 설명 |
|---|---|
| 메트릭 | 모니터링할 지표 (리소스 유형에 따라 옵션이 달라짐) |
| 연산자 | >, >=, <, <= 중 선택 |
| 임계값 | 비교 기준 수치 |
평가 조건
| 항목 | 설명 | 기본값 |
|---|---|---|
| 집계 방식 | 평균, 합계, 최솟값, 최댓값 | 평균 |
| 집계 시간 단위 | 1분, 5분, 15분, 30분, 1시간 | 5분 |
| 평가 횟수 | 최근 몇 개의 데이터 포인트를 확인할 것 인지 (1~100) | 5 |
| 알림 횟수 | 그중 몇 회 이상 초과해야 알림을 발생시킬 것인지 (1~100) | 3 |
알림 규칙을 평가할 때, 시스템은 집계 시간 단위만큼의 데이터를 모아 하나의 집계값(평균, 합계 등)으로 만듭니다. 이때 아직 종료되지 않은 구간은 데이터가 불완전하므로 평가에서 제외됩니다.
1. 왜 이런 규칙이 필요한가요?
GPU 사용률 임계값 80%, 집계 시간 단위 5분으로 설정된 규칙이 있습니다.
10:15~10:20 구간이 시작된 직후, GPU 사용률이 순간적으로 95% 로 치솟았다가 바로 떨어졌습니다.
- 구간 완료 전 평가: 데이터가 1건뿐이라 평균 95%로 계산되어 거짓 알림이 발생합니다.
- 구간 완료 후 평가: 5분간의 실제 평균은 72%이므로 정상으로 판단됩니다.
| 시각 | GPU 사용률 | 이 시점에 평가한다면? |
|---|---|---|
| 10:15:30 | 95% | 데이터 1건 → 평균 95% → 거짓 알림 |
| 10:16:00 | 70% | |
| 10:16:30 | 68% | |
| 10:17:00 | 65% | |
| ... | ... | |
| 10:20:00 | — | 5분 평균 = 72% → 정상 (알림 없음) |
2. 어떤 구간이 평가되나요?
위와 같은 이유로, 현재 시각이 10:17이라면 각 구간의 평가 여부는 다음과 같습니다.
완료된 3개 구간(92%, 83%, 65%)만 평가에 사용되며, 현재 데이터를 수집 중인 10:15~10:20 구간은 종료될 때까지 평가에 포함되지 않습니다.
| 구간 | 상태 | 집계값 | 평가 여부 |
|---|---|---|---|
| 10:00 ~ 10:05 | 5분 경과 (완료) | 92% | 사용 — 5분 데이터 확보 |
| 10:05 ~ 10:10 | 5분 경과 (완료) | 83% | 사용 — 5분 데이터 확보 |
| 10:10 ~ 10:15 | 5분 경과 (완료) | 65% | 사용 — 5분 데이터 확보 |
| 10:15 ~ 10:20 | 2분 경과 (진행중) | — | 제외 — 아직 3분 남음 |
평가 다이어그램
폼 우측에 평가 다이어그램이 표시되어, 설정한 조건이 어떻게 평가되는지 시각적으로 확인할 수 있습니다. 조건을 변경하면 다이어그램이 실시간으로 업데이트됩니다.
- 초록색 점: 임계값 이내의 정상 데이터 포인트
- 노란색 점: 임계값을 초과한 데이터 포인트
- 빨간색 점: 알림이 발생하는 시점 (알림 횟수 조건 충족)
- 점선: 임계값 기준선
액션 선택
- 알림 발생 시 실행할 액션을 하나 이상 선택합니다.
- 미리 생성한 액션 목록에서 복수 선택할 수 있습니다.
- 액션이 없는 경우 액션 생성 페이지로 이동하는 링크가 안내됩니다.
- 생성 버튼을 클릭합니다.
5.2 규칙 상세
규칙 목록에서 규칙을 클릭하면 상세 페이지로 이동합니다. 상세 페이지는 4개의 탭으로 구성됩니다.
개요 탭
규칙의 기본 정보와 조건 설정을 확인합니다.
| 항목 | 설명 |
|---|---|
| 평가 상태 | 정상 (Ok) / 알림 (Alert) / 데이터 없음 (NoData) |
| 마지막 평가 | 가장 최근에 규칙이 평가된 시각 |
| 조건 요약 | 설정된 조건의 자연어 요약 (예: "GPU 사용률 5분간 평균이 80 초과일 때, 5회 중 3회 충족 시 알림") |
| 대상 리소스 | 모니터링 대상 VM 또는 버킷 (클릭하여 해당 리소스로 이동 가능) |
차트 탭
해당 규칙이 모니터링하는 메트릭을 차트로 시각화합니다.
- 임계값이 점선으로 표시됩니다.
- 알림 이벤트가 발생한 시점에 마커가 표시됩니다.
- 상단 조건 요약 정보가 표시됩니다.
- 시간 범위(최근 30분 ~ 48시간)와 새로고침을 통해 원하는 구간을 조회할 수 있습니다.
액션 탭
규칙에 연결된 알림 액션 목록을 확인합니다. 각 액션을 클릭하면 액션 상세 페이지로 이동합니다.
이벤트 탭
알림 상태 변경 이력을 확인합니다.
- 상태 전이가 표시됩니다 (예: 정상 → 알림, 알림 → 정상).
- 이벤트를 클릭하면 차트 탭으로 이동하여 해당 시점의 메트릭을 자동으로 확인할 수 있습니다.
5.3 규칙 활성화/일시 중지
규칙 상세 페이지 상단의 상태 스위치로 규칙을 활성화하거나 일시 중지할 수 있습니다.
일시 중지 시 확인 다이얼로그가 표시됩니다.
5.4 규칙 수정
규칙 상세 페이지에서 수정 버튼을 클릭하여 규칙의 모든 설정을 변경할 수 있습니다. 변경된 항목만 저장됩니다.
5.5 규칙 삭제
규칙 상세 페이지에서 삭제 버튼을 클릭합니다. 삭제 확인 다이얼로그에서 규칙 이름을 확인한 후 삭제합니다.
6. 활용 시나리오
6.1 GPU 과 부하 알림 설정
- 모니터링 > 알림 > 액션 탭에서 이메일 액션을 생성하고 수신자를 지정합니다.
- 규칙 탭에서 알림 규칙 생성을 클릭합니다.
- 대상 리소스로 모니터링할 VM을 선택합니다.
- 메트릭을 GPU 사용률, 연산자를 >, 임계값을 90으로 설정합니다.
- 평가 조건을 집계 시간 단위 5분, 평가 횟수 5, 알림 횟수 3으로 설정합니다.
- 우측 다이어그램에서 조건이 의도대로 동작하는지 확인합니다.
- 생성한 이메일 액션을 선택한 후 생성을 클릭합니다.
6.2 오브젝트 스토리지 용량 알림 설정
- 알림 액션이 없다면 먼저 이메일 액션을 생성합니다.
- 알림 규칙 생성에서 리소스 유형을 오브젝트 스토리지로 선택합니다.
- 모니터링할 버킷을 선택합니다.
- 메트릭을 사용량 (Usage), 연산자를 >=, 임계값을 원하는 용량(Bytes)으로 설정합니다.
- 평가 조건을 설정하고 액션을 선택한 후 생성을 클릭합니다.
6.3 알림 이벤트 발생 시 원인 분석
- 모니터링 > 알림 > 규칙 탭에서 평가 상태가 Alert인 규칙을 클릭합니다.
- 이벤트 탭에서 최근 상태 전이 이력을 확인합니다.
- 이벤트를 클릭하면 차트 탭으로 이동하여 해당 시점의 메트릭을 확인합니다.
- 임계값 초과 원인을 파악한 후 필요한 조치를 취합니다.
6.4 유지보수 중 알림 일시 중지
- 유지보수 대상 VM의 알림 규칙 상세 페이지로 이동합니다.
- 상단 상태 스위치를 클릭하여 일시 중지합니다.
- 유지보수가 완료되면 다시 스위치를 클릭하여 활성화합니다.