-
인쇄
-
PDF
Cloud Insight 소개
-
인쇄
-
PDF
소개
Q. Cloud Insight는 무엇인가요?
-
개요
Cloud Insight는 네이버 클라우드 플랫폼이 제공하는 서비스의 성능 지표를 통합 관리하고, 장애 발생 시 담당자에게 장애 정보를 신속히 전달할 수 있는 모니터링 서비스입니다.
-
데이터 수집
Cloud Insight를 통해 네이버 클라우드 플랫폼의 서비스가 제공하는 다양한 성능 지표를 수집할 수 있으며, Cloud Insight가 제공하는 API를 통해 사용자 애플리케이션의 성능 지표를 Cloud Insight로 통합할 수도 있습니다.
-
시각화
수집된 네이버 클라우드 플랫폼 및 사용자 애플리케이션의 성능 지표를 하나의 Dashboard로 시각화하여 서비스의 운영 현황을 한눈에 확인할 수 있으며, 취합된 성능 지표들을 리소스 용량 및 성능 개선 계획 마련을 위한 기반 데이터로 활용할 수 있습니다.
-
모니터링 및 통보
Cloud Insight는 주요 모니터링 대상 성능 지표에 대해 임계치를 지정하고, 임계치를 초과할 경우 이에 대한 통보를 받을 담당자를 지정할 수 있습니다. 이를 통해 장애가 의심되는 상황이나 장애 발생 시 처리 담당자에게 SMS/Email로 발생한 문제를 신속하게 전달할 수 있습니다.
Q. Cloud Insight의 장점은 무엇인가요?
-
클라우드 환경의 가시성 확보
네이버 클라우드 플랫폼이 제공하는 서비스의 성능 지표 뿐만 아니라 사용자 애플리케이션에 대한 성능 지표도 Cloud Insight로 통합할 수 있습니다. 수집된 지표를 다양한 표현 방식으로 시각화하여 하나의 Dashboard로 구성해 클라우드 환경의 운영 현황을 한눈에 확인할 수 있습니다. Cloud Insight를 통해 모니터링 가능한 네이버 클라우드 플랫폼 서비스는 지속적으로 추가될 예정입니다.
-
운영에 필요한 통찰력 확보
단 하나의 도구로 클라우드 환경의 운영에 필요한 통찰력을 얻을 수 있습니다. Cloud Insight를 통해 클라우드 환경에서 벌어지고 있는 모든 문제를 추적할 수 있을 뿐만 아니라, 모든 성능/운영 지표 간의 상관관계를 시각적으로 확인할 수 있습니다. 이를 통해 운영 관리자는 해결해야 하는 문제와 원인, 그리고 이 문제가 미친 영향을 쉽고 빠르게 파악할 수 있습니다.
-
신속한 장애 대응
직관적인 UI의 이벤트 설정을 통해 장애 상황을 정의하고, 긴급도 및 담당자를 손쉽게 지정할 수 있습니다. 장애가 의심되는 상황이나 실제 장애 발생 시, 사전에 지정된 담당자에게 SMS 및 Email을 통해 문제가 발생했음을 전달하고, 운영담당자는 이를 통해 발생한 장애의 요약 정보를 확인하여 장애에 빠르게 대응할 수 있습니다.
아키텍쳐
Cloud Insight가 수집하는 성능 지표를 Metric이라고 하며, 네이버 클라우드 플랫폼의 각 서비스가 제공하는 System Metric과 사용자가 Cloud Insight API를 통해 직접 수집 설정한 Custom Metric으로 구분됩니다. Metric의 종류에 따른 상세 구분은 아래 표를 참고해 주세요.
구분 | 상세 구분 | 설명 |
---|---|---|
System Metric | Basic Metric | 네이버 클라우드 플랫폼의 각 서비스가 제공하는 기본 성능 지표입니다. 별도의 설정 없이 Cloud Insight를 통해 바로 확인할 수 있습니다. |
System Metric | Extended Metric | 네이버 클라우드 플랫폼의 각 서비스가 제공하는 추가 성능 지표입니다. Cloud Insight에서 각 서비스의 추가 성능 지표를 확인하기 위해서는 각 서비스 콘솔을 통한 수집 설정이 필요합니다. |
Custom Metric | - | 사용자 애플리케이션 등 네이버 클라우드 플랫폼이 제공하지 않는 성능 지표를 Cloud Insight의 API를 활용해 수집한 성능 지표입니다. |
제공 성능 지표
- Cloud Insight에서 성능지표를 제공하는 서비스는 다음과 같습니다.
구분 | 상품명 |
---|---|
Classic | Server |
VPC | Server(VPC) |
Classic | Load Balancer Monitor |
VPC | Load Balancer Monitor(VPC) |
VPC | Load Balancer Target Group(VPC) |
Classic / VPC | Cloud Search |
VPC | Cloud DB for MySQL(VPC) |
VPC | Cloud DB for MSSQL(VPC) |
VPC | Cloud DB for Redis(VPC) |
VPC | Cloud DB for MongoDB(VPC) |
VPC | Cloud DB for PostgreSQL(VPC) |
VPC | Cloud Hadoop(VPC) |
VPC | Auto Scaling Group(VPC) |
VPC | Kubernetes Service(VPC) |
VPC | Search Engine Service(VPC) |
VPC | Cloud Data Streaming Service(VPC) |
Classic / VPC | Object Storage |
Classic | NAS |
VPC | NAS(VPC) |
Classic / VPC | AiTEMS |
VPC | CLOVA NSML(VPC) |
- 각 성능 지표는 Cloud Insight API 참조서의 상품목록 페이지에서 자세히 확인할 수 있습니다.
- Cloud Insight를 통해 성능 지표를 확인할 수 있는 서비스는 지속적으로 추가될 예정입니다.
Metric과 Dimension
- Metric은 사용자가 취급하려는 값을 의미합니다. CloudInsight에서는 Metric 타입으로 STRING, INTEGER, LONG, FLOAT 을 지원합니다.
- Dimension은 Metric의 속성을 의미합니다. 해당 Metric이 어떤 서버에 속하는지, 어떤 곳에 위치하는지, 무엇의 값인지 등을 Dimension으로 정의할 수 있습니다.
집계와 집계 주기
- Metric 데이터 수집 주기는 1분입니다. 수집 주기는 집계 주기와 별개로 대상 리소스에서 Cloud Insight로 데이터를 보내는 주기를 의미합니다.
- 데이터는 수집된 그대로 Cloud Insight에 저장됩니다. 수집된 데이터는 집계 주기(Interval)마다 여러 가지 집계 함수(Aggregation Method)를 이용하여 연산됩니다.
- 집계 주기는 1분(Min1), 5분(Min5), 30분(Min30), 2시간(Hour2), 1일(Day1)을 간격으로 실행됩니다.
- 현재 집계 기간 내 AVG(평균값), MIN(최솟값), MAX(최댓값), COUNT(수집 횟수), SUM(합계) 등의 집계 함수가 지원됩니다.
- 아래와 같이 데이터가 수집되었다고 가정 했을 때 집계기간 1분(Min1)과 5분(Min5)에 대한 기댓값은 표와 같습니다.
# 00시 01분부터 00시 05분까지 아래와 같은 데이터가 수집되었다고 가정
00:01:00 - 1
00:02:00 - 2
00:03:00 - 3
00:04:00 - 4
00:05:00 - 5
집계 주기(Interval) : 1분(Min1)
시간 | AVG(평균값) | MIN(최솟값) | MAX(최댓값) | COUNT(수집 횟수) | SUM(합계) |
---|---|---|---|---|---|
00:01 | 1 | 1 | 1 | 1 | 1 |
00:02 | 2 | 2 | 2 | 1 | 2 |
00:03 | 3 | 3 | 3 | 1 | 3 |
00:04 | 4 | 4 | 4 | 1 | 4 |
00:05 | 5 | 5 | 5 | 1 | 5 |
집계 주기(Interval) : 5분(Min5)
시간 | AVG(평균값) | MIN(최솟값) | MAX(최댓값) | COUNT(수집 횟수) | SUM(합계) |
---|---|---|---|---|---|
00:01 | 3 | 1 | 5 | 5 | 15 |
- 집계 주기로 Auto를 선택하실 수 있습니다. 이 경우 Dashboard 표시 기간 선택에 따라 적절한 집계주기(Interval)가 자동 선택됩니다.
Dashboard 표시 기간 집계 주기 1H 1분 6H 5분 12H 30분 1D 30분 1W 2시간
대시보드
- 대시보드는 모니터링 대상 자원 및 성능 지표가 담긴 위젯들로 구성할 수 있습니다.
- 대시보드는 Cloud Insight와 연동되어 있는 네이버 클라우드 플랫폼 서비스의 기본 메트릭을 한눈에 볼 수 있도록 구성된 Service Dashboard와 사용자가 직접 생성하는 대시보드로 구분됩니다. 화면에서 두 대시보드를 구분할 수 있도록 Service Dashboard의 경우에는 Service Dashboard/상품명의 형태로 표시합니다.
Event Rule
- Event Rules 생성을 통해 감시가 필요한 대상, 항목 및 조건과 Event 발생시 액션(SMS/Email, Integration 등)을 설정할 수 있습니다.
- Event Rules 생성에서는 하나의 감시 대상에 대해 하나의 항목을 설정할 수 있지만, 사용자의 편의를 위해 미리 설정해둔 감시 대상 그룹(Target Group)과 감시 항목 그룹(Rule Template)을 지정하여 한번에 여러개의 Rule을 설정할 수도 있습니다. 따라서 하나의 Event Rules에는 여러개의 Rule이 포함될 수 있습니다.
유지 보수 일정
- 예정된 작업으로 특정 기간 동안 Event 발생에 따른 액션(SMS/Email , Integration 등)을 중단할 필요가 있는 경우, 이에 대한 일정을 등록해 해당 기간동안 액션을 중지시킬 수 있습니다. 이 경우 Event 발생에 따른 액션 발생만 중단될 뿐 Event는 정상적으로 발생됩니다.
전체 프로세스
콘솔에 접속한 후 다음의 단계를 통해 쉽게 Cloud Insight 서비스를 신청하고 이용할 수 있습니다.
-
콘솔 접속하기
- 콘솔에 접속합니다.
-
이용 신청
Services > Management & Governance > Cloud Insight(Monitoring) > Subscription 메뉴 클릭 후 이용 신청 버튼을 클릭합니다. -
Dashboard 구성
- 통합 모니터링을 위해 구성된 Dashboard를 확인할 수 있습니다.
-
Event Rule 설정
- 주요 모니터링 대상 자원 및 성능 지표에 설정된 Event Rule 설정 현황을 확인할 수 있습니다.
-
통보 대상 관리
- 통보 대상자로 지정된 사용자들의 휴대폰 번호, 이메일 주소를 확인할 수 있습니다.
-
Event 발생 현황
- Event 발생 이력을 확인할 수 있습니다.
-
Planned Mainternance 설정
- 캘린더 또는 목록으로 현재 등록된 유지 보수 일정을 확인할 수 있습니다.
-
서비스 해지
- Subscription 메뉴에서 이용 설정 > 이용 해지를 클릭하면 됩니다.
사용 한도
데이터 보관
Cloud Insight는 수집한 성능 지표를 최대 1년간 보관합니다.
성능 지표의 집계 주기에 따라 보관주기가 상이합니다. 자세한 내용은 아래의 표를 참고해 주세요.
집계 주기(interval) | 보관 기간 |
---|---|
1분 주기 | 최근 8일 |
5분 주기 | 최근 1개월 |
30분 주기 | 최근 3개월 |
2시간 주기 | 최근 6개월 |
1일 주기 | 최근 1년 |
데이터 조회 기간
데이터의 집계 주기에 따라 조회 가능 기간이 상이합니다. 자세한 내용은 아래의 표를 참고해 주세요.
집계 주기(interval) | 조회 가능 기간 |
---|---|
1분 주기 | 최대 1일 |
5분 주기 | 최대 1주일 |
30분 주기 | 최대 1개월 |
2시간 주기 | 최대 1개월 |
1일 주기 | 최대 1년 |
Dashboard
하나의 Dashboard에는 최대 30개의 Widget을 삽입할 수 있습니다.
API 사용
Cloud Insight API의 1회 호출을 통해 가져올 수 있는 성능 지표는 최대 20개로 제한됩니다.