Cloud Insight 소개
  • PDF

Cloud Insight 소개

  • PDF

소개

Q. Cloud Insight는 무엇인가요?

  • 개요

    Cloud Insight는 네이버 클라우드 플랫폼이 제공하는 서비스의 성능 지표를 통합 관리하고, 장애 발생 시 담당자에게 장애 정보를 신속히 전달할 수 있는 모니터링 서비스입니다.

  • 데이터 수집

    Cloud Insight를 통해 네이버 클라우드 플랫폼의 서비스가 제공하는 다양한 성능 지표를 수집할 수 있으며, Cloud Insight가 제공하는 API를 통해 사용자 애플리케이션의 성능 지표를 Cloud Insight로 통합할 수도 있습니다.

  • 시각화

    수집된 네이버 클라우드 플랫폼 및 사용자 애플리케이션의 성능 지표를 하나의 Dashboard로 시각화하여 서비스의 운영 현황을 한눈에 확인할 수 있으며, 취합된 성능 지표들을 리소스 용량 및 성능 개선 계획 마련을 위한 기반 데이터로 활용할 수 있습니다.

  • 모니터링 및 통보

    Cloud Insight는 주요 모니터링 대상 성능 지표에 대해 임계치를 지정하고, 임계치를 초과할 경우 이에 대한 통보를 받을 담당자를 지정할 수 있습니다. 이를 통해 장애가 의심되는 상황이나 장애 발생 시 처리 담당자에게 SMS/Email로 발생한 문제를 신속하게 전달할 수 있습니다.

Q. Cloud Insight의 장점은 무엇인가요?

  • 클라우드 환경의 가시성 확보

    네이버 클라우드 플랫폼이 제공하는 서비스의 성능 지표 뿐만 아니라 사용자 애플리케이션에 대한 성능 지표도 Cloud Insight로 통합할 수 있습니다. 수집된 지표를 다양한 표현 방식으로 시각화하여 하나의 Dashboard로 구성해 클라우드 환경의 운영 현황을 한눈에 확인할 수 있습니다. Cloud Insight를 통해 모니터링 가능한 네이버 클라우드 플랫폼 서비스는 지속적으로 추가될 예정입니다.

  • 운영에 필요한 통찰력 확보

    단 하나의 도구로 클라우드 환경의 운영에 필요한 통찰력을 얻을 수 있습니다. Cloud Insight를 통해 클라우드 환경에서 벌어지고 있는 모든 문제를 추적할 수 있을 뿐만 아니라, 모든 성능/운영 지표 간의 상관관계를 시각적으로 확인할 수 있습니다. 이를 통해 운영 관리자는 해결해야 하는 문제와 원인, 그리고 이 문제가 미친 영향을 쉽고 빠르게 파악할 수 있습니다.

  • 신속한 장애 대응

    직관적인 UI의 이벤트 설정을 통해 장애 상황을 정의하고, 긴급도 및 담당자를 손쉽게 지정할 수 있습니다. 장애가 의심되는 상황이나 실제 장애 발생 시, 사전에 지정된 담당자에게 SMS 및 Email을 통해 문제가 발생했음을 전달하고, 운영담당자는 이를 통해 발생한 장애의 요약 정보를 확인하여 장애에 빠르게 대응할 수 있습니다.

아키텍쳐

cloudinsight_architecture.png

Cloud Insight가 수집하는 성능 지표를 Metric이라고 하며, 네이버 클라우드 플랫폼의 각 서비스가 제공하는 System Metric과 사용자가 Cloud Insight API를 통해 직접 수집 설정한 Custom Metric으로 구분됩니다. Metric의 종류에 따른 상세 구분은 아래 표를 참고해 주세요.

구분 상세 구분 설명
System Metric Basic Metric 네이버 클라우드 플랫폼의 각 서비스가 제공하는 기본 성능 지표입니다.
별도의 설정 없이 Cloud Insight를 통해 바로 확인할 수 있습니다.
System Metric Extended Metric 네이버 클라우드 플랫폼의 각 서비스가 제공하는 추가 성능 지표입니다.
Cloud Insight에서 각 서비스의 추가 성능 지표를 확인하기 위해서는 각 서비스 콘솔을 통한 수집 설정이 필요합니다.
Custom Metric - 사용자 애플리케이션 등 네이버 클라우드 플랫폼이 제공하지 않는 성능 지표를 Cloud Insight의 API를 활용해 수집한 성능 지표입니다.

제공 성능 지표

  • Cloud Insight에서 성능지표를 제공하는 서비스는 다음과 같습니다.
구분 상품명
Classic Server
VPC Server(VPC)
Classic Load Balancer Monitor
VPC Load Balancer Monitor(VPC)
VPC Load Balancer Target Group(VPC)
Classic / VPC Cloud Search
VPC Cloud DB for MySQL(VPC)
VPC Cloud DB for MSSQL(VPC)
VPC Cloud DB for Redis(VPC)
VPC Cloud DB for MongoDB(VPC)
VPC Cloud DB for PostgreSQL(VPC)
VPC Cloud Hadoop(VPC)
VPC Auto Scaling Group(VPC)
VPC Kubernetes Service(VPC)
VPC Search Engine Service(VPC)
VPC Cloud Data Streaming Service(VPC)
Classic / VPC Object Storage
Classic NAS
VPC NAS(VPC)
Classic / VPC AiTEMS
VPC CLOVA NSML(VPC)
  • 각 성능 지표는 Cloud Insight API 참조서의 상품목록 페이지에서 자세히 확인할 수 있습니다.
  • Cloud Insight를 통해 성능 지표를 확인할 수 있는 서비스는 지속적으로 추가될 예정입니다.

Metric과 Dimension

  • Metric은 사용자가 취급하려는 값을 의미합니다. CloudInsight에서는 Metric 타입으로 STRING, INTEGER, LONG, FLOAT 을 지원합니다.
  • Dimension은 Metric의 속성을 의미합니다. 해당 Metric이 어떤 서버에 속하는지, 어떤 곳에 위치하는지, 무엇의 값인지 등을 Dimension으로 정의할 수 있습니다.

집계와 집계 주기

  • Metric 데이터 수집 주기는 1분입니다. 수집 주기는 집계 주기와 별개로 대상 리소스에서 Cloud Insight로 데이터를 보내는 주기를 의미합니다.
  • 데이터는 수집된 그대로 Cloud Insight에 저장됩니다. 수집된 데이터는 집계 주기(Interval)마다 여러 가지 집계 함수(Aggregation Method)를 이용하여 연산됩니다.
  • 집계 주기는 1분(Min1), 5분(Min5), 30분(Min30), 2시간(Hour2), 1일(Day1)을 간격으로 실행됩니다.
  • 현재 집계 기간 내 AVG(평균값), MIN(최솟값), MAX(최댓값), COUNT(수집 횟수), SUM(합계) 등의 집계 함수가 지원됩니다.
  • 아래와 같이 데이터가 수집되었다고 가정 했을 때 집계기간 1분(Min1)과 5분(Min5)에 대한 기댓값은 표와 같습니다.
# 00시 01분부터 00시 05분까지 아래와 같은 데이터가 수집되었다고 가정
00:01:00 - 1
00:02:00 - 2
00:03:00 - 3
00:04:00 - 4
00:05:00 - 5

집계 주기(Interval) : 1분(Min1)

시간 AVG(평균값) MIN(최솟값) MAX(최댓값) COUNT(수집 횟수) SUM(합계)
00:01 1 1 1 1 1
00:02 2 2 2 1 2
00:03 3 3 3 1 3
00:04 4 4 4 1 4
00:05 5 5 5 1 5

집계 주기(Interval) : 5분(Min5)

시간 AVG(평균값) MIN(최솟값) MAX(최댓값) COUNT(수집 횟수) SUM(합계)
00:01 3 1 5 5 15
  • 집계 주기로 Auto를 선택하실 수 있습니다. 이 경우 Dashboard 표시 기간 선택에 따라 적절한 집계주기(Interval)가 자동 선택됩니다.
    Dashboard 표시 기간 집계 주기
    1H 1분
    6H 5분
    12H 30분
    1D 30분
    1W 2시간

대시보드

  • 대시보드는 모니터링 대상 자원 및 성능 지표가 담긴 위젯들로 구성할 수 있습니다.
  • 대시보드는 Cloud Insight와 연동되어 있는 네이버 클라우드 플랫폼 서비스의 기본 메트릭을 한눈에 볼 수 있도록 구성된 Service Dashboard와 사용자가 직접 생성하는 대시보드로 구분됩니다. 화면에서 두 대시보드를 구분할 수 있도록 Service Dashboard의 경우에는 Service Dashboard/상품명의 형태로 표시합니다.

Event Rule

  • Event Rules 생성을 통해 감시가 필요한 대상, 항목 및 조건과 Event 발생시 액션(SMS/Email, Integration 등)을 설정할 수 있습니다.
  • Event Rules 생성에서는 하나의 감시 대상에 대해 하나의 항목을 설정할 수 있지만, 사용자의 편의를 위해 미리 설정해둔 감시 대상 그룹(Target Group)과 감시 항목 그룹(Rule Template)을 지정하여 한번에 여러개의 Rule을 설정할 수도 있습니다. 따라서 하나의 Event Rules에는 여러개의 Rule이 포함될 수 있습니다.

유지 보수 일정

  • 예정된 작업으로 특정 기간 동안 Event 발생에 따른 액션(SMS/Email , Integration 등)을 중단할 필요가 있는 경우, 이에 대한 일정을 등록해 해당 기간동안 액션을 중지시킬 수 있습니다. 이 경우 Event 발생에 따른 액션 발생만 중단될 뿐 Event는 정상적으로 발생됩니다.

전체 프로세스

콘솔에 접속한 후 다음의 단계를 통해 쉽게 Cloud Insight 서비스를 신청하고 이용할 수 있습니다.

  • 콘솔 접속하기

  • 이용 신청
    Services > Management & Governance > Cloud Insight(Monitoring) > Subscription 메뉴 클릭 후 이용 신청 버튼을 클릭합니다.

  • Dashboard 구성

    • 통합 모니터링을 위해 구성된 Dashboard를 확인할 수 있습니다.
  • Event Rule 설정

    • 주요 모니터링 대상 자원 및 성능 지표에 설정된 Event Rule 설정 현황을 확인할 수 있습니다.
  • 통보 대상 관리

    • 통보 대상자로 지정된 사용자들의 휴대폰 번호, 이메일 주소를 확인할 수 있습니다.
  • Event 발생 현황

    • Event 발생 이력을 확인할 수 있습니다.
  • Planned Mainternance 설정

    • 캘린더 또는 목록으로 현재 등록된 유지 보수 일정을 확인할 수 있습니다.
  • 서비스 해지

    • Subscription 메뉴에서 이용 설정 > 이용 해지를 클릭하면 됩니다.

사용 한도

데이터 보관

Cloud Insight는 수집한 성능 지표를 최대 1년간 보관합니다.

성능 지표의 집계 주기에 따라 보관주기가 상이합니다. 자세한 내용은 아래의 표를 참고해 주세요.

집계 주기(interval) 보관 기간
1분 주기 최근 8일
5분 주기 최근 1개월
30분 주기 최근 3개월
2시간 주기 최근 6개월
1일 주기 최근 1년

데이터 조회 기간

데이터의 집계 주기에 따라 조회 가능 기간이 상이합니다. 자세한 내용은 아래의 표를 참고해 주세요.

집계 주기(interval) 조회 가능 기간
1분 주기 최대 1일
5분 주기 최대 1주일
30분 주기 최대 1개월
2시간 주기 최대 1개월
1일 주기 최대 1년

Dashboard

하나의 Dashboard에는 최대 30개의 Widget을 삽입할 수 있습니다.

API 사용

Cloud Insight API의 1회 호출을 통해 가져올 수 있는 성능 지표는 최대 20개로 제한됩니다.


이 글이 도움이 되었나요?