Cloud Insightでの Hadoopモニタリング

Prev Next

VPC環境で利用できます。

NAVERクラウドプラットフォームの Cloud Insightサービスを通じて Hadoopのパフォーマンスおよび運用指標をモニタリングし、障害が発生した際に迅速に確認して対処することができます。

事前タスク

  1. Cloud Hadoopクラスタを作成します。
  2. Cloud Insightご利用の申し込みを行います。

ダッシュボード構成

Cloud Hadoopモニタリングのために、Cloud Insightコンソール画面でダッシュボードを作成してウィジェットを追加できます。

Cloud Insightでダッシュボードを作成してウィジェットを追加する方法は、次の通りです。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、 Menu > Services > Management & Governance > Cloud Insight(Monitoring) メニューを順にクリックします。
  2. [ダッシュボード作成] メニューをクリックします。
  3. ダッシュボードの名前と説明を入力した後、 [作成] ボタンをクリックします。
    hadoop-vpc-use-ex12_create1_vpc_ko
  4. [ウィジェット追加] ボタンをクリックします。
  5. ウィジェットの名前を入力した後、ウィジェットのタイプを選択して [次へ] ボタンをクリックします。
    • 例では、Time Seriesウィジェットを使用して説明します。
      hadoop-vpc-use-ex12_create3_vpc_ko
  6. 以下のようにウィジェット設定を入力した後、 [次へ] ボタンをクリックします。
    • [CPU] タブの CPU/used_rto、CPU/user_rtoのチェックボックスをクリックし、 [選択項目追加] ボタンをクリックします。
      hadoop-vpc-use-ex12_create4_vpc_ko
    • Product Type: Cloud Hadoop(VPC)
    • Target: 保有リソース全体を選択した後、モニタリングするクラスタを選択
      (グループを選択する場合、Target Group設定を参照)
    • Metric: 全メトリックを選択した後、モニタリングする項目を選択し、 [選択項目追加] ボタンをクリック
      (テンプレートを選択する場合、Rule Template設定を参照)
    • 設定データリスト: 選択したモニタリング項目の Dimension(プロパティ)、Interval(集計周期)、Aggregation(集計関数)
  7. 設定したウィジェット内容を確認し、 [作成] ボタンをクリックします。
    hadoop-vpc-use-ex12_create6_vpc_ko
    • 以下のようにダッシュボードにウィジェットが追加されます。追加されたウィジェットを通じて Cloud Hadoopクラスタをモニタリングできます。
      hadoop-vpc-use-ex12_create7_vpc_ko

グループとテンプレート設定

モニタリング設定やウィジェットを容易に管理できるように、特定のモニタリング対象をグループ化したり特定のモニタリング項目(Metric)をテンプレートとして保存することができます。

Target Group設定

Target Groupを作成して特定のモニタリング対象をグループ化する方法は、次の通りです。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、 Menu > Services > Management & Governance > Cloud Insight(Monitoring) メニューを順にクリックします。
  2. Configuration > Templateメニューを順にクリックします。
  3. [対象グループ] タブをクリックし、 [対象グループ作成] ボタンをクリックします。
  4. 以下のようにグループ設定を入力した後、 [作成] ボタンをクリックします。
    hadoop-vpc-use-ex12_targetGroup2_vpc_ko
  • Product Type: Cloud Hadoop(VPC)
  • グループ名グループの説明: グループの名前と説明を入力
  • 選択可能な監視対象: グループに含めるモニタリング対象をすべて選択し、icon_hadoop-vpc-use-ex12_addSelected_vpc をクリック

Rule Template設定

Rule Templateを設定して特定のモニタリング項目をテンプレートとして保存する方法は、次の通りです。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、 Menu > Services > Management & Governance > Cloud Insight(Monitoring) メニューを順にクリックします。

  2. Configuration > Templateメニューを順にクリックします。

  3. [ルールテンプレート] タブをクリックし、 [ルールテンプレート作成] ボタンをクリックします。

  4. 以下のようにテンプレート設定を入力した後、 [次へ] ボタンをクリックします。
    hadoop-vpc-use-ex12_template2_vpc_ko

    • Product Type: Cloud Hadoop(VPC)
    • テンプレート名説明: テンプレートの名前と説明を入力
    • 各分類タブでテンプレートに含めるモニタリング項目(Metric)を探して選択
  5. 以下のように各モニタリング項目のモニタリング条件を入力した後、 [保存] ボタンをクリックします。
    hadoop-vpc-use-ex12_template3_vpc_ko

    • Dimension: モニタリング項目のプロパティ
    • Level: イベント発生時のレベル
    • Condition: イベントの発生条件
    • Method: モニタリング項目の集計関数
    • Duration: 持続時間
    参考

    Cloud Hadoop(VPC)の CPU/user_rto(cpu_idx: 1)の値が0で1分間続く場合、Infoレベルのイベントが発生するように設定する例は次の通りです。
    hadoop-vpc-use12_25_ko

イベント設定

モニタリング対象や項目を選択した後、モニタリング条件や通知アクションを設定してイベントを作成し、作成したイベントの状況を確認できます。

参考

本ガイドでは、イベントの通知アクションとして通知メッセージ送信を使用する方法について説明します。IntegrationCloud FunctionsAuto Scalingポリシーなどの他の通知アクションの説明は、Cloud Insight ご利用ガイドをご参照ください。

イベントを設定する方法は、次の通りです。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、 Menu > Services > Management & Governance > Cloud Insight(Monitoring) メニューを順にクリックします。
  2. Configuration > Event Ruleメニューを順にクリックします。
  3. [Event Rules作成] ボタンをクリックします。
  4. 監視サービス選択項目から Cloud Hadoop(VPC) を選択し、 [次へ] ボタンをクリックします。
    hadoop-vpc-use-ex12_eventRule2_vpc_ko
  5. 個別モニタリング対象またはモニタリンググループを選択した後、 [次へ] ボタンをクリックします。
    • 新しいグループを作成するには、Target Group設定をご参照ください。
      hadoop-vpc-use-ex12_eventRule3_vpc_ko
  6. 個別モニタリング項目またはモニタリングテンプレートを選択した後、 [次へ] ボタンをクリックします。
    • 新しいテンプレートを作成するには、Rule Template設定をご参照ください。
      hadoop-vpc-use-ex12_eventRule4_vpc_ko
  7. [通知メッセージ送信] タブから通知対象者グループを選択し、 [次へ] ボタンをクリックします。
  8. 設定したイベント内容を確認し、 [作成] ボタンをクリックします。
    hadoop-vpc-use-ex12_eventRule6_vpc_ko

イベント状況確認

作成したイベントの状況を確認する方法は次の通りです。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、 Menu > Services > Management & Governance > Cloud Insight(Monitoring) メニューを順にクリックします。
  2. Eventメニューをクリックします。イベントルールによってイベントが発生した場合、発生したイベントの詳細を以下のように確認できます。
    hadoop-vpc-use-ex12_Event_vpc_ko

通知対象者グループ作成

イベント通知メッセージを発生させる通知対象者グループを作成し、対象者を追加する方法は次の通りです。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、 Menu > Services > Management & Governance > Cloud Insight(Monitoring) メニューを順にクリックします。
  2. Notification Recipientメニューを順にクリックします。
  3. 対象者グループリストの chadoop-vpc-use-plusicon_ko ボタンをクリックして作成するグループ名を入力し、chadoop-vpc-use-checkicon_ko ボタンをクリックします。
    hadoop-vpc-use-ex12_noti1_vpc_ko
  4. 対象者グループリストの全対象者をクリックします。
  5. 作成したグループに割り当てる対象者を選択した後、 [割り当て] ボタンをクリックします。
    • 新しい対象者を追加するには、 [対象者追加] ボタンをクリックした後、Cloud Insight ご利用ガイドを参照して対象者を追加します。
      hadoop-vpc-use-ex12_noti2_vpc_ko
  6. 追加する通知対象者の情報を入力して本人認証を完了した後、 [登録] ボタンをクリックします。

Cloud Hadoop Metric

作成されたすべてのクラスタに対して以下の指標をモニタリングできます。Cloud Insightは指標に関するデータを1分間隔で収集します。

参考

クラスタの HDFS、YARNが正常に動作していない場合、指標は収集されず、ダッシュボードでも確認できません。

指標 タイプ 単位 説明
active_nodes INTEGER num number of nodes presently running MapReduce tasks or jobs
allocated_container INTEGER num number of resource containers allocated by the ResourceManager
allocated_mb INTEGER MB amount of memory allocated to the cluster
allocated_v_cores INTEGER num number of core nodes working
apps_completed INTEGER num number of applications submitted to YARN that have completed
apps_failed INTEGER num number of applications submitted to YARN that have failed to complete
apps_killed INTEGER num number of applications submitted to YARN that have been killed
apps_pending INTEGER num number of applications submitted to YARN that are in a pending state
apps_running INTEGER num number of applications submitted to YARN that are running
apps_submitted INTEGER num number of applications submitted to YARN
available_mb INTEGER MB amount of memory available to be allocated
capacity_remaining_gb INTEGER GB amount of remaining HDFS disk capacity
corrupt_blocks INTEGER num number of blocks that HDFS reports as corrupted
decommissioned_nodes INTEGER num number of nodes allocated to MapReduce applications that have been marked in a DECOMMISSIONED state
hdfs_bytes_read INTEGER Bytes number of bytes read from HDFS
hdfs_bytes_written INTEGER Bytes number of bytes written to HDFS
hdfs_utilization FLOAT % percentage of HDFS storage currently used
lost_nodes INTEGER num number of nodes allocated to MapReduce that have been marked in a LOST state
missing_blocks INTEGER num number of blocks in which HDFS has no replicas
num_live_data_nodes INTEGER num number of data nodes that are receiving work from Hadoop
pending_containers INTEGER num number of containers in the queue that have not yet been allocated
pending_deletion_blocks INTEGER num number of blocks marked for deletion
pending_replication_blocks INTEGER num status of block replication: blocks being replicated, age of replication requests, and unsuccessful replication requests
pending_v_cores INTEGER num number of core nodes waiting to be assigned
rebooted_nodes INTEGER num number of nodes available to MapReduce that have been rebooted and marked in a REBOOTED state
reserved_containers INTEGER num number of containers reserved
reserved_mb INTEGER MB amount of memory reserved
total_load INTEGER num total number of concurrent data transfers
total_mb INTEGER MB total amount of memory in the cluster
total_nodes INTEGER num number of nodes presently available to MapReduce jobs
under_replicated_blocks INTEGER num number of blocks that need to be replicated one or more times
unhealthy_nodes INTEGER num number of nodes available to MapReduce jobs marked in an UNHEALTHY state
yarn_memory_available_percentage FLOAT % percentage of remaining memory available to YARN (= available_mb / total_mb)