VPC環境で利用できます。
NAVERクラウドプラットフォームの Cloud Insightサービスを通じて Hadoopのパフォーマンスおよび運用指標をモニタリングし、障害が発生した際に迅速に確認して対処することができます。
事前タスク
- Cloud Hadoopクラスタを作成します。
- Cloud Hadoopクラスタ作成に関する詳細は、Cloud Hadoop を開始するガイドをご参照ください。
- Cloud Insightご利用の申し込みを行います。
- Cloud Insightご利用の申し込みに関する詳細は、Cloud Insight ご利用ガイドをご参照ください。
ダッシュボード構成
Cloud Hadoopモニタリングのために、Cloud Insightコンソール画面でダッシュボードを作成してウィジェットを追加できます。
Cloud Insightでダッシュボードを作成してウィジェットを追加する方法は、次の通りです。
- NAVERクラウドプラットフォームコンソールの VPC環境で、 Menu > Services > Management & Governance > Cloud Insight(Monitoring) メニューを順にクリックします。
- [ダッシュボード作成] メニューをクリックします。
- ダッシュボードの名前と説明を入力した後、 [作成] ボタンをクリックします。

- [ウィジェット追加] ボタンをクリックします。
- ウィジェットの名前を入力した後、ウィジェットのタイプを選択して [次へ] ボタンをクリックします。
- 例では、Time Seriesウィジェットを使用して説明します。

- 例では、Time Seriesウィジェットを使用して説明します。
- 以下のようにウィジェット設定を入力した後、 [次へ] ボタンをクリックします。
- [CPU] タブの CPU/used_rto、CPU/user_rtoのチェックボックスをクリックし、 [選択項目追加] ボタンをクリックします。

- Product Type: Cloud Hadoop(VPC)
- Target: 保有リソース全体を選択した後、モニタリングするクラスタを選択
(グループを選択する場合、Target Group設定を参照) - Metric: 全メトリックを選択した後、モニタリングする項目を選択し、 [選択項目追加] ボタンをクリック
(テンプレートを選択する場合、Rule Template設定を参照) - 設定データリスト: 選択したモニタリング項目の Dimension(プロパティ)、Interval(集計周期)、Aggregation(集計関数)
- [CPU] タブの CPU/used_rto、CPU/user_rtoのチェックボックスをクリックし、 [選択項目追加] ボタンをクリックします。
- 設定したウィジェット内容を確認し、 [作成] ボタンをクリックします。
- 以下のようにダッシュボードにウィジェットが追加されます。追加されたウィジェットを通じて Cloud Hadoopクラスタをモニタリングできます。

- 以下のようにダッシュボードにウィジェットが追加されます。追加されたウィジェットを通じて Cloud Hadoopクラスタをモニタリングできます。
グループとテンプレート設定
モニタリング設定やウィジェットを容易に管理できるように、特定のモニタリング対象をグループ化したり特定のモニタリング項目(Metric)をテンプレートとして保存することができます。
Target Group設定
Target Groupを作成して特定のモニタリング対象をグループ化する方法は、次の通りです。
- NAVERクラウドプラットフォームコンソールの VPC環境で、 Menu > Services > Management & Governance > Cloud Insight(Monitoring) メニューを順にクリックします。
- Configuration > Templateメニューを順にクリックします。
- [対象グループ] タブをクリックし、 [対象グループ作成] ボタンをクリックします。
- 以下のようにグループ設定を入力した後、 [作成] ボタンをクリックします。

- Product Type: Cloud Hadoop(VPC)
- グループ名、グループの説明: グループの名前と説明を入力
- 選択可能な監視対象: グループに含めるモニタリング対象をすべて選択し、
をクリック
Rule Template設定
Rule Templateを設定して特定のモニタリング項目をテンプレートとして保存する方法は、次の通りです。
-
NAVERクラウドプラットフォームコンソールの VPC環境で、 Menu > Services > Management & Governance > Cloud Insight(Monitoring) メニューを順にクリックします。
-
Configuration > Templateメニューを順にクリックします。
-
[ルールテンプレート] タブをクリックし、 [ルールテンプレート作成] ボタンをクリックします。
-
以下のようにテンプレート設定を入力した後、 [次へ] ボタンをクリックします。

- Product Type: Cloud Hadoop(VPC)
- テンプレート名、説明: テンプレートの名前と説明を入力
- 各分類タブでテンプレートに含めるモニタリング項目(Metric)を探して選択
-
以下のように各モニタリング項目のモニタリング条件を入力した後、 [保存] ボタンをクリックします。

- Dimension: モニタリング項目のプロパティ
- Level: イベント発生時のレベル
- Condition: イベントの発生条件
- Method: モニタリング項目の集計関数
- Duration: 持続時間
参考Cloud Hadoop(VPC)の CPU/user_rto(cpu_idx: 1)の値が0で1分間続く場合、Infoレベルのイベントが発生するように設定する例は次の通りです。

イベント設定
モニタリング対象や項目を選択した後、モニタリング条件や通知アクションを設定してイベントを作成し、作成したイベントの状況を確認できます。
本ガイドでは、イベントの通知アクションとして通知メッセージ送信を使用する方法について説明します。Integration、Cloud Functions、Auto Scalingポリシーなどの他の通知アクションの説明は、Cloud Insight ご利用ガイドをご参照ください。
イベントを設定する方法は、次の通りです。
- NAVERクラウドプラットフォームコンソールの VPC環境で、 Menu > Services > Management & Governance > Cloud Insight(Monitoring) メニューを順にクリックします。
- Configuration > Event Ruleメニューを順にクリックします。
- [Event Rules作成] ボタンをクリックします。
- 監視サービス選択項目から Cloud Hadoop(VPC) を選択し、 [次へ] ボタンをクリックします。

- 個別モニタリング対象またはモニタリンググループを選択した後、 [次へ] ボタンをクリックします。
- 新しいグループを作成するには、Target Group設定をご参照ください。

- 新しいグループを作成するには、Target Group設定をご参照ください。
- 個別モニタリング項目またはモニタリングテンプレートを選択した後、 [次へ] ボタンをクリックします。
- 新しいテンプレートを作成するには、Rule Template設定をご参照ください。

- 新しいテンプレートを作成するには、Rule Template設定をご参照ください。
- [通知メッセージ送信] タブから通知対象者グループを選択し、 [次へ] ボタンをクリックします。
- 新しい通知対象者グループを作成するには、通知対象者グループ作成をご参照ください。

- 新しい通知対象者グループを作成するには、通知対象者グループ作成をご参照ください。
- 設定したイベント内容を確認し、 [作成] ボタンをクリックします。

イベント状況確認
作成したイベントの状況を確認する方法は次の通りです。
- NAVERクラウドプラットフォームコンソールの VPC環境で、 Menu > Services > Management & Governance > Cloud Insight(Monitoring) メニューを順にクリックします。
- Eventメニューをクリックします。イベントルールによってイベントが発生した場合、発生したイベントの詳細を以下のように確認できます。

通知対象者グループ作成
イベント通知メッセージを発生させる通知対象者グループを作成し、対象者を追加する方法は次の通りです。
- NAVERクラウドプラットフォームコンソールの VPC環境で、 Menu > Services > Management & Governance > Cloud Insight(Monitoring) メニューを順にクリックします。
- Notification Recipientメニューを順にクリックします。
- 対象者グループリストの
ボタンをクリックして作成するグループ名を入力し、
ボタンをクリックします。

- 対象者グループリストの全対象者をクリックします。
- 作成したグループに割り当てる対象者を選択した後、 [割り当て] ボタンをクリックします。
- 新しい対象者を追加するには、 [対象者追加] ボタンをクリックした後、Cloud Insight ご利用ガイドを参照して対象者を追加します。

- 新しい対象者を追加するには、 [対象者追加] ボタンをクリックした後、Cloud Insight ご利用ガイドを参照して対象者を追加します。
- 追加する通知対象者の情報を入力して本人認証を完了した後、 [登録] ボタンをクリックします。
Cloud Hadoop Metric
作成されたすべてのクラスタに対して以下の指標をモニタリングできます。Cloud Insightは指標に関するデータを1分間隔で収集します。
クラスタの HDFS、YARNが正常に動作していない場合、指標は収集されず、ダッシュボードでも確認できません。
| 指標 | タイプ | 単位 | 説明 |
|---|---|---|---|
| active_nodes | INTEGER | num | number of nodes presently running MapReduce tasks or jobs |
| allocated_container | INTEGER | num | number of resource containers allocated by the ResourceManager |
| allocated_mb | INTEGER | MB | amount of memory allocated to the cluster |
| allocated_v_cores | INTEGER | num | number of core nodes working |
| apps_completed | INTEGER | num | number of applications submitted to YARN that have completed |
| apps_failed | INTEGER | num | number of applications submitted to YARN that have failed to complete |
| apps_killed | INTEGER | num | number of applications submitted to YARN that have been killed |
| apps_pending | INTEGER | num | number of applications submitted to YARN that are in a pending state |
| apps_running | INTEGER | num | number of applications submitted to YARN that are running |
| apps_submitted | INTEGER | num | number of applications submitted to YARN |
| available_mb | INTEGER | MB | amount of memory available to be allocated |
| capacity_remaining_gb | INTEGER | GB | amount of remaining HDFS disk capacity |
| corrupt_blocks | INTEGER | num | number of blocks that HDFS reports as corrupted |
| decommissioned_nodes | INTEGER | num | number of nodes allocated to MapReduce applications that have been marked in a DECOMMISSIONED state |
| hdfs_bytes_read | INTEGER | Bytes | number of bytes read from HDFS |
| hdfs_bytes_written | INTEGER | Bytes | number of bytes written to HDFS |
| hdfs_utilization | FLOAT | % | percentage of HDFS storage currently used |
| lost_nodes | INTEGER | num | number of nodes allocated to MapReduce that have been marked in a LOST state |
| missing_blocks | INTEGER | num | number of blocks in which HDFS has no replicas |
| num_live_data_nodes | INTEGER | num | number of data nodes that are receiving work from Hadoop |
| pending_containers | INTEGER | num | number of containers in the queue that have not yet been allocated |
| pending_deletion_blocks | INTEGER | num | number of blocks marked for deletion |
| pending_replication_blocks | INTEGER | num | status of block replication: blocks being replicated, age of replication requests, and unsuccessful replication requests |
| pending_v_cores | INTEGER | num | number of core nodes waiting to be assigned |
| rebooted_nodes | INTEGER | num | number of nodes available to MapReduce that have been rebooted and marked in a REBOOTED state |
| reserved_containers | INTEGER | num | number of containers reserved |
| reserved_mb | INTEGER | MB | amount of memory reserved |
| total_load | INTEGER | num | total number of concurrent data transfers |
| total_mb | INTEGER | MB | total amount of memory in the cluster |
| total_nodes | INTEGER | num | number of nodes presently available to MapReduce jobs |
| under_replicated_blocks | INTEGER | num | number of blocks that need to be replicated one or more times |
| unhealthy_nodes | INTEGER | num | number of nodes available to MapReduce jobs marked in an UNHEALTHY state |
| yarn_memory_available_percentage | FLOAT | % | percentage of remaining memory available to YARN (= available_mb / total_mb) |