Cloud Insightでの Hadoopモニタリング

VPC環境で利用できます。

NAVERクラウドプラットフォームの Cloud Insightサービスを通じて Hadoopのパフォーマンスおよび運用指標をモニタリングし、障害が発生した際に迅速に確認して対処することができます。

事前タスク

Cloud Hadoopクラスタを作成します。
- Cloud Hadoopクラスタ作成に関する詳細は、Cloud Hadoop を開始するガイドをご参照ください。
Cloud Insightご利用の申し込みを行います。
- Cloud Insightご利用の申し込みに関する詳細は、Cloud Insight ご利用ガイドをご参照ください。

ダッシュボード構成

Cloud Hadoopモニタリングのために、Cloud Insightコンソール画面でダッシュボードを作成してウィジェットを追加できます。

Cloud Insightでダッシュボードを作成してウィジェットを追加する方法は、次の通りです。

NAVERクラウドプラットフォームコンソールの VPC環境で、 Menu > Services > Management & Governance > Cloud Insight(Monitoring) メニューを順にクリックします。
[ダッシュボード作成] メニューをクリックします。
ダッシュボードの名前と説明を入力した後、 [作成] ボタンをクリックします。
[ウィジェット追加] ボタンをクリックします。
ウィジェットの名前を入力した後、ウィジェットのタイプを選択して [次へ] ボタンをクリックします。
- 例では、Time Seriesウィジェットを使用して説明します。
以下のようにウィジェット設定を入力した後、 [次へ] ボタンをクリックします。
- [CPU] タブの CPU/used_rto、CPU/user_rtoのチェックボックスをクリックし、 [選択項目追加] ボタンをクリックします。
- Product Type: Cloud Hadoop(VPC)
- Target: 保有リソース全体を選択した後、モニタリングするクラスタを選択
  (グループを選択する場合、Target Group設定を参照)
- Metric: 全メトリックを選択した後、モニタリングする項目を選択し、 [選択項目追加] ボタンをクリック
  (テンプレートを選択する場合、Rule Template設定を参照)
- 設定データリスト: 選択したモニタリング項目の Dimension(プロパティ)、Interval(集計周期)、Aggregation(集計関数)
設定したウィジェット内容を確認し、 [作成] ボタンをクリックします。
- 以下のようにダッシュボードにウィジェットが追加されます。追加されたウィジェットを通じて Cloud Hadoopクラスタをモニタリングできます。

グループとテンプレート設定

モニタリング設定やウィジェットを容易に管理できるように、特定のモニタリング対象をグループ化したり特定のモニタリング項目(Metric)をテンプレートとして保存することができます。

Target Group設定

Target Groupを作成して特定のモニタリング対象をグループ化する方法は、次の通りです。

NAVERクラウドプラットフォームコンソールの VPC環境で、 Menu > Services > Management & Governance > Cloud Insight(Monitoring) メニューを順にクリックします。
Configuration > Templateメニューを順にクリックします。
[対象グループ] タブをクリックし、 [対象グループ作成] ボタンをクリックします。
以下のようにグループ設定を入力した後、 [作成] ボタンをクリックします。

Product Type: Cloud Hadoop(VPC)
グループ名、グループの説明: グループの名前と説明を入力
選択可能な監視対象: グループに含めるモニタリング対象をすべて選択し、をクリック

Rule Template設定

Rule Templateを設定して特定のモニタリング項目をテンプレートとして保存する方法は、次の通りです。

NAVERクラウドプラットフォームコンソールの VPC環境で、 Menu > Services > Management & Governance > Cloud Insight(Monitoring) メニューを順にクリックします。
Configuration > Templateメニューを順にクリックします。
[ルールテンプレート] タブをクリックし、 [ルールテンプレート作成] ボタンをクリックします。
以下のようにテンプレート設定を入力した後、 [次へ] ボタンをクリックします。
- Product Type: Cloud Hadoop(VPC)
- テンプレート名、説明: テンプレートの名前と説明を入力
- 各分類タブでテンプレートに含めるモニタリング項目(Metric)を探して選択
以下のように各モニタリング項目のモニタリング条件を入力した後、 [保存] ボタンをクリックします。
- Dimension: モニタリング項目のプロパティ
- Level: イベント発生時のレベル
- Condition: イベントの発生条件
- Method: モニタリング項目の集計関数
- Duration: 持続時間
参考

Cloud Hadoop(VPC)の CPU/user_rto(cpu_idx: 1)の値が0で1分間続く場合、Infoレベルのイベントが発生するように設定する例は次の通りです。

イベント設定

モニタリング対象や項目を選択した後、モニタリング条件や通知アクションを設定してイベントを作成し、作成したイベントの状況を確認できます。

参考

本ガイドでは、イベントの通知アクションとして通知メッセージ送信を使用する方法について説明します。Integration、Cloud Functions、Auto Scalingポリシーなどの他の通知アクションの説明は、Cloud Insight ご利用ガイドをご参照ください。

イベントを設定する方法は、次の通りです。

NAVERクラウドプラットフォームコンソールの VPC環境で、 Menu > Services > Management & Governance > Cloud Insight(Monitoring) メニューを順にクリックします。
Configuration > Event Ruleメニューを順にクリックします。
[Event Rules作成] ボタンをクリックします。
監視サービス選択項目から Cloud Hadoop(VPC) を選択し、 [次へ] ボタンをクリックします。
個別モニタリング対象またはモニタリンググループを選択した後、 [次へ] ボタンをクリックします。
- 新しいグループを作成するには、Target Group設定をご参照ください。
個別モニタリング項目またはモニタリングテンプレートを選択した後、 [次へ] ボタンをクリックします。
- 新しいテンプレートを作成するには、Rule Template設定をご参照ください。
[通知メッセージ送信] タブから通知対象者グループを選択し、 [次へ] ボタンをクリックします。
- 新しい通知対象者グループを作成するには、通知対象者グループ作成をご参照ください。
設定したイベント内容を確認し、 [作成] ボタンをクリックします。

イベント状況確認

作成したイベントの状況を確認する方法は次の通りです。

NAVERクラウドプラットフォームコンソールの VPC環境で、 Menu > Services > Management & Governance > Cloud Insight(Monitoring) メニューを順にクリックします。
Eventメニューをクリックします。イベントルールによってイベントが発生した場合、発生したイベントの詳細を以下のように確認できます。

通知対象者グループ作成

イベント通知メッセージを発生させる通知対象者グループを作成し、対象者を追加する方法は次の通りです。

NAVERクラウドプラットフォームコンソールの VPC環境で、 Menu > Services > Management & Governance > Cloud Insight(Monitoring) メニューを順にクリックします。
Notification Recipientメニューを順にクリックします。
対象者グループリストのボタンをクリックして作成するグループ名を入力し、ボタンをクリックします。
対象者グループリストの全対象者をクリックします。
作成したグループに割り当てる対象者を選択した後、 [割り当て] ボタンをクリックします。
- 新しい対象者を追加するには、 [対象者追加] ボタンをクリックした後、Cloud Insight ご利用ガイドを参照して対象者を追加します。
追加する通知対象者の情報を入力して本人認証を完了した後、 [登録] ボタンをクリックします。

Cloud Hadoop Metric

作成されたすべてのクラスタに対して以下の指標をモニタリングできます。Cloud Insightは指標に関するデータを1分間隔で収集します。

参考

クラスタの HDFS、YARNが正常に動作していない場合、指標は収集されず、ダッシュボードでも確認できません。

指標	タイプ	単位	説明
active_nodes	INTEGER	num	number of nodes presently running MapReduce tasks or jobs
allocated_container	INTEGER	num	number of resource containers allocated by the ResourceManager
allocated_mb	INTEGER	MB	amount of memory allocated to the cluster
allocated_v_cores	INTEGER	num	number of core nodes working
apps_completed	INTEGER	num	number of applications submitted to YARN that have completed
apps_failed	INTEGER	num	number of applications submitted to YARN that have failed to complete
apps_killed	INTEGER	num	number of applications submitted to YARN that have been killed
apps_pending	INTEGER	num	number of applications submitted to YARN that are in a pending state
apps_running	INTEGER	num	number of applications submitted to YARN that are running
apps_submitted	INTEGER	num	number of applications submitted to YARN
available_mb	INTEGER	MB	amount of memory available to be allocated
capacity_remaining_gb	INTEGER	GB	amount of remaining HDFS disk capacity
corrupt_blocks	INTEGER	num	number of blocks that HDFS reports as corrupted
decommissioned_nodes	INTEGER	num	number of nodes allocated to MapReduce applications that have been marked in a DECOMMISSIONED state
hdfs_bytes_read	INTEGER	Bytes	number of bytes read from HDFS
hdfs_bytes_written	INTEGER	Bytes	number of bytes written to HDFS
hdfs_utilization	FLOAT	%	percentage of HDFS storage currently used
lost_nodes	INTEGER	num	number of nodes allocated to MapReduce that have been marked in a LOST state
missing_blocks	INTEGER	num	number of blocks in which HDFS has no replicas
num_live_data_nodes	INTEGER	num	number of data nodes that are receiving work from Hadoop
pending_containers	INTEGER	num	number of containers in the queue that have not yet been allocated
pending_deletion_blocks	INTEGER	num	number of blocks marked for deletion
pending_replication_blocks	INTEGER	num	status of block replication: blocks being replicated, age of replication requests, and unsuccessful replication requests
pending_v_cores	INTEGER	num	number of core nodes waiting to be assigned
rebooted_nodes	INTEGER	num	number of nodes available to MapReduce that have been rebooted and marked in a REBOOTED state
reserved_containers	INTEGER	num	number of containers reserved
reserved_mb	INTEGER	MB	amount of memory reserved
total_load	INTEGER	num	total number of concurrent data transfers
total_mb	INTEGER	MB	total amount of memory in the cluster
total_nodes	INTEGER	num	number of nodes presently available to MapReduce jobs
under_replicated_blocks	INTEGER	num	number of blocks that need to be replicated one or more times
unhealthy_nodes	INTEGER	num	number of nodes available to MapReduce jobs marked in an UNHEALTHY state
yarn_memory_available_percentage	FLOAT	%	percentage of remaining memory available to YARN (= available_mb / total_mb)

Documentation Index