- 印刷する
- PDF
Cloud Insight によるHadoopモニタリング
- 印刷する
- PDF
VPC環境で利用できます。
NAVERクラウドCloud Insightを通じてHadoopの性能と運用指標をモニタリングし、障害が発生した際に迅速に確認して対処することができます。
事前作業
- Cloud Hadoopクラスタを作成します。
- Cloud Hadoopの作成に関する詳細は、Cloud Hadoopを開始するをご参照ください。
- Cloud Insightの利用申込を行います。
- Cloud Insightの利用申込に関する詳細は、Cloud Insightご利用ガイドを参照してください。
ダッシュボードの構成
事前作業が完了したら、Cloud HadoopをモニタリングするためにCloud Insightコンソール画面でダッシュボードを作成して、ウィジェットを追加することができます。
Cloud HadoopをモニタリングするためにCloud Insightのダッシュボードを作成してウィジェットを追加する方法は、以下のとおりです。
- NAVERクラウドプラットフォームコンソールのVPC環境でServices > Management & Governance > Cloud Insight (Monitoring) メニューを順にクリックします。
- [ダッシュボードを作成] ボタンをクリックします。
- ダッシュボードの名前と説明を入力し、[作成] ボタンをクリックします。
- [ウィジェットを追加] ボタンをクリックします。
- ウィジェットの名前を入力してウィジェットの種類を選択し、[次へ] ボタンをクリックします。
- 例では、Time Seriesウィジェットを使用して説明します。
- 例では、Time Seriesウィジェットを使用して説明します。
- 以下のようにウィジェットの設定を入力し、[次へ] ボタンをクリックします。
- Product Type: Cloud Hadoop(VPC)
- Target: 保有リソース全体を選択し、モニタリングするクラスタを選択
(グループを選択する場合、Target Groupの設定を参照) - Metric: すべてのメトリックを選択してモニタリングする項目を選択し、[選択項目を追加] ボタンをクリック
(テンプレートを選択する場合、Rule Templateの設定を参照) - 設定データリスト: 選択したモニタリング項目のDimension(属性)、Interval(集計周期)、Aggregation(集計関数)を選択
- 設定したウィジェットの内容を確認し、[作成] ボタンをクリックします。
- ダッシュボードにウィジェットが追加されます。追加されたウィジェットを通じてCloud Hadoopクラスタをモニタリングできます。
- ダッシュボードにウィジェットが追加されます。追加されたウィジェットを通じてCloud Hadoopクラスタをモニタリングできます。
グループとテンプレートの設定
モニタリングの設定とウィジェットの管理を容易に行えるように、特定のモニタリング対象をグループ化したり、特定のモニタリング項目(Metric)をテンプレートとして保存することができます。
Target Groupの設定
Target Groupを作成して特定のモニタリング対象をグループ化する方法は、以下のとおりです。
- NAVERクラウドプラットフォームコンソールのVPC環境でServices > Management & Governance > Cloud Insight (Monitoring) メニューを順にクリックします。
- Configuration > Templateメニューを順にクリックします。
- [Target Group] タブをクリックし、[Target Groupを作成] ボタンをクリックします。
- 以下のようにグループの設定を入力し、[作成] ボタンをクリックします。
- Product Type: Cloud Hadoop(VPC)
- グループ名、グループの説明: グループの名前と説明を入力
- 選択可能な監視対象: グループに含めるモニタリング対象をすべて選択し、をクリック
Rule Templateの設定
Rule Templateを設定して特定のモニタリング項目をテンプレートで保存する方法は、以下のとおりです。
NAVERクラウドプラットフォームコンソールのVPC環境でServices > Management & Governance > Cloud Insight (Monitoring) メニューを順にクリックします。
Configuration > Templateメニューを順にクリックします。
Rule Templateタブをクリックし、[Rule Templateを作成] ボタンをクリックします。
以下のようにテンプレートの設定を入力し、[次へ] ボタンをクリックします。
- Product Type: Cloud Hadoop(VPC)
- テンプレート名、説明:テンプレートの名前と説明を入力
- 各分類タブで、テンプレートに含めるモニタリング項目(Metric)を探して選択
以下を参考にして各モニタリング項目のモニタリング条件を入力し、[保存] ボタンをクリックします。
- Dimension:モニタリング項目の属性
- Level:イベント発生時のレベル
- Condition:イベントの発生条件
- Method:モニタリング項目の集計関数
- Duration:持続時間
参考Cloud Hadoop(VPC)のCPU/user_rto(cpu_idx:1)の値が0のままで1分間続く場合にInfoレベルのイベントを発生させる設定の例は、以下のとおりです。
イベントの設定
モニタリングの対象と項目を選択し、モニタリングの条件と通知アクションを設定してイベントを作成できます。また、作成したイベントの状況を確認できます。
このガイドでは、イベントの通知アクションとして通知メッセージの送信を使用する方法を説明します。Integration、Cloud Functions、Auto Scalingポリシーなど他の通知アクションについての説明は、Cloud Insightご利用ガイドを参照してください。
イベントを設定する方法は以下のとおりです。
- NAVERクラウドプラットフォームコンソールのVPC環境でServices > Management & Governance > Cloud Insight (Monitoring) メニューを順にクリックします。
- Configuration > Event Ruleメニューを順にクリックします。
- [Event Rules] ボタンをクリックします。
- 監視商品の選択項目でCloud Hadoop(VPC)を選択し、[次へ] ボタンをクリックします。
- 個別のモニタリング対象またはモニタリンググループを選択し、[次へ] ボタンをクリックします。
- 新しいグループを作成するには、Target Groupの設定をご参照ください。
- 新しいグループを作成するには、Target Groupの設定をご参照ください。
- 個別のモニタリング項目またはモニタリングテンプレートを選択し、[次へ] ボタンをクリックします。
- 新しいテンプレートを作成するには、Rule Templateの設定をご参照ください。
- 新しいテンプレートを作成するには、Rule Templateの設定をご参照ください。
- 通知メッセージの送信タブで通知対象者グループを選択し、[次へ] ボタンをクリックします。
- 新しい通知対象者グループを作成するには、通知対象者グループの作成をご参照ください。
- 新しい通知対象者グループを作成するには、通知対象者グループの作成をご参照ください。
- 設定したイベントの内容を確認し、[作成] ボタンをクリックします。
イベント状況の確認
作成したイベントの状況を確認する方法は以下のとおりです。
- NAVERクラウドプラットフォームコンソールのVPC環境でServices > Management & Governance > Cloud Insight (Monitoring) メニューを順にクリックします。
- Eventメニューをクリックしてください。イベントルールによってイベントが発生した場合、発生したイベントの詳細を以下のように確認できます。
通知対象者グループの作成
イベントの通知メッセージを送信する通知対象者グループを作成して対象者を追加する方法は、以下のとおりです。
- NAVERクラウドプラットフォームコンソールのVPC環境でServices > Management & Governance > Cloud Insight (Monitoring) メニューを順にクリックします。
- Notification Recipientメニューを順にクリックします。
- 対象者グループリストの ボタンをクリックして作成するグループの名前を入力し、ボタンをクリックします。
- 対象者グループリストの全対象者をクリックします。
対象者グループリストのボタンをクリックして作成したいグループ名を入力し、ボタンをクリックしてください。 - 作成したグループに割り当てる対象者を選択し、[割り当て] ボタンをクリックします。
- 新しい対象者を追加するには、[対象者を追加] ボタンをクリックし、Cloud Insightご利用ガイドを参考にして対象者を追加してください。
- 新しい対象者を追加するには、[対象者を追加] ボタンをクリックし、Cloud Insightご利用ガイドを参考にして対象者を追加してください。
- 追加する通知対象者の情報を入力して本人認証を完了し、[登録] ボタンをクリックします。
Cloud Hadoop Metric
生成されたすべてのクラスタについて、以下の指標を監視できます。 Cloud Insight は、指標のデータを 1 分間隔で収集します。
クラスタのHDFS、YARNが正常に動作しない場合、指標は収集されず、ダッシュボードでも確認できません。
指標 | タイプ | 単位 | 説明 |
---|---|---|---|
active_nodes | INTEGER | num | number of nodes presently running MapReduce tasks or jobs |
allocated_container | INTEGER | num | number of resource containers allocated by the ResourceManager |
allocated_mb | INTEGER | MB | amount of memory allocated to the cluster |
allocated_v_cores | INTEGER | num | number of core nodes working |
apps_completed | INTEGER | num | number of applications submitted to YARN that have completed |
apps_failed | INTEGER | num | number of applications submitted to YARN that have failed to complete |
apps_killed | INTEGER | num | number of applications submitted to YARN that have been killed |
apps_pending | INTEGER | num | number of applications submitted to YARN that are in a pending state |
apps_running | INTEGER | num | number of applications submitted to YARN that are running |
apps_submitted | INTEGER | num | number of applications submitted to YARN |
available_mb | INTEGER | MB | amount of memory available to be allocated |
capacity_remaining_gb | INTEGER | GB | amount of remaining HDFS disk capacity |
corrupt_blocks | INTEGER | num | number of blocks that HDFS reports as corrupted |
decommissioned_nodes | INTEGER | num | number of nodes allocated to MapReduce applications that have been marked in a DECOMMISSIONED state |
hdfs_bytes_read | INTEGER | Bytes | number of bytes read from HDFS |
hdfs_bytes_written | INTEGER | Bytes | number of bytes written to HDFS |
hdfs_utilization | FLOAT | % | percentage of HDFS storage currently used |
lost_nodes | INTEGER | num | number of nodes allocated to MapReduce that have been marked in a LOST state |
missing_blocks | INTEGER | num | number of blocks in which HDFS has no replicas |
num_live_data_nodes | INTEGER | num | number of data nodes that are receiving work from Hadoop |
pending_containers | INTEGER | num | number of containers in the queue that have not yet been allocated |
pending_deletion_blocks | INTEGER | num | number of blocks marked for deletion |
pending_replication_blocks | INTEGER | num | status of block replication: blocks being replicated, age of replication requests, and unsuccessful replication requests |
pending_v_cores | INTEGER | num | number of core nodes waiting to be assigned |
rebooted_nodes | INTEGER | num | number of nodes available to MapReduce that have been rebooted and marked in a REBOOTED state |
reserved_containers | INTEGER | num | number of containers reserved |
reserved_mb | INTEGER | MB | amount of memory reserved |
total_load | INTEGER | num | total number of concurrent data transfers |
total_mb | INTEGER | MB | total amount of memory in the cluster |
total_nodes | INTEGER | num | number of nodes presently available to MapReduce jobs |
under_replicated_blocks | INTEGER | num | number of blocks that need to be replicated one or more times |
unhealthy_nodes | INTEGER | num | number of nodes available to MapReduce jobs marked in an UNHEALTHY state |
yarn_memory_available_percentage | FLOAT | % | percentage of remaining memory available to YARN (= available_mb / total_mb) |