イベント問題

Prev Next

Classic/VPC環境で利用できます。

Cloud Insightサービスの利用中に次のような問題が発生することがあります。問題ごとの原因と解決方法を確認し、適切に対処してください。

Server(VPC)の is process upでモニタリング中に、異常がないのにイベントが発生する

Server(VPC)の is process upでモニタリング中ですが、異常がないのにイベントが発生します。

原因

Plugin Processの is process upデータは、ユーザーが登録した process nameの PIDを新規作成するときに収集します。asterisk(*)を含めて process nameを登録すると、一致するすべてのプロセスの PIDリストが対象になります。

is process upが変動する条件は次の通りです。

  • is process up = 1: PIDリストが維持されるか新しい PIDが追加される場合
  • is process up = 0 : PIDリストのうち、一部または全体がなくなる場合

そのため、以下のような場合は Mainプロセスが正常であっても is process upが0になる場合があります。

  • Mainプロセスの Subプロセスが一時的に作成された後、削除された場合
  • Mainプロセスの Subプロセスが一時的に削除された後、作成された場合
  • Mainプロセスの Subプロセスが減った場合

例) process nameで *httpd*を登録した場合、時間による PIDの変化と is_process_up / process_countのメトリック値

Time PID (Main) PIDs (sub) is_process_up process_count Detail
12:00 123 - 1 1 sub processなし
12:01 123 124, 125 1 3 sub process作成
12:02 123 124 0 2 sub processのうち、一部削除
12:03 123 124, 126 1 3 sub process作成
12:04 123 124, 127 0 3 sub processのうち、一部更新
12:05 123 - 0 1 sub process全体削除
12:06 - - 0 0 main process削除

解決方法

Apacheサービスの正常有無を判断するため、*httpd*のような process nameをモニタリングすることが多いです。このような場合、is process upでモニタリングすると、正常なモニタリングができない場合があります。もし Apacheサービスが終了したら httpdの process countが0になるので、process count == 0 のような条件でモニタリングすることをお勧めします。

Event Rule作成時に削除した File、Process、Port Pluginのディメンションが表示される

Event Rule作成時に削除した File、Process、Port Pluginのディメンションが引き続き表示されます。

原因

削除した File、Process、Port Pluginのディメンションは削除後、Event Ruleの作成画面で最大2日間表示されることがあります。File、Process、Port Pluginを削除すると収集されたメトリック情報はすぐに削除されますが、ディメンション情報は当該ディメンションを持つメトリックを収集しない状態が2日間持続する場合に削除されます。

解決方法

当該ディメンションを持つメトリックが収集されない状態で2日が経過する前にディメンジョンは削除されます。期間経過後に再度ご確認ください。

Event Ruleを作成したにもかかわらず、Total Rule Count値が監視対象および監視項目の値と一致しない

Event Ruleを作成したにもかかわらず、Total Rule Count値が監視対象および監視項目の値と一致しません。

原因

Event Ruleの Total Rule Countは、実際に作成された Ruleを基準に算定されます。この時、実際の Ruleの作成有無は設定した監視対象が監視項目に対してメトリックを収集しているかどうかによって決定されます。
例えば、監視対象が3つで、そのうち2つに対してのみ実際に監視項目のメトリックを収集している場合、Total Rule Countは3ではなく2と表記されます。

解決方法

監視対象のうち、一部に対して監視項目のメトリックが収集されないケースをご確認ください。

  • 監視対象のサーバのうち、一部が監視項目のメトリックに設定されたディメンションについて収集されていない場合
  • 監視項目のメトリックタイプが Extendedであるため詳細モニタリングの設定が必要だが、監視対象のサーバのうち、一部が詳細モニタリングを設定していない場合
  • 監視対象のサーバのうち、一部が停止ステータスに切り替えられたため、メトリック収集が停止された場合
  • 監視対象のサーバのうち、一部が内部ファイアウォールやファイアウォールソリューションなどにより、メトリック収集が正常に行われない場合
  • 監視対象のサーバのうち、一部が Agentの問題により、メトリック収集が正常に行われない場合
  • Event Ruleの設定時点に実際に Metricが収集されなかったため Total Rule Countから外された監視対象に対し、その後にメトリックが収集される場合(この場合、自動的に Total Rule Countに追加される)

イベント条件を満たしていないのにイベントが発生する

イベント発生後に条件を変更しましたが、変更した条件を満たしていないのにイベントが発生しました。

原因

既に発生したイベントがある状態でそのイベントの条件を変更する場合、既存のイベントが終了して当時設定された条件で終了イベントの通知が発生します。

durationなどを考慮していない例は、次の通りです。

時間 process_count 条件 説明
00:00 0 process_count = 1 イベント未発生
00:01 1 process_count = 1 process_count = 1内容のイベント通知発生
00:02 1 process_count = 0 process_count = 0内容の終了(Resolve)イベント通知発生
00:03 0 process_count = 0 process_count = 0内容のイベント通知発生

解決方法

条件を変更して発生した終了イベントの当時設定した実際の条件を確認するには、NAVERクラウドプラットフォームコンソールの i_menu > Services > Management & Governance > Cloud Insight > Event メニューでご確認ください。

CPU使用率がイベントルール条件より低いのにイベントが発生する

CPU使用率がイベントルール条件より低いのにイベントが発生しました。

原因

CPU/used_rto メトリックは、CPU数によって cpu_idx:0~N のディメンションが存在します。ディメンションを選択せずにイベントルールを作成した場合、すべてのディメンションのメトリックが対象となり、各ディメンションに応じたメトリックのうち1つでも条件に該当するとイベントが発生します。

例) サーバの CPU数が2個で、イベントルールとメトリック値が以下のような場合、CPU/used_rto 値は45ですが、ディメンション cpu_idx: 0 に該当する値が60で条件を満たすため、イベントが発生します。

  • 監視項目と条件
    メトリック: CPU/used_rto
    ディメンション: 選択なし
    条件: >= 50
    集約方法: AVG
    持続時間: 1 minute

  • ある時点での Min1 データ

    時間 CPU/used_rto (cpu_idx: 0) CPU/used_rto (cpu_idx: 1) CPU/used_rto
    00:01 60 30 45

解決方法

サーバの平均 CPU使用率に対するイベント設定が必要な場合は、SERVER/avg_cpu_used_rto メトリックをご利用ください。

イベント発生内容と Eventメニューに表示されるデータが異なる

Q. イベント発生内容と Eventメニューに表示されるデータが異なります。

原因

NAVERクラウドプラットフォームコンソールの i_menu > Services > Management & Governance > Cloud Insight > Event メニューで確認できるグラフは、イベント開始日時と終了日時に応じて照会されるデータの集計周期(例: Min5)が異なります。実際にイベントルールを発生させたデータを確認するには、集計周期が Min1のデータを確認する必要があります。

解決方法

Dashboardを別途構成するか、 Event Rule メニューで当該イベントルールの詳細を見るを介して、照会期間を1時間以内に設定して Min1データを照会してください。

CPU使用率が高いサーバデータが CPU使用率ウィジェットに表示されない

Service Dashboardでウィジェットデータ TOP10で照会すると、CPU使用率が高いサーバデータが CPU使用率ウィジェットに表示されません。

原因

Service Dashboard TOP10リストを選定する基準は、次の通りです。

  • 照会期間(startTimeendTime)の場合、endTimeを基準にしてリソース別に最後に収集されたメトリック値をソートして上位10個を選定

リソースが10個以上の場合、上記の基準によってメトリック値が上位10個に含まれないリソースはサービスダッシュボードに表示されないことがあります。また照会期間内にメトリック値が高いリソースがあったとしても、endTimeを基準にして最後に収集された値を比較するため、サービスダッシュボードに表示されないことがあります。
特定リソースに対するメトリックを正確に確認するには、ウィジェットデータで特定リソースのみを選択してデータを確認するか、別途のダッシュボードやウィジェットを構成して特定リソースに対するメトリックを確認します。

解決方法

CPU使用率が高いサーバのデータが Service Dashboard TOP10の収集基準に含まれていない可能性が高いので、問題状況ではありません。詳細は、原因をご参照ください。

参考

本ガイドで必要な情報が見つからない場合やさらに必要な情報がある場合は、以下のフィードバックアイコンをクリックして、ご意見をお寄せください。いただいたご意見を参照して、より有益な情報を提供できるよう努力してまいります。