Monitoring

Prev Next

VPC環境で利用できます。

Monitoringの画面構成について説明します。Monitoringでは、プロジェクトで使用中の GPUおよびストレージ使用量に対して、2種類のダッシュボードをサポートしています。Monitoringで提供しているダッシュボードの種類は、次の通りです。

  • Overview: プロジェクトで使用中の全 GPUおよびストレージ使用量に関するモニタリング情報
  • Workload/Pod View: ワークロードタイプ、ワークロードおよび Pod単位の GPU使用量に関するモニタリング情報

2種類のダッシュボードを通じて、直近30日以内のリソース使用量を平均値基準で確認できます。各ダッシュボードは様々なグラフチャートで構成されており、リアルタイムの使用量照会を通じて業務に効果的に活用できます。

Overview

Overview画面における基本的な説明は、次の通りです。

mlxp_console_monitoring01_ko

領域 説明
① Overview プロジェクトの CPU、Memory、GPU、Storage使用状況
② Details ワークロードタイプ別 CPU、Memory、GPU使用状況

Overviewで提供するダッシュボードは、複数のグラフチャートで構成されています。ユーザーは現在のプロジェクトで使用中の CPU、Memory、GPU、Storageの状況を直感的に確認できます。ダッシュボードで表示する情報は15秒ごとに収集して表示しますが、平均値を表示します。
Overviewを構成しているグラフチャートに関する説明は、次の通りです。

グラフチャート 単位 説明
CPU Cores プロジェクトで使用中の CPU状況
  • Used: 実際に使用中の CPUの総数
  • Request: リソース Manifest基準の CPU requestの総数
Memory Gi プロジェクトで使用中の Memory状況
  • Used: 実際に使用中の Memoryの総数
  • Request: リソース Manifest基準の Memory requestの総数
GPU 個数 プロジェクトで使用中の GPU状況
  • Used: 実際に使用中の GPUの総数
  • Total: 現在プロジェクトに割り当てられた GPUの総数
Storage Gi プロジェクトで使用中の Storage状況
  • PVC容量総数
注意
  • GPU Total指標は、プロジェクトにおける GPUリソースの総数を意味します。
  • プロジェクトで使用可能な GPUリソース情報は、GPU Resources画面をご参照ください。

Overviewでは、ワークロードタイプ別 CPU、Memory、GPUの利用状況を照会できます。ユーザーは現在のプロジェクトで使用中の Notebook、PyTorchJobなど、タイプ別リソースの使用状況を直感的に確認できます。
Overviewを構成しているワークロードタイプ別詳細情報に関する説明は、次の通りです。

詳細情報 単位 説明
Workload Type - プロジェクトで使用中のワークロードタイプ(例: Notebook、PyTorchJobなど)
CPU Cores 使用中の CPU状況
  • Request: リソース Manifest基準の CPU requestの総数
  • Limits: リソース Manifest基準の CPU limitの総数
Memory Gi 使用中の Memory状況
  • Request: リソース Manifest基準の Memory requestの総数
  • Limits: リソース Manifest基準の Memory limitの総数
GPU 個数 使用中の GPU状況
  • Used: 実際に使用中の GPUの総数
参考

Overview画面は1分ごとに自動更新されます。

Workload/Pod View

Workload/Pod View画面の基本的な説明は、次の通りです。

mlxp_console_monitoring02_ko

領域 説明
① 照会単位 プロジェクトで使用中の Workload Type、Workload名、Pod名
② 照会期間 モニタリング情報の照会期間および更新
③ Workload/Pod View 照会単位および期間別 CPU、Memory、GPU、GPU Memory使用状況
④ Details Pod単位の CPU、Memory、GPU使用状況

Workload/Pod Viewで提供するダッシュボードは、複数のグラフチャートで構成されています。ユーザーは、現在のプロジェクトで使用中の CPU、Memory、GPU、Storage状況をワークロードタイプ、ワークロード、Podなどの詳細単位で確認できます。ダッシュボードで表示する情報は15秒ごとに収集して表示しますが、平均値を表示します。ダッシュボードを使用する方法は、次の通りです。

  1. ダッシュボードで照会するリソース単位を選択します。
    • Workload Type: プロジェクトで使用中のワークロードタイプ(例: Notebook、PyTorchJobなど)で、単数件でのみ照会可能
    • Workload: プロジェクトで使用中のワークロードリストで、複数件で照会可能
      • All: プロジェクトで使用中の全ワークロードを照会可能
    • Pod: ワークロード内の Podリストで、複数件で照会可能
      • OFF: Workloadを ALLまたは複数選択した場合、Pod単位では照会不可
      • ALL: 1つのワークロードを選択すると、そのワークロード内のすべての Podを照会可能
  2. 期間照会時間のセレクトボックスで、照会する期間をクリックして選択するか、直接入力します。
参考

照会期間は最大30日を超えることはできません。

  1. ダッシュボードで結果を確認します。
    • グラフチャートで特定の時点の正確な指標値を確認したい場合: グラフチャートの特定の時点にマウスオーバー
  2. [更新] ボタンをクリックすると最新のデータを再照会します。

Workload/Pod Viewを構成しているグラフチャートについての説明は、次の通りです。

グラフチャート 単位 説明
Average CPU Utilization % 照会条件および照会期間の平均 CPU使用率(Used/Request)
  • Used: 実際に使用中の CPUの総数
  • Request: リソース Manifest基準の CPU requestの総数
CPU Usage Cores ユーザーが選択したリソース単位(ワークロード、Pod)ごとの CPU使用量
Average Memory Utilization % 照会条件および照会期間の平均 Memory使用率(Used/Request)
  • Used: 実際に使用中の Memoryの総数
  • Request: リソース Manifest基準の Memory requestの総数
Memory Usage MiB ユーザーが選択したリソース単位(ワークロード、Pod)ごとの Memory使用状況
Average GPU Utilization % 照会条件および照会期間の平均 GPU使用率
GPU Usage Cores ユーザーが選択したリソース単位(ワークロード、Pod)ごとの GPU使用量
Average GPU Memory Utilization % 照会条件および照会期間の平均 GPU Memory使用率
GPU Memory Usage MiB ユーザーが選択したリソース単位(ワークロード、Pod)ごとの GPU Memory使用状況

Workload/Pod Viewでは、Pod単位の CPU、Memory、GPUの詳細な利用状況を照会できます。ユーザーは現在のプロジェクトで使用中の Podのリソース使用状況を直感的に確認できます。
Workload/Pod Viewを構成している Pod単位の詳細情報についての説明は、次の通りです。

詳細情報 単位 説明
Pod Name - ユーザーが指定したワークロード内の Pod名
CPU Cores 使用中の CPU状況
  • Request: リソース Manifest基準の CPU requestの総数
  • Limits: リソース Manifest基準の CPU limitの総数
Memory Gi 使用中の Memory状況
  • Request: リソース Manifest基準の Memory requestの総数
  • Limits: リソース Manifest基準の Memory limitの総数
GPU 個数 使用中の GPU状況
  • Used: 実際に使用中の GPUの総数