Monitoring

VPC環境で利用できます。

Monitoringの画面構成について説明します。Monitoringでは、プロジェクトで使用中の GPUおよびストレージ使用量に対して、2種類のダッシュボードをサポートしています。Monitoringで提供しているダッシュボードの種類は、次の通りです。

Overview: プロジェクトで使用中の全 GPUおよびストレージ使用量に関するモニタリング情報
Workload/Pod View: ワークロードタイプ、ワークロードおよび Pod単位の GPU使用量に関するモニタリング情報

2種類のダッシュボードを通じて、直近30日以内のリソース使用量を平均値基準で確認できます。各ダッシュボードは様々なグラフチャートで構成されており、リアルタイムの使用量照会を通じて業務に効果的に活用できます。

Overview

Overview画面における基本的な説明は、次の通りです。

mlxp_console_monitoring01_ko

領域	説明
① Overview	プロジェクトの CPU、Memory、GPU、Storage使用状況
② Details	ワークロードタイプ別 CPU、Memory、GPU使用状況

Overviewで提供するダッシュボードは、複数のグラフチャートで構成されています。ユーザーは現在のプロジェクトで使用中の CPU、Memory、GPU、Storageの状況を直感的に確認できます。ダッシュボードで表示する情報は15秒ごとに収集して表示しますが、平均値を表示します。
Overviewを構成しているグラフチャートに関する説明は、次の通りです。

グラフチャート	単位	説明
CPU	Cores	プロジェクトで使用中の CPU状況 Used: 実際に使用中の CPUの総数 Request: リソース Manifest基準の CPU requestの総数
Memory	Gi	プロジェクトで使用中の Memory状況 Used: 実際に使用中の Memoryの総数 Request: リソース Manifest基準の Memory requestの総数
GPU	個数	プロジェクトで使用中の GPU状況 Used: 実際に使用中の GPUの総数 Total: 現在プロジェクトに割り当てられた GPUの総数
Storage	Gi	プロジェクトで使用中の Storage状況 PVC容量総数

注意

GPU Total指標は、プロジェクトにおける GPUリソースの総数を意味します。
プロジェクトで使用可能な GPUリソース情報は、GPU Resources画面をご参照ください。

Overviewでは、ワークロードタイプ別 CPU、Memory、GPUの利用状況を照会できます。ユーザーは現在のプロジェクトで使用中の Notebook、PyTorchJobなど、タイプ別リソースの使用状況を直感的に確認できます。
Overviewを構成しているワークロードタイプ別詳細情報に関する説明は、次の通りです。

詳細情報	単位	説明
Workload Type	-	プロジェクトで使用中のワークロードタイプ(例: Notebook、PyTorchJobなど)
CPU	Cores	使用中の CPU状況 Request: リソース Manifest基準の CPU requestの総数 Limits: リソース Manifest基準の CPU limitの総数
Memory	Gi	使用中の Memory状況 Request: リソース Manifest基準の Memory requestの総数 Limits: リソース Manifest基準の Memory limitの総数
GPU	個数	使用中の GPU状況 Used: 実際に使用中の GPUの総数

参考

Overview画面は1分ごとに自動更新されます。

Workload/Pod View

Workload/Pod View画面の基本的な説明は、次の通りです。

mlxp_console_monitoring02_ko

領域	説明
① 照会単位	プロジェクトで使用中の Workload Type、Workload名、Pod名
② 照会期間	モニタリング情報の照会期間および更新
③ Workload/Pod View	照会単位および期間別 CPU、Memory、GPU、GPU Memory使用状況
④ Details	Pod単位の CPU、Memory、GPU使用状況

Workload/Pod Viewで提供するダッシュボードは、複数のグラフチャートで構成されています。ユーザーは、現在のプロジェクトで使用中の CPU、Memory、GPU、Storage状況をワークロードタイプ、ワークロード、Podなどの詳細単位で確認できます。ダッシュボードで表示する情報は15秒ごとに収集して表示しますが、平均値を表示します。ダッシュボードを使用する方法は、次の通りです。

ダッシュボードで照会するリソース単位を選択します。
- Workload Type: プロジェクトで使用中のワークロードタイプ(例: Notebook、PyTorchJobなど)で、単数件でのみ照会可能
- Workload: プロジェクトで使用中のワークロードリストで、複数件で照会可能
  - All: プロジェクトで使用中の全ワークロードを照会可能
- Pod: ワークロード内の Podリストで、複数件で照会可能
  - OFF: Workloadを ALLまたは複数選択した場合、Pod単位では照会不可
  - ALL: 1つのワークロードを選択すると、そのワークロード内のすべての Podを照会可能
期間や照会時間のセレクトボックスで、照会する期間をクリックして選択するか、直接入力します。

参考

照会期間は最大30日を超えることはできません。

ダッシュボードで結果を確認します。
- グラフチャートで特定の時点の正確な指標値を確認したい場合: グラフチャートの特定の時点にマウスオーバー
[更新] ボタンをクリックすると最新のデータを再照会します。

Workload/Pod Viewを構成しているグラフチャートについての説明は、次の通りです。

グラフチャート	単位	説明
Average CPU Utilization	%	照会条件および照会期間の平均 CPU使用率(Used/Request) Used: 実際に使用中の CPUの総数 Request: リソース Manifest基準の CPU requestの総数
CPU Usage	Cores	ユーザーが選択したリソース単位(ワークロード、Pod)ごとの CPU使用量
Average Memory Utilization	%	照会条件および照会期間の平均 Memory使用率(Used/Request) Used: 実際に使用中の Memoryの総数 Request: リソース Manifest基準の Memory requestの総数
Memory Usage	MiB	ユーザーが選択したリソース単位(ワークロード、Pod)ごとの Memory使用状況
Average GPU Utilization	%	照会条件および照会期間の平均 GPU使用率
GPU Usage	Cores	ユーザーが選択したリソース単位(ワークロード、Pod)ごとの GPU使用量
Average GPU Memory Utilization	%	照会条件および照会期間の平均 GPU Memory使用率
GPU Memory Usage	MiB	ユーザーが選択したリソース単位(ワークロード、Pod)ごとの GPU Memory使用状況

Workload/Pod Viewでは、Pod単位の CPU、Memory、GPUの詳細な利用状況を照会できます。ユーザーは現在のプロジェクトで使用中の Podのリソース使用状況を直感的に確認できます。
Workload/Pod Viewを構成している Pod単位の詳細情報についての説明は、次の通りです。

詳細情報	単位	説明
Pod Name	-	ユーザーが指定したワークロード内の Pod名
CPU	Cores	使用中の CPU状況 Request: リソース Manifest基準の CPU requestの総数 Limits: リソース Manifest基準の CPU limitの総数
Memory	Gi	使用中の Memory状況 Request: リソース Manifest基準の Memory requestの総数 Limits: リソース Manifest基準の Memory limitの総数
GPU	個数	使用中の GPU状況 Used: 実際に使用中の GPUの総数