GPU Server

印刷する
共有
PDF

GPU Server

印刷する
共有
PDF

Article Summary

Share feedback

Thanks for sharing your feedback!

最新のコンテンツが反映されていません。早急にアップデート内容をご提供できるよう努めております。最新のコンテンツ内容は韓国語ページをご参照ください。

VPC環境で利用できます。

NAVERクラウドプラットフォームコンソールで GPUサーバを作成して管理する方法を説明します。

参考

予期せぬサーバ障害または予定された変更作業などの際に、中断せずにサービスを継続する保障ができるよう、サーバは基本的にゾーン間の冗長化構成をお勧めします。Load Balancer の概要を参照して冗長化設定を行います。
NAVERクラウドプラットフォームでは、メモリ、CPU、電源供給などの物理サーバの障害に備えるため、High Availability(HA)構造を提供しています。HAは、ハードウェアで発生した障害が Virtual Machine(VM)サーバに拡大されることを防ぐためのポリシーで、ホストサーバに障害が発生した場合、自動的にホストサーバの中にある VMサーバを安定した他のホストサーバに移す Live Migrationをサポートします。ただし、Live Migrationを行えないエラーが発生した場合、VMサーバは再起動します。VMサーバ1台でサービスを運用する場合、VMサーバの再起動により障害が発生し得るため、障害の発生頻度を減らすために上記のように VMサーバを冗長化することをお勧めします。

サーバ情報確認

GPUサーバ情報を確認する方法は、一般サーバ情報を確認する方法と同じです。詳細は、サーバ情報確認をご参照ください。

注意

GPUサーバは、サーバ停止中も全体サーバ料金が発生します。

サーバ作成

GPUサーバはコンソールの Services > Compute > Server メニューから作成できます。詳しい作成方法は、サーバ作成をご参照ください。

参考

GPU A100の場合、 Services > Compute > Bare Metal Server メニューから作成できます。詳しい作成方法は、GPU A100サーバ作成をご参照ください。
GPUサーバは企業会員に限り、最大5台まで作成できます。さらに多くの GPUサーバが必要な場合や GPUサーバ作成が必要な個人会員の場合は、カスタマーサポートまでお問い合わせください。

サーバ管理

GPUサーバ管理と設定変更方法は、一般サーバ管理と設定変更方法と同じです。詳細は、サーバ管理をご参照ください。

参考

GPUサーバは、同じタイプのサーバにのみスペックを変更できます。
GPUサーバを作成した後、GPUを削除して一般サーバに移行できません。一般サーバに変更するには、サーバイメージを作成した後、サーバイメージを使用して一般サーバを新たに作成します。
一般サーバで作成したサーバイメージを使用して GPUサーバを作成できます。

GPUドライバ/CUDAの再インストールとアップデート

GPUサーバ使用中に以下のような場合にサーバの GPUドライバおよび CUDAを再インストールできます。

OSカーネルバージョンが変更(アップデート)され、現 GPUドライバと互換に失敗した場合: GPUドライバのみ再インストールします。
使用中の旧バージョン(418.67)の GPUドライバを NAVERクラウドプラットフォームで提供している最新ドライバにアップグレードする場合
ユーザーが希望する任意のドライババージョンにアップグレードが必要な場合

参考

任意のバージョンにドライバを再インストールする時に発生する問題に対し、公式のサポートは受けかねます。
NAVERクラウドプラットフォームで提供しているドライバより下位バージョンでの再インストールはお勧めしません。

使用中の OSに応じて次の案内をご参照ください。

GPUドライバの再インストール(Linux)
CUDAの再インストール(Linux)
GPUドライバの再インストール(Windows)
CUDAの再インストール(Windows)

GPUドライバの再インストール(Linux)

GPUドライバはスクリプトを実行して自動で再インストールできます。
もし自動再インストールに失敗した場合、手動での再インストールもできます。

自動再インストール

スクリプトファイルをダウンロードおよび実行して GPUドライバを自動で再インストールする方法は、次の通りです。

wget http://init.ncloud.com/gpu/ncp_gpu_reinstall.shコマンドを入力してスクリプトファイルをダウンロードします。

./ncp_gpu_reinstall.shコマンドを入力して既存の GPUドライバを削除します。

# ./ncp_gpu_reinstall.sh
This will delete current NVIDIA driver. Are you sure? [y/n]y

--2022-07-25 14:56:30-- http://init.ncloud.com/gpu/nvidia_driver/nvidia-linux-driver.latest
Resolving init.ncloud.com (init.ncloud.com)... 169.254.1.5
Connecting to init.ncloud.com (init.ncloud.com)|169.254.1.5|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 273219658 (261M) [text/plain]
Saving to: ‘/root/nvidia-linux-driver.latest’

nvidia-linux-driver.latest 100%[=================================================>] 260.56M 112MB/s in 2.3s

2022-07-25 14:56:32 (112 MB/s) - ‘/root/nvidia-linux-driver.latest’ saved [273219658/273219658]

Verifying archive integrity... OK
Uncompressing NVIDIA Accelerated Graphics Driver for Linux-x86_64 470.57.02............

The current NVIDIA driver has been deleted.
Please reboot the server and run this script again to reinstall new NVIDIA driver.

サーバを再起動します。

./ncp_gpu_reinstall.shコマンドを再入力して GPUドライバを再インストールします。

# ./ncp_gpu_reinstall.sh
This will install a new NVIDIA driver version : 470.57.02. Are you sure? [y/n]y
Verifying archive integrity... OK

(省略)

Installation of the kernel module for the NVIDIA Accelerated Graphics Driver for Linux-x86_64 (version 470.57.02) is now complete.

New NVIDIA driver installed.
Check the driver version. (via 'nvidia-smi' command.)


Mon Jul 25 14:59:01 2022
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla T4            Off  | 00000000:00:05.0 Off |                   0* |
| N/A   41C    P0    25W /  70W |      0MiB / 15109MiB |      3%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

手動再インストール

スクリプトを利用した自動再インストールができない場合、手動で GPUドライバを再インストールする方法は、次の通りです。

再インストールまたはアップグレードするバージョンのドライバファイルをダウンロードします。

例) NAVERクラウドプラットフォームで基本提供する 470.57.02バージョン

# wget https://kr.download.nvidia.com/tesla/470.57.02/NVIDIA-Linux-x86_64-470.57.02.run
# chmod +x NVIDIA-Linux-x86_64-470.57.02.run

例) 他のバージョン: 510.47.03

# DRIVER_VERSION=510.47.03
# wget https://kr.download.nvidia.com/tesla/${DRIVER_VERSION}/NVIDIA-Linux-x86_64-${DRIVER_VERSION}.run

次のコマンドを入力して既存の GPUドライバを削除します。

# ./NVIDIA-Linux-x86_64-470.57.02.run --uninstall -s
Verifying archive integrity... OK
Uncompressing NVIDIA Accelerated Graphics Driver for Linux-x86_64 
470.57.02............................................................................................................................................................
#

サーバを再起動します。

次のコマンドを入力して新規の GPUドライバをインストールします。

# ./NVIDIA-Linux-x86_64-470.57.02.run -a --ui=none --no-questions --accept-license
Verifying archive integrity... OK
Uncompressing NVIDIA Accelerated Graphics Driver for Linux-x86_64 470.57.02............................................................................................................................................................

Welcome to the NVIDIA Software Installer for Unix/Linux

(省略)

Installation of the kernel module for the NVIDIA Accelerated Graphics Driver for Linux-x86_64 (version 470.57.02) is now complete.

サーバを再起動します。

nvidia-smiコマンドで入力して正常にインストールされたドライバのバージョンと、認識された GPUカードモデルと数を確認します。

# nvidia-smi
Wed Jun 22 19:34:19 2022
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla T4            Off  | 00000000:00:05.0 Off |                  Off |
| N/A   40C    P0    26W /  70W |      0MiB / 16127MiB |      3%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

参考

nvidia-smiコマンドを実行すると出力される情報は、次の通りです。

項目	説明
Driver Version	インストールされたドライバのバージョン
CUDA Version	ドライバがサポートする CUDA APIバージョン
Name	GPUモデル名
Temp	GPUコアの温度
Perf	GPUの Performance State P0~P12まであり、数字が小さいほど高性能 GPU温度と電力使用量に応じて流動的に変化
Pwr:Usage/Cap	現在 GPUが使用している電力量
Memory-Usage	GPUのメモリ使用量(現在の使用量/GPUメモリ容量)
Volatile GPU-Util	GPU使用率
Uncorr. ECC	Uncorrectable ECC(Error Correction Code)エラーの発生回数 NAVERクラウドプラットフォームで提供する GPU VMは、最大性能のためにデフォルトで機能がオフになっている
MIG M.	MIG(Multi Instance GPU) Mode状態 NAVERクラウドプラットフォームで提供する P40、T4、V100 GPUは機能をサポートしない
Processes	現在 GPUを使用しているプロセス情報 GPU: プロセスが動作している GPU番号 GI ID/CI ID: MIG(Multi-Instance GPU)機能で Sliceされた GPU Instanceと Compute Instanceの情報 PID、Process name: プロセスの IDと名前 Type: CUDA/OpenCLプロセスは C(Compute)、DirectX/OpenGLプロセスは G(Graphics)で表示 GPU Memory Usage: プロセスの GPUメモリ使用量

CUDAの再インストール(Linux)

CUDAは cuDNNも一緒に再インストールしてから正常に動作します。インストールする方法は、次の通りです。

CUDA Toolkitダウンロードウェブサイトにアクセスします。
インストールしたいバージョンの CUDA Runtimeインストールファイルを選択し、ダウンロードリンクを読み取ります。
- インストールタイプは OSと依存関係のない runfile (local)を選択します。
- 例) NAVERクラウドプラットフォームで基本提供する CUDA 11.2.2バージョン
```
# wget https://developer.download.nvidia.com/compute/cuda/11.2.2/local_installers/cuda_11.2.2_460.32.03_linux.run
# chmod +x cuda_11.2.2_460.32.03_linux.run
```
既存 CUDAパスのシンボリックリンクを確認し、既存バージョンの実際のディレクトリパスを削除します。
- 既存の CUDA Toolkitと cuDNNが削除されます。
```
# ll /usr/local/cuda
lrwxrwxrwx 1 root root 21 Jul 4 11:02 /usr/local/cuda -> /usr/local/cuda-11.x/
# rm -rf /usr/local/cuda-11.x
```

次のコマンドを入力して CUDA Toolkitを再インストールします。

# ./cuda_11.2.2_460.32.03_linux.run --toolkit --toolkitpath=/usr/local/cuda-11.2 --samples --samplespath=/usr/local/cuda-11.2/samples --silent

再インストールされた CUDAのバージョンを確認します。

# nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2021 NVIDIA Corporation
Built on Sun_Feb_14_21:12:58_PST_2021
Cuda compilation tools, release 11.2, V11.2.152 <-- CUDA Runtimeバージョン
Build cuda_11.2.r11.2/compiler.29618528_0

cuDNNダウンロードウェブサイトにアクセスし、ダウンロードリンクを読み取ります。
読み取ったリンクを介して cuDNNをダウンロードします。
- 例) NAVERクラウドプラットフォームで基本提供する cuDNN 8.1.1.33バージョン
```
# wget https://developer.nvidia.com/compute/machine-learning/cudnn/secure/8.1.1.33/11.2_20210301/cudnn-11.2-linux-x64-v8.1.1.33.tgz
```

cuDNNは、別途のインストール管理者なく、CUDAがインストールされたディレクトリに圧縮を展開する形でインストールされます。次を参照してインストールしてください。

# cd /root
# tar -xzvf cudnn-11.2-linux-x64-v8.1.1.33.tgz
# cp cuda/include/cudnn* /usr/local/cuda/include
# cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
# chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*

インストールされた cuDNNのバージョンを確認します。

cuDNN 8.x基準の確認方法

# cat /usr/local/cuda/include/cudnn_version.h | grep -A2 MAJOR
#define CUDNN_MAJOR 8
#define CUDNN_MINOR 1
#define CUDNN_PATCHLEVEL 1

cuDNN 7.x基準の確認方法

# cat /usr/local/cuda/include/cudnn.h | grep -A2 MAJOR
#define CUDNN_MAJOR 7
#define CUDNN_MINOR 6
#define CUDNN_PATCHLEVEL 5

GPUドライバの再インストール(Windows)

自動再インストール

スクリプトファイルをダウンロードおよび実行して GPUドライバを自動で再インストールする方法は、次の通りです。

次のコマンドを入力してスクリプトファイルをダウンロードします。

Start-BitsTransfer -Source "http://init.ncloud.com/win_gpu/install_gpu.exe" -Destination "c:\install_gpu.exe"

install_gpu.exeファイルを実行します。
- Nvidia GPU driverインストールのポップアップが表示され、インストールの時間は約10~15分かかります。
インストール完了のポップアップが表示されたら、サーバを再起動します。
run - devmgmt.mscコマンドを入力してデバイス管理者コンソールを開きます。
デバイス管理者コンソールで Display Adapters 下位の NVIDIAグラフィックボードをダブルクリックします。
プロパティポップアップの [Driver] タブでドライバのバージョンを確認します。

cmdウィンドウを開き、cd C:\Program Files\NVIDIA Corporation\NVSMIを入力して位置を移動した後、nvidia-smiを入力します。

認識されたグラフィックボードデバイスを確認できます。
例) Tesla T4が1枚認識された状態

C:\Users\Administrator>cd C:\Program Files\NVIDIA Corporation\NVSMI

C:\Program Files\NVIDIA Corporation\NVSMI>nvidia-smi
Fri Jul 24 13:14:57 2022
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 461.33       Driver Version: 461.33       CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name            TCC/WDDM | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla T4            TCC  | 00000000:00:05.0 Off |                  Off |
| N/A   30C    P8     9W /  70W |      0MiB / 16225MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

参考

nvidia-smiコマンドを実行すると出力される情報は、次の通りです。

項目	説明
Driver Version	インストールされたドライバのバージョン
CUDA Version	ドライバがサポートする CUDA APIバージョン
Name	GPUモデル名
Temp	GPUコアの温度
Perf	GPUの Performance State P0~P12まであり、数字が小さいほど高性能 GPU温度と電力使用量に応じて流動的に変化
Pwr:Usage/Cap	現在 GPUが使用している電力量
Memory-Usage	GPUのメモリ使用量(現在の使用量/GPUメモリ容量)
Volatile GPU-Util	GPU使用率
Uncorr. ECC	Uncorrectable ECC(Error Correction Code)エラーの発生回数 NAVERクラウドプラットフォームで提供する GPU VMは、最大性能のためにデフォルトで機能がオフになっている
MIG M.	MIG(Multi Instance GPU) Mode状態 NAVERクラウドプラットフォームで提供する P40、T4、V100 GPUは機能をサポートしない
Processes	現在 GPUを使用しているプロセス情報 GPU: プロセスが動作している GPU番号 GI ID/CI ID: MIG(Multi-Instance GPU)機能で Sliceされた GPU Instanceと Compute Instanceの情報 PID、Process name: プロセスの IDと名前 Type: CUDA/OpenCLプロセスは C(Compute)、DirectX/OpenGLプロセスは G(Graphics)で表示 GPU Memory Usage: プロセスの GPUメモリ使用量

手動再インストール

スクリプトを利用した自動再インストールができない場合、手動で GPUドライバを再インストールする方法は、次の通りです。

GPUドライバのダウンロードウェブサイトで再インストールまたはアップグレードするバージョンのドライバファイルをダウンロードします。
- 例) NAVERクラウドプラットフォームで基本提供する 461.33バージョン
ダウンロードした GPUドライバの exeファイルを実行してインストールします。
- インストールポップアップの案内に従って行います。
- ソフトウェアサービス利用約款に同意してから使用できます。
- インストールオプションは Express を選択します。
サーバを再起動します。
run - devmgmt.mscコマンドを入力してデバイス管理者コンソールを開きます。
デバイス管理者コンソールで Display Adapters 下位の NVIDIAグラフィックボードをダブルクリックします。
プロパティポップアップの [Driver] タブでドライバのバージョンを確認します。

CUDAの再インストール(Windows)

CUDAは cuDNNも一緒に再インストールしてから正常に動作します。インストールする方法は、次の通りです。

CUDA Toolkitダウンロードウェブサイトにアクセスします。
プラットフォームを設定した後、リンクをクリックして exeファイルをダウンロードします。
- 例) NAVERクラウドプラットフォームで基本提供する CUDA 11.2.2バージョン
ダウンロードした CUDA exeファイルを実行してインストールします。
- インストールポップアップの案内に従って行います。
- ソフトウェアサービス利用約款に同意してから使用できます。
- インストールオプションは Express を選択します。
cuDNNダウンロードウェブサイトにアクセスしてログインした後、希望するバージョンの cuDNNファイルをダウンロードします。
- 例) NAVERクラウドプラットフォームで基本提供する cuDNN 8.1.1バージョン
参考
cuDNNは会員のみダウンロードできます。アカウントをお持ちでない場合、会員登録後にログインしてください。
ダウンロードして zipファイルを圧縮展開し、内部の bin、include、libフォルダを CUDA 11.2.2バージョンのインストールパスにある同じ名前のフォルダに置換します。

cmdウィンドウを開き、cd C:\Program Files\NVIDIA Corporation\NVSMIを入力して位置を移動した後、nvidia-smiを入力します。

認識されたグラフィックボードデバイスを確認できます。
例) Tesla T4が1枚認識された状態

C:\Users\Administrator>cd C:\Program Files\NVIDIA Corporation\NVSMI

C:\Program Files\NVIDIA Corporation\NVSMI>nvidia-smi
Fri Jul 24 13:14:57 2022
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 461.33       Driver Version: 461.33       CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name             TCC/WDDM| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla T4            TCC  | 00000000:00:05.0 Off |                  Off |
| N/A   30C    P8     9W /  70W |      0MiB / 16225MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

参考

nvidia-smiコマンドを実行すると出力される情報は、次の通りです。

項目	説明
Driver Version	インストールされたドライバのバージョン
CUDA Version	ドライバがサポートする CUDA APIバージョン
Name	GPUモデル名
Temp	GPUコアの温度
Perf	GPUの Performance State P0~P12まであり、数字が小さいほど高性能 GPU温度と電力使用量に応じて流動的に変化
Pwr:Usage/Cap	現在 GPUが使用している電力量
Memory-Usage	GPUのメモリ使用量(現在の使用量/GPUメモリ容量)
Volatile GPU-Util	GPU使用率
Uncorr. ECC	Uncorrectable ECC(Error Correction Code)エラーの発生回数 NAVERクラウドプラットフォームで提供する GPU VMは、最大性能のためにデフォルトで機能がオフになっている
MIG M.	MIG(Multi Instance GPU) Mode状態 NAVERクラウドプラットフォームで提供する P40、T4、V100 GPUは機能をサポートしない
Processes	現在 GPUを使用しているプロセス情報 GPU: プロセスが動作している GPU番号 GI ID/CI ID: MIG(Multi-Instance GPU)機能で Sliceされた GPU Instanceと Compute Instanceの情報 PID、Process name: プロセスの IDと名前 Type: CUDA/OpenCLプロセスは C(Compute)、DirectX/OpenGLプロセスは G(Graphics)で表示 GPU Memory Usage: プロセスの GPUメモリ使用量

NTKを通じた診断データの収集/伝達

Ncloud Tool Kit(NTK)を通じて GPU VMの NVIDIAデバッグログを収集して伝達できます。
デバッグログの収集と伝達プロセスは、次の通りです。

1. NTK実行
 2. GPUデバックログの収集

参考

NTKに関する詳細は、Ncloud Tool Kit(Linux/Windows)をご参照ください。

1. NTK実行

Linuxサーバで NTKを実行する方法は、次の通りです。

cd /usr/local/etcコマンドを入力します。
- NTKのあるパスに遷移します。
tar zxvf ntk.tar.gzコマンドを入力します。
- NTKファイルの圧縮が展開されます。
- ntk.tar.gzファイルがないか、このファイルを最新バージョンに置き換えるには、wget -P /usr/local/etc http://init.ncloud.com/server/ntk/linux/xen/ntk.tar.gzを入力してファイルをダウンロードします。
/usr/local/etc/ntk/ntkコマンドを順に入力して NTKを実行します。

2. GPUデバックログの収集

NTKで GPU関連のデバッグログを収集する方法は、次の通りです。

NTKメイン画面で、E EXCUTE - << Run System Apps >>を選択します。
G GPU DEBUG COLLECTING - FOR LOG COLLECT >>を選択します。
ログ収集スクリプトを実行するために、 Yes をクリックします。
ログ収集完了メッセージとログファイル保存パスが出力されたら、内容を確認した後に Ok を選択します。
NAVERクラウドのテクニカルサポートセンターへのログファイル送信有無を選択します。

転送を希望する場合は Yes を選択します。ファイル送信がすぐに開始されます。送信が完了すると、成功メッセージとユーザーがログをダウンロードできる短縮 URLが表示されます。
送信を希望しない場合は No を選択して終了します。

作成されたログの送信

既に作成されたログファイルを NAVERクラウドのテクニカルサポートセンターに送信する方法は、次の通りです。

参考

ネットワークの不具合により NAVERクラウドのテクニカルサポートセンターにログファイルが正常に送信されない場合は、VMに保存されているログファイルを添付して転送してください。

ログファイルの保存パス: /usr/local/etc/ntk/logs/gpu get log

NTKメイン画面で、V VIEW - << View & Upload Logs >>を選択します。
G - GPU DEBUG FILESを選択します。
作成されたログファイルのリストを確認した後、NAVERクラウドのテクニカルサポートセンターに送信するログファイルを選択します。
Yes を選択します。

ファイル送信がすぐに開始されます。送信が完了すると、成功メッセージとユーザーがログをダウンロードできる短縮 URLが表示されます。

GPUデバッグログファイルの種類

NTKを通じて作成される GPUログファイルは、次の通りです。

ログファイル名	使用コマンド	ロール
date.log	date	ログ作成日時を表示
dmesg-xid.log	dmesg grep -i xid	xidが含まれたカーネルメッセージを表示
dmesg.log	dmesg	カーネルメッセージを表示
free.log	free -m	MB単位でメモリ使用量を表示
last.log	last	ログインと再起動ログを表示
ps.log	ps auxf	プロセス状態を確認
top.log	top -b -n 1	top(batchモードで1回)、システム情報を表示
uptime.log	uptime	uptime結果を表示
nvidia-bug-report.log.gz	cell	nvidia-bug-report.shスクリプトを実行

GPUリソースのモニタリング

Cloud Insightを使って GPUリソースをモニタリングできます。Cloud Insightに関する詳細は、Cloud Insightご利用ガイドをご参照ください。

ダッシュボードの照会

Services > Management & Governance > Cloud Insight > Dashboard メニューから Service Dashboard/Server のダッシュボードを選択すると、サーバに関する基本的なメトリックを一目で確認することができます。

[ウィジェットデータ変更] ボタンをクリックすると、ウィジェットに表示するデータをフィルタリングできます。
GPUサーバに関して確認できるメトリックは、次の通りです。
- Current GPU MEM Usage (GPU/vmem usage(%)): GPUメモリ使用量 = GPU/vmem usage(%)
- Current GPU MEM Usage (GPU/vmem usage(MiB)): GPUメモリ使用量 = GPU/vmem usage(MiB)
- Current GPU Usage: GPU使用量 = GPU/usage(%)

ダッシュボードの照会方法の詳細は、Cloud Insightのダッシュボード照会をご参照ください。

ユーザーダッシュボードの追加

目的のメトリックだけをモニタリングできるように、ユーザーダッシュボードを追加できます。
[ダッシュボード作成] ボタンをクリックして新しいダッシュボードを作成し、[ウィジェット追加] ボタンをクリックして表示するウィジェットの種類とメトリック情報を設定します。

GPUサーバに関連するウィジェットを作成するには、データ設定時に Product Type を Server に選択する必要があります。
GPUに関するメトリックを設定データとして使用する場合は、必ずディメンション(gpu_idx)を GPUの数だけすべて追加する必要があります。

ダッシュボードの追加作成方法の詳細は、Cloud Insightのダッシュボード作成をご参照ください。

この記事は役に立ちましたか?

What's Next

KVM GPU

サーバ情報確認
サーバ作成
サーバ管理
GPUドライバ/CUDAの再インストールとアップデート
NTKを通じた診断データの収集/伝達
GPUリソースのモニタリング

タグ