- 印刷する
- PDF
GPU Server
- 印刷する
- PDF
最新のコンテンツが反映されていません。早急にアップデート内容をご提供できるよう努めております。最新のコンテンツ内容は韓国語ページをご参照ください。
VPC環境で利用できます。
NAVERクラウドプラットフォームコンソールで GPUサーバを作成して管理する方法を説明します。
- 予期せぬサーバ障害または予定された変更作業などの際に、中断せずにサービスを継続する保障ができるよう、サーバは基本的にゾーン間の冗長化構成をお勧めします。Load Balancer の概要を参照して冗長化設定を行います。
- NAVERクラウドプラットフォームでは、メモリ、CPU、電源供給などの物理サーバの障害に備えるため、High Availability(HA)構造を提供しています。HAは、ハードウェアで発生した障害が Virtual Machine(VM)サーバに拡大されることを防ぐためのポリシーで、ホストサーバに障害が発生した場合、自動的にホストサーバの中にある VMサーバを安定した他のホストサーバに移す Live Migrationをサポートします。ただし、Live Migrationを行えないエラーが発生した場合、VMサーバは再起動します。VMサーバ1台でサービスを運用する場合、VMサーバの再起動により障害が発生し得るため、障害の発生頻度を減らすために上記のように VMサーバを冗長化することをお勧めします。
サーバ情報確認
GPUサーバ情報を確認する方法は、一般サーバ情報を確認する方法と同じです。詳細は、サーバ情報確認をご参照ください。
GPUサーバは、サーバ停止中も全体サーバ料金が発生します。
サーバ作成
GPUサーバはコンソールの Services > Compute > Server メニューから作成できます。詳しい作成方法は、サーバ作成をご参照ください。
- GPU A100の場合、 Services > Compute > Bare Metal Server メニューから作成できます。詳しい作成方法は、GPU A100サーバ作成をご参照ください。
- GPUサーバは企業会員に限り、最大5台まで作成できます。さらに多くの GPUサーバが必要な場合や GPUサーバ作成が必要な個人会員の場合は、カスタマーサポートまでお問い合わせください。
サーバ管理
GPUサーバ管理と設定変更方法は、一般サーバ管理と設定変更方法と同じです。詳細は、サーバ管理をご参照ください。
- GPUサーバは、同じタイプのサーバにのみスペックを変更できます。
- GPUサーバを作成した後、GPUを削除して一般サーバに移行できません。一般サーバに変更するには、サーバイメージを作成した後、サーバイメージを使用して一般サーバを新たに作成します。
- 一般サーバで作成したサーバイメージを使用して GPUサーバを作成できます。
GPUドライバ/CUDAの再インストールとアップデート
GPUサーバ使用中に以下のような場合にサーバの GPUドライバおよび CUDAを再インストールできます。
- OSカーネルバージョンが変更(アップデート)され、現 GPUドライバと互換に失敗した場合: GPUドライバのみ再インストールします。
- 使用中の旧バージョン(418.67)の GPUドライバを NAVERクラウドプラットフォームで提供している最新ドライバにアップグレードする場合
- ユーザーが希望する任意のドライババージョンにアップグレードが必要な場合
- 任意のバージョンにドライバを再インストールする時に発生する問題に対し、公式のサポートは受けかねます。
- NAVERクラウドプラットフォームで提供しているドライバより下位バージョンでの再インストールはお勧めしません。
使用中の OSに応じて次の案内をご参照ください。
GPUドライバの再インストール(Linux)
GPUドライバはスクリプトを実行して自動で再インストールできます。
もし自動再インストールに失敗した場合、手動での再インストールもできます。
自動再インストール
スクリプトファイルをダウンロードおよび実行して GPUドライバを自動で再インストールする方法は、次の通りです。
wget http://init.ncloud.com/gpu/ncp_gpu_reinstall.sh
コマンドを入力してスクリプトファイルをダウンロードします。./ncp_gpu_reinstall.sh
コマンドを入力して既存の GPUドライバを削除します。# ./ncp_gpu_reinstall.sh This will delete current NVIDIA driver. Are you sure? [y/n]y --2022-07-25 14:56:30-- http://init.ncloud.com/gpu/nvidia_driver/nvidia-linux-driver.latest Resolving init.ncloud.com (init.ncloud.com)... 169.254.1.5 Connecting to init.ncloud.com (init.ncloud.com)|169.254.1.5|:80... connected. HTTP request sent, awaiting response... 200 OK Length: 273219658 (261M) [text/plain] Saving to: ‘/root/nvidia-linux-driver.latest’ nvidia-linux-driver.latest 100%[=================================================>] 260.56M 112MB/s in 2.3s 2022-07-25 14:56:32 (112 MB/s) - ‘/root/nvidia-linux-driver.latest’ saved [273219658/273219658] Verifying archive integrity... OK Uncompressing NVIDIA Accelerated Graphics Driver for Linux-x86_64 470.57.02............ The current NVIDIA driver has been deleted. Please reboot the server and run this script again to reinstall new NVIDIA driver.
- サーバを再起動します。
./ncp_gpu_reinstall.sh
コマンドを再入力して GPUドライバを再インストールします。# ./ncp_gpu_reinstall.sh This will install a new NVIDIA driver version : 470.57.02. Are you sure? [y/n]y Verifying archive integrity... OK (省略) Installation of the kernel module for the NVIDIA Accelerated Graphics Driver for Linux-x86_64 (version 470.57.02) is now complete. New NVIDIA driver installed. Check the driver version. (via 'nvidia-smi' command.) Mon Jul 25 14:59:01 2022 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 470.57.02 Driver Version: 470.57.02 CUDA Version: 11.4 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 Tesla T4 Off | 00000000:00:05.0 Off | 0* | | N/A 41C P0 25W / 70W | 0MiB / 15109MiB | 3% Default | | | | N/A | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=============================================================================| | No running processes found | +-----------------------------------------------------------------------------+
手動再インストール
スクリプトを利用した自動再インストールができない場合、手動で GPUドライバを再インストールする方法は、次の通りです。
再インストールまたはアップグレードするバージョンのドライバファイルをダウンロードします。
- 例) NAVERクラウドプラットフォームで基本提供する 470.57.02バージョン
# wget https://kr.download.nvidia.com/tesla/470.57.02/NVIDIA-Linux-x86_64-470.57.02.run # chmod +x NVIDIA-Linux-x86_64-470.57.02.run
- 例) 他のバージョン: 510.47.03
# DRIVER_VERSION=510.47.03 # wget https://kr.download.nvidia.com/tesla/${DRIVER_VERSION}/NVIDIA-Linux-x86_64-${DRIVER_VERSION}.run
次のコマンドを入力して既存の GPUドライバを削除します。
# ./NVIDIA-Linux-x86_64-470.57.02.run --uninstall -s Verifying archive integrity... OK Uncompressing NVIDIA Accelerated Graphics Driver for Linux-x86_64 470.57.02............................................................................................................................................................ #
サーバを再起動します。
次のコマンドを入力して新規の GPUドライバをインストールします。
# ./NVIDIA-Linux-x86_64-470.57.02.run -a --ui=none --no-questions --accept-license Verifying archive integrity... OK Uncompressing NVIDIA Accelerated Graphics Driver for Linux-x86_64 470.57.02............................................................................................................................................................ Welcome to the NVIDIA Software Installer for Unix/Linux (省略) Installation of the kernel module for the NVIDIA Accelerated Graphics Driver for Linux-x86_64 (version 470.57.02) is now complete.
サーバを再起動します。
nvidia-smi
コマンドで入力して正常にインストールされたドライバのバージョンと、認識された GPUカードモデルと数を確認します。# nvidia-smi Wed Jun 22 19:34:19 2022 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 470.57.02 Driver Version: 470.57.02 CUDA Version: 11.4 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 Tesla T4 Off | 00000000:00:05.0 Off | Off | | N/A 40C P0 26W / 70W | 0MiB / 16127MiB | 3% Default | | | | N/A | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=============================================================================| | No running processes found | +-----------------------------------------------------------------------------+
nvidia-smi
コマンドを実行すると出力される情報は、次の通りです。
項目 | 説明 |
---|---|
Driver Version | インストールされたドライバのバージョン |
CUDA Version | ドライバがサポートする CUDA APIバージョン |
Name | GPUモデル名 |
Temp | GPUコアの温度 |
Perf | GPUの Performance State
|
Pwr:Usage/Cap | 現在 GPUが使用している電力量 |
Memory-Usage | GPUのメモリ使用量(現在の使用量/GPUメモリ容量) |
Volatile GPU-Util | GPU使用率 |
Uncorr. ECC | Uncorrectable ECC(Error Correction Code)エラーの発生回数
|
MIG M. | MIG(Multi Instance GPU) Mode状態
|
Processes | 現在 GPUを使用しているプロセス情報
|
CUDAの再インストール(Linux)
CUDAは cuDNNも一緒に再インストールしてから正常に動作します。インストールする方法は、次の通りです。
CUDA Toolkitダウンロードウェブサイトにアクセスします。
インストールしたいバージョンの CUDA Runtimeインストールファイルを選択し、ダウンロードリンクを読み取ります。
- インストールタイプは OSと依存関係のない runfile (local)を選択します。
- 例) NAVERクラウドプラットフォームで基本提供する CUDA 11.2.2バージョン
# wget https://developer.download.nvidia.com/compute/cuda/11.2.2/local_installers/cuda_11.2.2_460.32.03_linux.run # chmod +x cuda_11.2.2_460.32.03_linux.run
- インストールタイプは OSと依存関係のない runfile (local)を選択します。
既存 CUDAパスのシンボリックリンクを確認し、既存バージョンの実際のディレクトリパスを削除します。
- 既存の CUDA Toolkitと cuDNNが削除されます。
# ll /usr/local/cuda lrwxrwxrwx 1 root root 21 Jul 4 11:02 /usr/local/cuda -> /usr/local/cuda-11.x/ # rm -rf /usr/local/cuda-11.x
次のコマンドを入力して CUDA Toolkitを再インストールします。
# ./cuda_11.2.2_460.32.03_linux.run --toolkit --toolkitpath=/usr/local/cuda-11.2 --samples --samplespath=/usr/local/cuda-11.2/samples --silent
再インストールされた CUDAのバージョンを確認します。
# nvcc --version nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2021 NVIDIA Corporation Built on Sun_Feb_14_21:12:58_PST_2021 Cuda compilation tools, release 11.2, V11.2.152 <-- CUDA Runtimeバージョン Build cuda_11.2.r11.2/compiler.29618528_0
cuDNNダウンロードウェブサイトにアクセスし、ダウンロードリンクを読み取ります。
読み取ったリンクを介して cuDNNをダウンロードします。
- 例) NAVERクラウドプラットフォームで基本提供する cuDNN 8.1.1.33バージョン
# wget https://developer.nvidia.com/compute/machine-learning/cudnn/secure/8.1.1.33/11.2_20210301/cudnn-11.2-linux-x64-v8.1.1.33.tgz
cuDNNは、別途のインストール管理者なく、CUDAがインストールされたディレクトリに圧縮を展開する形でインストールされます。次を参照してインストールしてください。
# cd /root # tar -xzvf cudnn-11.2-linux-x64-v8.1.1.33.tgz # cp cuda/include/cudnn* /usr/local/cuda/include # cp cuda/lib64/libcudnn* /usr/local/cuda/lib64 # chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*
インストールされた cuDNNのバージョンを確認します。
- cuDNN 8.x基準の確認方法
# cat /usr/local/cuda/include/cudnn_version.h | grep -A2 MAJOR #define CUDNN_MAJOR 8 #define CUDNN_MINOR 1 #define CUDNN_PATCHLEVEL 1
- cuDNN 7.x基準の確認方法
# cat /usr/local/cuda/include/cudnn.h | grep -A2 MAJOR #define CUDNN_MAJOR 7 #define CUDNN_MINOR 6 #define CUDNN_PATCHLEVEL 5
GPUドライバの再インストール(Windows)
GPUドライバはスクリプトを実行して自動で再インストールできます。
もし自動再インストールに失敗した場合、手動での再インストールもできます。
自動再インストール
スクリプトファイルをダウンロードおよび実行して GPUドライバを自動で再インストールする方法は、次の通りです。
次のコマンドを入力してスクリプトファイルをダウンロードします。
Start-BitsTransfer -Source "http://init.ncloud.com/win_gpu/install_gpu.exe" -Destination "c:\install_gpu.exe"
install_gpu.exeファイルを実行します。
- Nvidia GPU driverインストールのポップアップが表示され、インストールの時間は約10~15分かかります。
インストール完了のポップアップが表示されたら、サーバを再起動します。
run - devmgmt.msc
コマンドを入力してデバイス管理者コンソールを開きます。デバイス管理者コンソールで Display Adapters 下位の NVIDIAグラフィックボードをダブルクリックします。
プロパティポップアップの [Driver] タブでドライバのバージョンを確認します。
cmdウィンドウを開き、
cd C:\Program Files\NVIDIA Corporation\NVSMI
を入力して位置を移動した後、nvidia-smi
を入力します。- 認識されたグラフィックボードデバイスを確認できます。
- 例) Tesla T4が1枚認識された状態
C:\Users\Administrator>cd C:\Program Files\NVIDIA Corporation\NVSMI C:\Program Files\NVIDIA Corporation\NVSMI>nvidia-smi Fri Jul 24 13:14:57 2022 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 461.33 Driver Version: 461.33 CUDA Version: 11.2 | |-------------------------------+----------------------+----------------------+ | GPU Name TCC/WDDM | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 Tesla T4 TCC | 00000000:00:05.0 Off | Off | | N/A 30C P8 9W / 70W | 0MiB / 16225MiB | 0% Default | | | | N/A | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=============================================================================| | No running processes found | +-----------------------------------------------------------------------------+
nvidia-smi
コマンドを実行すると出力される情報は、次の通りです。
項目 | 説明 |
---|---|
Driver Version | インストールされたドライバのバージョン |
CUDA Version | ドライバがサポートする CUDA APIバージョン |
Name | GPUモデル名 |
Temp | GPUコアの温度 |
Perf | GPUの Performance State
|
Pwr:Usage/Cap | 現在 GPUが使用している電力量 |
Memory-Usage | GPUのメモリ使用量(現在の使用量/GPUメモリ容量) |
Volatile GPU-Util | GPU使用率 |
Uncorr. ECC | Uncorrectable ECC(Error Correction Code)エラーの発生回数
|
MIG M. | MIG(Multi Instance GPU) Mode状態
|
Processes | 現在 GPUを使用しているプロセス情報
|
手動再インストール
スクリプトを利用した自動再インストールができない場合、手動で GPUドライバを再インストールする方法は、次の通りです。
- GPUドライバのダウンロードウェブサイトで再インストールまたはアップグレードするバージョンのドライバファイルをダウンロードします。
- ダウンロードした GPUドライバの exeファイルを実行してインストールします。
- インストールポップアップの案内に従って行います。
- ソフトウェアサービス利用約款に同意してから使用できます。
- インストールオプションは Express を選択します。
- サーバを再起動します。
run - devmgmt.msc
コマンドを入力してデバイス管理者コンソールを開きます。- デバイス管理者コンソールで Display Adapters 下位の NVIDIAグラフィックボードをダブルクリックします。
- プロパティポップアップの [Driver] タブでドライバのバージョンを確認します。
CUDAの再インストール(Windows)
CUDAは cuDNNも一緒に再インストールしてから正常に動作します。インストールする方法は、次の通りです。
CUDA Toolkitダウンロードウェブサイトにアクセスします。
プラットフォームを設定した後、リンクをクリックして exeファイルをダウンロードします。
ダウンロードした CUDA exeファイルを実行してインストールします。
- インストールポップアップの案内に従って行います。
- ソフトウェアサービス利用約款に同意してから使用できます。
- インストールオプションは Express を選択します。
cuDNNダウンロードウェブサイトにアクセスしてログインした後、希望するバージョンの cuDNNファイルをダウンロードします。
参考cuDNNは会員のみダウンロードできます。アカウントをお持ちでない場合、会員登録後にログインしてください。
ダウンロードして zipファイルを圧縮展開し、内部の bin、include、libフォルダを CUDA 11.2.2バージョンのインストールパスにある同じ名前のフォルダに置換します。
cmdウィンドウを開き、
cd C:\Program Files\NVIDIA Corporation\NVSMI
を入力して位置を移動した後、nvidia-smi
を入力します。- 認識されたグラフィックボードデバイスを確認できます。
- 例) Tesla T4が1枚認識された状態
C:\Users\Administrator>cd C:\Program Files\NVIDIA Corporation\NVSMI C:\Program Files\NVIDIA Corporation\NVSMI>nvidia-smi Fri Jul 24 13:14:57 2022 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 461.33 Driver Version: 461.33 CUDA Version: 11.2 | |-------------------------------+----------------------+----------------------+ | GPU Name TCC/WDDM| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 Tesla T4 TCC | 00000000:00:05.0 Off | Off | | N/A 30C P8 9W / 70W | 0MiB / 16225MiB | 0% Default | | | | N/A | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=============================================================================| | No running processes found | +-----------------------------------------------------------------------------+
nvidia-smi
コマンドを実行すると出力される情報は、次の通りです。
項目 | 説明 |
---|---|
Driver Version | インストールされたドライバのバージョン |
CUDA Version | ドライバがサポートする CUDA APIバージョン |
Name | GPUモデル名 |
Temp | GPUコアの温度 |
Perf | GPUの Performance State
|
Pwr:Usage/Cap | 現在 GPUが使用している電力量 |
Memory-Usage | GPUのメモリ使用量(現在の使用量/GPUメモリ容量) |
Volatile GPU-Util | GPU使用率 |
Uncorr. ECC | Uncorrectable ECC(Error Correction Code)エラーの発生回数
|
MIG M. | MIG(Multi Instance GPU) Mode状態
|
Processes | 現在 GPUを使用しているプロセス情報
|
NTKを通じた診断データの収集/伝達
Ncloud Tool Kit(NTK)を通じて GPU VMの NVIDIAデバッグログを収集して伝達できます。
デバッグログの収集と伝達プロセスは、次の通りです。
1. NTK実行
Linuxサーバで NTKを実行する方法は、次の通りです。
cd /usr/local/etc
コマンドを入力します。- NTKのあるパスに遷移します。
tar zxvf ntk.tar.gz
コマンドを入力します。- NTKファイルの圧縮が展開されます。
- ntk.tar.gzファイルがないか、このファイルを最新バージョンに置き換えるには、
wget -P /usr/local/etc http://init.ncloud.com/server/ntk/linux/xen/ntk.tar.gz
を入力してファイルをダウンロードします。
/usr/local/etc/ntk/ntk
コマンドを順に入力して NTKを実行します。
2. GPUデバックログの収集
NTKで GPU関連のデバッグログを収集する方法は、次の通りです。
NTKメイン画面で、E EXCUTE - << Run System Apps >>を選択します。
G GPU DEBUG COLLECTING - FOR LOG COLLECT >>を選択します。
ログ収集スクリプトを実行するために、 Yes をクリックします。
ログ収集完了メッセージとログファイル保存パスが出力されたら、内容を確認した後に Ok を選択します。
NAVERクラウドのテクニカルサポートセンターへのログファイル送信有無を選択します。
- 転送を希望する場合は Yes を選択します。ファイル送信がすぐに開始されます。送信が完了すると、成功メッセージとユーザーがログをダウンロードできる短縮 URLが表示されます。
- 送信を希望しない場合は No を選択して終了します。
作成されたログの送信
既に作成されたログファイルを NAVERクラウドのテクニカルサポートセンターに送信する方法は、次の通りです。
ネットワークの不具合により NAVERクラウドのテクニカルサポートセンターにログファイルが正常に送信されない場合は、VMに保存されているログファイルを添付して転送してください。
- ログファイルの保存パス: /usr/local/etc/ntk/logs/gpu get log
NTKメイン画面で、V VIEW - << View & Upload Logs >>を選択します。
G - GPU DEBUG FILESを選択します。
作成されたログファイルのリストを確認した後、NAVERクラウドのテクニカルサポートセンターに送信するログファイルを選択します。
Yes を選択します。
- ファイル送信がすぐに開始されます。送信が完了すると、成功メッセージとユーザーがログをダウンロードできる短縮 URLが表示されます。
GPUデバッグログファイルの種類
NTKを通じて作成される GPUログファイルは、次の通りです。
ログファイル名 | 使用コマンド | ロール |
---|---|---|
date.log | date | ログ作成日時を表示 |
dmesg-xid.log | dmesg grep -i xid | xidが含まれたカーネルメッセージを表示 |
dmesg.log | dmesg | カーネルメッセージを表示 |
free.log | free -m | MB単位でメモリ使用量を表示 |
last.log | last | ログインと再起動ログを表示 |
ps.log | ps auxf | プロセス状態を確認 |
top.log | top -b -n 1 | top(batchモードで1回)、システム情報を表示 |
uptime.log | uptime | uptime結果を表示 |
nvidia-bug-report.log.gz | cell | nvidia-bug-report.shスクリプトを実行 |
GPUリソースのモニタリング
Cloud Insightを使って GPUリソースをモニタリングできます。Cloud Insightに関する詳細は、Cloud Insightご利用ガイドをご参照ください。
ダッシュボードの照会
Services > Management & Governance > Cloud Insight > Dashboard メニューから Service Dashboard/Server のダッシュボードを選択すると、サーバに関する基本的なメトリックを一目で確認することができます。
- [ウィジェットデータ変更] ボタンをクリックすると、ウィジェットに表示するデータをフィルタリングできます。
- GPUサーバに関して確認できるメトリックは、次の通りです。
- Current GPU MEM Usage (GPU/vmem usage(%)): GPUメモリ使用量 = GPU/vmem usage(%)
- Current GPU MEM Usage (GPU/vmem usage(MiB)): GPUメモリ使用量 = GPU/vmem usage(MiB)
- Current GPU Usage: GPU使用量 = GPU/usage(%)
ダッシュボードの照会方法の詳細は、Cloud Insightのダッシュボード照会をご参照ください。
ユーザーダッシュボードの追加
目的のメトリックだけをモニタリングできるように、ユーザーダッシュボードを追加できます。
[ダッシュボード作成] ボタンをクリックして新しいダッシュボードを作成し、[ウィジェット追加] ボタンをクリックして表示するウィジェットの種類とメトリック情報を設定します。
- GPUサーバに関連するウィジェットを作成するには、データ設定時に Product Type を Server に選択する必要があります。
- GPUに関するメトリックを設定データとして使用する場合は、必ずディメンション(gpu_idx)を GPUの数だけすべて追加する必要があります。
ダッシュボードの追加作成方法の詳細は、Cloud Insightのダッシュボード作成をご参照ください。