GPU Server
    • PDF

    GPU Server

    • PDF

    Article Summary

    最新のコンテンツが反映されていません。早急にアップデート内容をご提供できるよう努めております。最新のコンテンツ内容は韓国語ページをご参照ください。

    VPC環境で利用できます。

    NAVERクラウドプラットフォームコンソールで GPUサーバを作成して管理する方法を説明します。

    参考
    • 予期せぬサーバ障害または予定された変更作業などの際に、中断せずにサービスを継続する保障ができるよう、サーバは基本的にゾーン間の冗長化構成をお勧めします。Load Balancer の概要を参照して冗長化設定を行います。
    • NAVERクラウドプラットフォームでは、メモリ、CPU、電源供給などの物理サーバの障害に備えるため、High Availability(HA)構造を提供しています。HAは、ハードウェアで発生した障害が Virtual Machine(VM)サーバに拡大されることを防ぐためのポリシーで、ホストサーバに障害が発生した場合、自動的にホストサーバの中にある VMサーバを安定した他のホストサーバに移す Live Migrationをサポートします。ただし、Live Migrationを行えないエラーが発生した場合、VMサーバは再起動します。VMサーバ1台でサービスを運用する場合、VMサーバの再起動により障害が発生し得るため、障害の発生頻度を減らすために上記のように VMサーバを冗長化することをお勧めします。

    サーバ情報確認

    GPUサーバ情報を確認する方法は、一般サーバ情報を確認する方法と同じです。詳細は、サーバ情報確認をご参照ください。

    注意

    GPUサーバは、サーバ停止中も全体サーバ料金が発生します。

    サーバ作成

    GPUサーバはコンソールの Services > Compute > Server メニューから作成できます。詳しい作成方法は、サーバ作成をご参照ください。

    参考
    • GPU A100の場合、 Services > Compute > Bare Metal Server メニューから作成できます。詳しい作成方法は、GPU A100サーバ作成をご参照ください。
    • GPUサーバは企業会員に限り、最大5台まで作成できます。さらに多くの GPUサーバが必要な場合や GPUサーバ作成が必要な個人会員の場合は、カスタマーサポートまでお問い合わせください。

    サーバ管理

    GPUサーバ管理と設定変更方法は、一般サーバ管理と設定変更方法と同じです。詳細は、サーバ管理をご参照ください。

    参考
    • GPUサーバは、同じタイプのサーバにのみスペックを変更できます。
    • GPUサーバを作成した後、GPUを削除して一般サーバに移行できません。一般サーバに変更するには、サーバイメージを作成した後、サーバイメージを使用して一般サーバを新たに作成します。
    • 一般サーバで作成したサーバイメージを使用して GPUサーバを作成できます。

    GPUドライバ/CUDAの再インストールとアップデート

    GPUサーバ使用中に以下のような場合にサーバの GPUドライバおよび CUDAを再インストールできます。

    • OSカーネルバージョンが変更(アップデート)され、現 GPUドライバと互換に失敗した場合: GPUドライバのみ再インストールします。
    • 使用中の旧バージョン(418.67)の GPUドライバを NAVERクラウドプラットフォームで提供している最新ドライバにアップグレードする場合
    • ユーザーが希望する任意のドライババージョンにアップグレードが必要な場合
    参考
    • 任意のバージョンにドライバを再インストールする時に発生する問題に対し、公式のサポートは受けかねます。
    • NAVERクラウドプラットフォームで提供しているドライバより下位バージョンでの再インストールはお勧めしません。

    使用中の OSに応じて次の案内をご参照ください。

    GPUドライバの再インストール(Linux)

    GPUドライバはスクリプトを実行して自動で再インストールできます。
    もし自動再インストールに失敗した場合、手動での再インストールもできます。

    自動再インストール

    スクリプトファイルをダウンロードおよび実行して GPUドライバを自動で再インストールする方法は、次の通りです。

    1. wget http://init.ncloud.com/gpu/ncp_gpu_reinstall.shコマンドを入力してスクリプトファイルをダウンロードします。
    2. ./ncp_gpu_reinstall.shコマンドを入力して既存の GPUドライバを削除します。
      # ./ncp_gpu_reinstall.sh
      This will delete current NVIDIA driver. Are you sure? [y/n]y
      
      --2022-07-25 14:56:30-- http://init.ncloud.com/gpu/nvidia_driver/nvidia-linux-driver.latest
      Resolving init.ncloud.com (init.ncloud.com)... 169.254.1.5
      Connecting to init.ncloud.com (init.ncloud.com)|169.254.1.5|:80... connected.
      HTTP request sent, awaiting response... 200 OK
      Length: 273219658 (261M) [text/plain]
      Saving to: ‘/root/nvidia-linux-driver.latest’
      
      nvidia-linux-driver.latest 100%[=================================================>] 260.56M 112MB/s in 2.3s
      
      2022-07-25 14:56:32 (112 MB/s) - ‘/root/nvidia-linux-driver.latest’ saved [273219658/273219658]
      
      Verifying archive integrity... OK
      Uncompressing NVIDIA Accelerated Graphics Driver for Linux-x86_64 470.57.02............
      
      The current NVIDIA driver has been deleted.
      Please reboot the server and run this script again to reinstall new NVIDIA driver.
      
    3. サーバを再起動します。
    4. ./ncp_gpu_reinstall.shコマンドを再入力して GPUドライバを再インストールします。
      # ./ncp_gpu_reinstall.sh
      This will install a new NVIDIA driver version : 470.57.02. Are you sure? [y/n]y
      Verifying archive integrity... OK
      
      (省略)
      
      Installation of the kernel module for the NVIDIA Accelerated Graphics Driver for Linux-x86_64 (version 470.57.02) is now complete.
      
      New NVIDIA driver installed.
      Check the driver version. (via 'nvidia-smi' command.)
      
      
      Mon Jul 25 14:59:01 2022
      +-----------------------------------------------------------------------------+
      | NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
      |-------------------------------+----------------------+----------------------+
      | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
      | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
      |                               |                      |               MIG M. |
      |===============================+======================+======================|
      |   0  Tesla T4            Off  | 00000000:00:05.0 Off |                   0* |
      | N/A   41C    P0    25W /  70W |      0MiB / 15109MiB |      3%      Default |
      |                               |                      |                  N/A |
      +-------------------------------+----------------------+----------------------+
      
      +-----------------------------------------------------------------------------+
      | Processes:                                                                  |
      |  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
      |        ID   ID                                                   Usage      |
      |=============================================================================|
      |  No running processes found                                                 |
      +-----------------------------------------------------------------------------+
      

    手動再インストール

    スクリプトを利用した自動再インストールができない場合、手動で GPUドライバを再インストールする方法は、次の通りです。

    1. 再インストールまたはアップグレードするバージョンのドライバファイルをダウンロードします。

      • 例) NAVERクラウドプラットフォームで基本提供する 470.57.02バージョン
      # wget https://kr.download.nvidia.com/tesla/470.57.02/NVIDIA-Linux-x86_64-470.57.02.run
      # chmod +x NVIDIA-Linux-x86_64-470.57.02.run
      
      • 例) 他のバージョン: 510.47.03
      # DRIVER_VERSION=510.47.03
      # wget https://kr.download.nvidia.com/tesla/${DRIVER_VERSION}/NVIDIA-Linux-x86_64-${DRIVER_VERSION}.run 
      
    2. 次のコマンドを入力して既存の GPUドライバを削除します。

      # ./NVIDIA-Linux-x86_64-470.57.02.run --uninstall -s
      Verifying archive integrity... OK
      Uncompressing NVIDIA Accelerated Graphics Driver for Linux-x86_64 
      470.57.02............................................................................................................................................................
      #
      
    3. サーバを再起動します。

    4. 次のコマンドを入力して新規の GPUドライバをインストールします。

      # ./NVIDIA-Linux-x86_64-470.57.02.run -a --ui=none --no-questions --accept-license
      Verifying archive integrity... OK
      Uncompressing NVIDIA Accelerated Graphics Driver for Linux-x86_64 470.57.02............................................................................................................................................................
      
      Welcome to the NVIDIA Software Installer for Unix/Linux
      
      (省略)
      
      Installation of the kernel module for the NVIDIA Accelerated Graphics Driver for Linux-x86_64 (version 470.57.02) is now complete.
      
    5. サーバを再起動します。

    6. nvidia-smiコマンドで入力して正常にインストールされたドライバのバージョンと、認識された GPUカードモデルと数を確認します。

      # nvidia-smi
      Wed Jun 22 19:34:19 2022
      +-----------------------------------------------------------------------------+
      | NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
      |-------------------------------+----------------------+----------------------+
      | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
      | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
      |                               |                      |               MIG M. |
      |===============================+======================+======================|
      |   0  Tesla T4            Off  | 00000000:00:05.0 Off |                  Off |
      | N/A   40C    P0    26W /  70W |      0MiB / 16127MiB |      3%      Default |
      |                               |                      |                  N/A |
      +-------------------------------+----------------------+----------------------+
      
      +-----------------------------------------------------------------------------+
      | Processes:                                                                  |
      |  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
      |        ID   ID                                                   Usage      |
      |=============================================================================|
      |  No running processes found                                                 |
      +-----------------------------------------------------------------------------+
      
    参考

    nvidia-smiコマンドを実行すると出力される情報は、次の通りです。

    項目説明
    Driver Versionインストールされたドライバのバージョン
    CUDA Versionドライバがサポートする CUDA APIバージョン
    NameGPUモデル名
    TempGPUコアの温度
    PerfGPUの Performance State
    • P0~P12まであり、数字が小さいほど高性能
    • GPU温度と電力使用量に応じて流動的に変化
    Pwr:Usage/Cap現在 GPUが使用している電力量
    Memory-UsageGPUのメモリ使用量(現在の使用量/GPUメモリ容量)
    Volatile GPU-UtilGPU使用率
    Uncorr. ECCUncorrectable ECC(Error Correction Code)エラーの発生回数
    • NAVERクラウドプラットフォームで提供する GPU VMは、最大性能のためにデフォルトで機能がオフになっている
    MIG M.MIG(Multi Instance GPU) Mode状態
    • NAVERクラウドプラットフォームで提供する P40、T4、V100 GPUは機能をサポートしない
    Processes現在 GPUを使用しているプロセス情報
    • GPU: プロセスが動作している GPU番号
    • GI ID/CI ID: MIG(Multi-Instance GPU)機能で Sliceされた GPU Instanceと Compute Instanceの情報
    • PID、Process name: プロセスの IDと名前
    • Type: CUDA/OpenCLプロセスは C(Compute)、DirectX/OpenGLプロセスは G(Graphics)で表示
    • GPU Memory Usage: プロセスの GPUメモリ使用量

    CUDAの再インストール(Linux)

    CUDAは cuDNNも一緒に再インストールしてから正常に動作します。インストールする方法は、次の通りです。

    1. CUDA Toolkitダウンロードウェブサイトにアクセスします。

    2. インストールしたいバージョンの CUDA Runtimeインストールファイルを選択し、ダウンロードリンクを読み取ります。

      • インストールタイプは OSと依存関係のない runfile (local)を選択します。
        server-gpuserver-vpc_cuda_guide
      • 例) NAVERクラウドプラットフォームで基本提供する CUDA 11.2.2バージョン
        # wget https://developer.download.nvidia.com/compute/cuda/11.2.2/local_installers/cuda_11.2.2_460.32.03_linux.run
        # chmod +x cuda_11.2.2_460.32.03_linux.run
        
    3. 既存 CUDAパスのシンボリックリンクを確認し、既存バージョンの実際のディレクトリパスを削除します。

      • 既存の CUDA Toolkitと cuDNNが削除されます。
      # ll /usr/local/cuda
      lrwxrwxrwx 1 root root 21 Jul 4 11:02 /usr/local/cuda -> /usr/local/cuda-11.x/
      # rm -rf /usr/local/cuda-11.x
      
    4. 次のコマンドを入力して CUDA Toolkitを再インストールします。

      # ./cuda_11.2.2_460.32.03_linux.run --toolkit --toolkitpath=/usr/local/cuda-11.2 --samples --samplespath=/usr/local/cuda-11.2/samples --silent
      
    5. 再インストールされた CUDAのバージョンを確認します。

      # nvcc --version
      nvcc: NVIDIA (R) Cuda compiler driver
      Copyright (c) 2005-2021 NVIDIA Corporation
      Built on Sun_Feb_14_21:12:58_PST_2021
      Cuda compilation tools, release 11.2, V11.2.152 <-- CUDA Runtimeバージョン
      Build cuda_11.2.r11.2/compiler.29618528_0
      
    6. cuDNNダウンロードウェブサイトにアクセスし、ダウンロードリンクを読み取ります。

    7. 読み取ったリンクを介して cuDNNをダウンロードします。

      • 例) NAVERクラウドプラットフォームで基本提供する cuDNN 8.1.1.33バージョン
      # wget https://developer.nvidia.com/compute/machine-learning/cudnn/secure/8.1.1.33/11.2_20210301/cudnn-11.2-linux-x64-v8.1.1.33.tgz
      
    8. cuDNNは、別途のインストール管理者なく、CUDAがインストールされたディレクトリに圧縮を展開する形でインストールされます。次を参照してインストールしてください。

      # cd /root
      # tar -xzvf cudnn-11.2-linux-x64-v8.1.1.33.tgz
      # cp cuda/include/cudnn* /usr/local/cuda/include
      # cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
      # chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*
      
    9. インストールされた cuDNNのバージョンを確認します。

      • cuDNN 8.x基準の確認方法
      # cat /usr/local/cuda/include/cudnn_version.h | grep -A2 MAJOR
      #define CUDNN_MAJOR 8
      #define CUDNN_MINOR 1
      #define CUDNN_PATCHLEVEL 1
      
      • cuDNN 7.x基準の確認方法
      # cat /usr/local/cuda/include/cudnn.h | grep -A2 MAJOR
      #define CUDNN_MAJOR 7
      #define CUDNN_MINOR 6
      #define CUDNN_PATCHLEVEL 5
      

    GPUドライバの再インストール(Windows)

    GPUドライバはスクリプトを実行して自動で再インストールできます。
    もし自動再インストールに失敗した場合、手動での再インストールもできます。

    自動再インストール

    スクリプトファイルをダウンロードおよび実行して GPUドライバを自動で再インストールする方法は、次の通りです。

    1. 次のコマンドを入力してスクリプトファイルをダウンロードします。

      Start-BitsTransfer -Source "http://init.ncloud.com/win_gpu/install_gpu.exe" -Destination "c:\install_gpu.exe"
      
    2. install_gpu.exeファイルを実行します。

      • Nvidia GPU driverインストールのポップアップが表示され、インストールの時間は約10~15分かかります。
    3. インストール完了のポップアップが表示されたら、サーバを再起動します。

    4. run - devmgmt.mscコマンドを入力してデバイス管理者コンソールを開きます。

    5. デバイス管理者コンソールで Display Adapters 下位の NVIDIAグラフィックボードをダブルクリックします。

    6. プロパティポップアップの [Driver] タブでドライバのバージョンを確認します。

    7. cmdウィンドウを開き、cd C:\Program Files\NVIDIA Corporation\NVSMIを入力して位置を移動した後、nvidia-smiを入力します。

      • 認識されたグラフィックボードデバイスを確認できます。
      • 例) Tesla T4が1枚認識された状態
      C:\Users\Administrator>cd C:\Program Files\NVIDIA Corporation\NVSMI
      
      C:\Program Files\NVIDIA Corporation\NVSMI>nvidia-smi
      Fri Jul 24 13:14:57 2022
      +-----------------------------------------------------------------------------+
      | NVIDIA-SMI 461.33       Driver Version: 461.33       CUDA Version: 11.2     |
      |-------------------------------+----------------------+----------------------+
      | GPU  Name            TCC/WDDM | Bus-Id        Disp.A | Volatile Uncorr. ECC |
      | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
      |                               |                      |               MIG M. |
      |===============================+======================+======================|
      |   0  Tesla T4            TCC  | 00000000:00:05.0 Off |                  Off |
      | N/A   30C    P8     9W /  70W |      0MiB / 16225MiB |      0%      Default |
      |                               |                      |                  N/A |
      +-------------------------------+----------------------+----------------------+
      
      +-----------------------------------------------------------------------------+
      | Processes:                                                                  |
      |  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
      |        ID   ID                                                   Usage      |
      |=============================================================================|
      |  No running processes found                                                 |
      +-----------------------------------------------------------------------------+
      
    参考

    nvidia-smiコマンドを実行すると出力される情報は、次の通りです。

    項目説明
    Driver Versionインストールされたドライバのバージョン
    CUDA Versionドライバがサポートする CUDA APIバージョン
    NameGPUモデル名
    TempGPUコアの温度
    PerfGPUの Performance State
    • P0~P12まであり、数字が小さいほど高性能
    • GPU温度と電力使用量に応じて流動的に変化
    Pwr:Usage/Cap現在 GPUが使用している電力量
    Memory-UsageGPUのメモリ使用量(現在の使用量/GPUメモリ容量)
    Volatile GPU-UtilGPU使用率
    Uncorr. ECCUncorrectable ECC(Error Correction Code)エラーの発生回数
    • NAVERクラウドプラットフォームで提供する GPU VMは、最大性能のためにデフォルトで機能がオフになっている
    MIG M.MIG(Multi Instance GPU) Mode状態
    • NAVERクラウドプラットフォームで提供する P40、T4、V100 GPUは機能をサポートしない
    Processes現在 GPUを使用しているプロセス情報
    • GPU: プロセスが動作している GPU番号
    • GI ID/CI ID: MIG(Multi-Instance GPU)機能で Sliceされた GPU Instanceと Compute Instanceの情報
    • PID、Process name: プロセスの IDと名前
    • Type: CUDA/OpenCLプロセスは C(Compute)、DirectX/OpenGLプロセスは G(Graphics)で表示
    • GPU Memory Usage: プロセスの GPUメモリ使用量

    手動再インストール

    スクリプトを利用した自動再インストールができない場合、手動で GPUドライバを再インストールする方法は、次の通りです。

    1. GPUドライバのダウンロードウェブサイトで再インストールまたはアップグレードするバージョンのドライバファイルをダウンロードします。
    2. ダウンロードした GPUドライバの exeファイルを実行してインストールします。
      • インストールポップアップの案内に従って行います。
      • ソフトウェアサービス利用約款に同意してから使用できます。
      • インストールオプションは Express を選択します。
    3. サーバを再起動します。
    4. run - devmgmt.mscコマンドを入力してデバイス管理者コンソールを開きます。
    5. デバイス管理者コンソールで Display Adapters 下位の NVIDIAグラフィックボードをダブルクリックします。
    6. プロパティポップアップの [Driver] タブでドライバのバージョンを確認します。

    CUDAの再インストール(Windows)

    CUDAは cuDNNも一緒に再インストールしてから正常に動作します。インストールする方法は、次の通りです。

    1. CUDA Toolkitダウンロードウェブサイトにアクセスします。

    2. プラットフォームを設定した後、リンクをクリックして exeファイルをダウンロードします。

    3. ダウンロードした CUDA exeファイルを実行してインストールします。

      • インストールポップアップの案内に従って行います。
      • ソフトウェアサービス利用約款に同意してから使用できます。
      • インストールオプションは Express を選択します。
    4. cuDNNダウンロードウェブサイトにアクセスしてログインした後、希望するバージョンの cuDNNファイルをダウンロードします。

      参考

      cuDNNは会員のみダウンロードできます。アカウントをお持ちでない場合、会員登録後にログインしてください。

    5. ダウンロードして zipファイルを圧縮展開し、内部の bin、include、libフォルダを CUDA 11.2.2バージョンのインストールパスにある同じ名前のフォルダに置換します。

    6. cmdウィンドウを開き、cd C:\Program Files\NVIDIA Corporation\NVSMIを入力して位置を移動した後、nvidia-smiを入力します。

      • 認識されたグラフィックボードデバイスを確認できます。
      • 例) Tesla T4が1枚認識された状態
      C:\Users\Administrator>cd C:\Program Files\NVIDIA Corporation\NVSMI
      
      C:\Program Files\NVIDIA Corporation\NVSMI>nvidia-smi
      Fri Jul 24 13:14:57 2022
      +-----------------------------------------------------------------------------+
      | NVIDIA-SMI 461.33       Driver Version: 461.33       CUDA Version: 11.2     |
      |-------------------------------+----------------------+----------------------+
      | GPU  Name             TCC/WDDM| Bus-Id        Disp.A | Volatile Uncorr. ECC |
      | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
      |                               |                      |               MIG M. |
      |===============================+======================+======================|
      |   0  Tesla T4            TCC  | 00000000:00:05.0 Off |                  Off |
      | N/A   30C    P8     9W /  70W |      0MiB / 16225MiB |      0%      Default |
      |                               |                      |                  N/A |
      +-------------------------------+----------------------+----------------------+
      
      +-----------------------------------------------------------------------------+
      | Processes:                                                                  |
      |  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
      |        ID   ID                                                   Usage      |
      |=============================================================================|
      |  No running processes found                                                 |
      +-----------------------------------------------------------------------------+
      
    参考

    nvidia-smiコマンドを実行すると出力される情報は、次の通りです。

    項目説明
    Driver Versionインストールされたドライバのバージョン
    CUDA Versionドライバがサポートする CUDA APIバージョン
    NameGPUモデル名
    TempGPUコアの温度
    PerfGPUの Performance State
    • P0~P12まであり、数字が小さいほど高性能
    • GPU温度と電力使用量に応じて流動的に変化
    Pwr:Usage/Cap現在 GPUが使用している電力量
    Memory-UsageGPUのメモリ使用量(現在の使用量/GPUメモリ容量)
    Volatile GPU-UtilGPU使用率
    Uncorr. ECCUncorrectable ECC(Error Correction Code)エラーの発生回数
    • NAVERクラウドプラットフォームで提供する GPU VMは、最大性能のためにデフォルトで機能がオフになっている
    MIG M.MIG(Multi Instance GPU) Mode状態
    • NAVERクラウドプラットフォームで提供する P40、T4、V100 GPUは機能をサポートしない
    Processes現在 GPUを使用しているプロセス情報
    • GPU: プロセスが動作している GPU番号
    • GI ID/CI ID: MIG(Multi-Instance GPU)機能で Sliceされた GPU Instanceと Compute Instanceの情報
    • PID、Process name: プロセスの IDと名前
    • Type: CUDA/OpenCLプロセスは C(Compute)、DirectX/OpenGLプロセスは G(Graphics)で表示
    • GPU Memory Usage: プロセスの GPUメモリ使用量

    NTKを通じた診断データの収集/伝達

    Ncloud Tool Kit(NTK)を通じて GPU VMの NVIDIAデバッグログを収集して伝達できます。
    デバッグログの収集と伝達プロセスは、次の通りです。

    1. NTK実行
    2. GPUデバックログの収集

    参考

    NTKに関する詳細は、Ncloud Tool Kit(Linux/Windows)をご参照ください。

    1. NTK実行

    Linuxサーバで NTKを実行する方法は、次の通りです。

    1. cd /usr/local/etcコマンドを入力します。
      • NTKのあるパスに遷移します。
    2. tar zxvf ntk.tar.gzコマンドを入力します。
      • NTKファイルの圧縮が展開されます。
      • ntk.tar.gzファイルがないか、このファイルを最新バージョンに置き換えるには、wget -P /usr/local/etc http://init.ncloud.com/server/ntk/linux/xen/ntk.tar.gzを入力してファイルをダウンロードします。
    3. /usr/local/etc/ntk/ntkコマンドを順に入力して NTKを実行します。

    2. GPUデバックログの収集

    NTKで GPU関連のデバッグログを収集する方法は、次の通りです。

    1. NTKメイン画面で、E EXCUTE - << Run System Apps >>を選択します。
      gpu-server-createvpc_guide28_ja

    2. G GPU DEBUG COLLECTING - FOR LOG COLLECT >>を選択します。
      gpu-server-createvpc_guide29_ja

    3. ログ収集スクリプトを実行するために、 Yes をクリックします。
      gpu-server-createvpc_guide30_ja

    4. ログ収集完了メッセージとログファイル保存パスが出力されたら、内容を確認した後に Ok を選択します。
      gpu-server-createvpc_guide31_ja

    5. NAVERクラウドのテクニカルサポートセンターへのログファイル送信有無を選択します。

    • 転送を希望する場合は Yes を選択します。ファイル送信がすぐに開始されます。送信が完了すると、成功メッセージとユーザーがログをダウンロードできる短縮 URLが表示されます。
    • 送信を希望しない場合は No を選択して終了します。
      gpu-server-createvpc_guide32_ja

    作成されたログの送信

    既に作成されたログファイルを NAVERクラウドのテクニカルサポートセンターに送信する方法は、次の通りです。

    参考

    ネットワークの不具合により NAVERクラウドのテクニカルサポートセンターにログファイルが正常に送信されない場合は、VMに保存されているログファイルを添付して転送してください。

    • ログファイルの保存パス: /usr/local/etc/ntk/logs/gpu get log
    1. NTKメイン画面で、V VIEW - << View & Upload Logs >>を選択します。
      gpu-server-createvpc_guide34_ja

    2. G - GPU DEBUG FILESを選択します。
      gpu-server-createvpc_guide35_ja

    3. 作成されたログファイルのリストを確認した後、NAVERクラウドのテクニカルサポートセンターに送信するログファイルを選択します。
      gpu-server-createvpc_guide36_ja

    4. Yes を選択します。

    • ファイル送信がすぐに開始されます。送信が完了すると、成功メッセージとユーザーがログをダウンロードできる短縮 URLが表示されます。
      gpu-server-createvpc_guide37_ja

    GPUデバッグログファイルの種類

    NTKを通じて作成される GPUログファイルは、次の通りです。

    ログファイル名使用コマンドロール
    date.logdateログ作成日時を表示
    dmesg-xid.logdmesg grep -i xidxidが含まれたカーネルメッセージを表示
    dmesg.logdmesgカーネルメッセージを表示
    free.logfree -mMB単位でメモリ使用量を表示
    last.loglastログインと再起動ログを表示
    ps.logps auxfプロセス状態を確認
    top.logtop -b -n 1top(batchモードで1回)、システム情報を表示
    uptime.loguptimeuptime結果を表示
    nvidia-bug-report.log.gzcellnvidia-bug-report.shスクリプトを実行

    GPUリソースのモニタリング

    Cloud Insightを使って GPUリソースをモニタリングできます。Cloud Insightに関する詳細は、Cloud Insightご利用ガイドをご参照ください。

    ダッシュボードの照会

    Services > Management & Governance > Cloud Insight > Dashboard メニューから Service Dashboard/Server のダッシュボードを選択すると、サーバに関する基本的なメトリックを一目で確認することができます。

    • [ウィジェットデータ変更] ボタンをクリックすると、ウィジェットに表示するデータをフィルタリングできます。
    • GPUサーバに関して確認できるメトリックは、次の通りです。
      • Current GPU MEM Usage (GPU/vmem usage(%)): GPUメモリ使用量 = GPU/vmem usage(%)
      • Current GPU MEM Usage (GPU/vmem usage(MiB)): GPUメモリ使用量 = GPU/vmem usage(MiB)
      • Current GPU Usage: GPU使用量 = GPU/usage(%)

    ダッシュボードの照会方法の詳細は、Cloud Insightのダッシュボード照会をご参照ください。

    ユーザーダッシュボードの追加

    目的のメトリックだけをモニタリングできるように、ユーザーダッシュボードを追加できます。
    [ダッシュボード作成] ボタンをクリックして新しいダッシュボードを作成し、[ウィジェット追加] ボタンをクリックして表示するウィジェットの種類とメトリック情報を設定します。

    • GPUサーバに関連するウィジェットを作成するには、データ設定時に Product TypeServer に選択する必要があります。
    • GPUに関するメトリックを設定データとして使用する場合は、必ずディメンション(gpu_idx)を GPUの数だけすべて追加する必要があります。

    ダッシュボードの追加作成方法の詳細は、Cloud Insightのダッシュボード作成をご参照ください。


    この記事は役に立ちましたか?

    What's Next
    Changing your password will log you out immediately. Use the new password to log back in.
    First name must have atleast 2 characters. Numbers and special characters are not allowed.
    Last name must have atleast 1 characters. Numbers and special characters are not allowed.
    Enter a valid email
    Enter a valid password
    Your profile has been successfully updated.