データボックスのアクセス設定

Prev Next

VPC環境で利用できます。

データボックスの作成が完了すると、ユーザーのメールアカウントに案内メールが送信されます。案内メールを確認し、NAVERクラウドプラットフォームコンソールにアクセスして SSL VPNのユーザー設定を完了します。次に、データボックスのアクセス情報を使用してインフラサービスにアクセスし、サンプルデータを確認した後、分析に必要なモジュールをインストールします。データ供給の申し込み後は外部ネットワークとの通信がブロックされるため、データ供給の申し込み前に必要なモジュールをインストールするか、必要なデータをダウンロードする必要があります。外部ネットワークとの通信がブロックされた後は、Object Storageの Bucketにアップロードしたファイルのみを制限的に持ち込みできます。

1. SSL VPNユーザー設定

データボックスを使用するには、SSL VPNのユーザー設定を完了する必要があります。SSL VPNユーザーを設定する方法は、次の通りです。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、 i_menu > Services > Big Data & Analytics > Cloud Data Box > My Spaceメニューを順にクリックします。
  2. 設定するボックスのタブで [SSL VPNユーザー設定] ボタンをクリックします。
    clouddatabox-connect_sslvpn01_new_ko
  3. 登録可能なユーザー数を確認した後、認証に使用する Username、Password、Email、SMSの項目を入力し、 [追加] ボタンをクリックします。
    clouddatabox-connect_sslvpn02_new_ko
  4. ユーザー設定が完了したら、 [閉じる] ボタンをクリックします。
参考

SSL VPNユーザーアカウント数の変更、削除、パスワードの変更方法についての説明、データボックス管理をご参照ください。

2. インフラサービスのアクセス情報の確認

データボックスインフラサービスのアクセス情報を確認する段階です。インフラサービスのアクセス情報を確認する方法は、次の通りです。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、 i_menu > Services > Big Data & Analytics > Cloud Data Box > My Spaceメニューを順にクリックします。
  2. 作成されたデータボックスを確認し、 [サーバの詳細を見る] をクリックします。
    clouddatabox-datarequest_add01_new_ko
  3. インフラ タブでサービスごとの IPアドレスと IDを確認します。
  • Cloud Hadoopと TensorFlowの clouddatabox-openをクリックすると、詳細を確認できます。
    clouddatabox-datarequest_add02_new_ko

3. SSL VPNと Connectサーバアクセス

データボックスインフラサービスにアクセスするには、まず SSL VPNに接続した後、Connectサーバにアクセスする必要があります。

注意
  • 他の VPN接続が有効な状態で SSL VPN Agentを実行すると競合する可能性があるため、他の VPNを完全に終了してから SSL VPN Agentを実行してください。

SSL VPNを接続し、Connectサーバにアクセスする方法は、次の通りです。

  1. SSL VPN Agentをインストールします。
  2. BIG-IP Edge Clientを実行します。
    • BIG-IP Edge Clientにアクセスする方法は、SSL VPNご利用ガイド(VPC)の SSL VPN Agentにアクセスをご参照ください。
    • サーバアドレス: https://sslvpn-kr-vpc-01.ncloud.com
  3. 1. SSL VPNユーザー設定段階で登録した Username、Passwordを入力し、 [ログオン] ボタンをクリックします。
  4. 携帯電話またはメールに転送された OTP番号を入力し、 [ログオン] ボタンをクリックします。
  5. Connectサーバは Windowsサーバですので、Connectサーバにアクセスするには PCの リモートデスクトップ接続 を実行して Connectサーバの IPアドレスを入力します。その後、 [接続] ボタンをクリックしてユーザー名とパスワードを入力します。
    • Connectサーバや Ncloud TensorFlow Server、または Hadoopクラスタのパスワードを忘れた場合や、パスワード初期化の案内メールを受け取った場合は、 Cloud Data Box > My Space > 詳細 画面の [パスワード初期化] ボタンをクリックしてパスワードを変更します。
参考

データ供給の申し込み後には外部ネットワークとの通信がすべてブロックされ、pip installなどのコマンドではモジュールをインストールできません。直接インストールファイルをダウンロードした後、「ファイル持ち込み」の申し込みを通じてデータボックスにインストールファイルをインポートしてモジュールをインストールする必要があります。したがって、「データ供給」の申し込みを行う前に、サンプルデータを利用して分析コードを作成しながら必要なモジュールをすべてインストールすることをお勧めします。

4. Cloud Hadoopサーバへのアクセスと利用

Connectサーバにインストールした Puttyプログラムや Chromeブラウザで Hadoopクラスタにアクセスできます。

参考

Cloud Hadoopとは、ユーザーに管理ツール(Ambari)とサーバへの直接アクセス権限を提供し、ユーザーが直接クラスタを管理できるようにサポートするサービスです。このガイドでは、Hadoopクラスタにアクセスする方法のみご案内し、Cloud Hadoopを使用する方法の詳細は、Cloud Hadoopご利用ガイドをご参照ください。

クラスタノードに SSHでアクセス

ppkファイルを使用して SSHで Hadoopエッジノードにアクセスする方法は、次の通りです。

  1. Connectサーバで PuTTY を実行した後、アクセス情報を入力します。

    • Host Name: sshuser@Hadoopエッジノード IPアドレス
    • Port : 22
    • Connection type : SSH
    参考

    Hadoopエッジノード IPアドレスは、NAVERクラウドプラットフォームコンソールのインフラ情報で確認できます。

  2. Connection > SSH > Auth を順にクリックした後、 [Browser] ボタンをクリックして ppkファイルを選択します。

  3. Hadoopクラスタエッジノードにアクセスするには、 [Open] ボタンをクリックします。

  4. 全体ノードを確認するには、Hadoopクラスタにアクセスした後、以下のコマンドを入力します。

    $ cat /etc/hosts 
    
    • エッジノード: e-001で始まる
    • マスターノード: m-001、m-002で始まる
    • ワーカーノード: d-001から作成したワーカーノード数だけ
      databox-connect-03
  5. マスターノードやワーカーノードでアクセスするには、エッジノードにアクセスした後、以下のコマンドを入力します。 マスターノードとワーカーノードの名前は、 m-00# または d-00# (ここで#は順番を意味する)まで入力した後、 tab キーを入力すると自動で完成します。アクセス確認に yes を入力すると、エッジノードから他のノードにアクセスします。
    また、他のノードにアクセスするには exit で再びエッジノードに戻った後、他のノードにアクセスします。

    • m-001-xxxは、上記で照会したノード名
    $ ssh sshuser@m-001-xxx 
    $ ...
    $ exit
    

Hadoopデータ保存場所確認

データボックスの申し込みを完了した後には、ファイルの持ち込み・持ち出し時に使用するために申し込んだ NASがマウントされていることを確認できます。また、データ供給の申し込みを完了した後には、申し込んだデータの NASが Read-onlyでマウントされていることを確認できます。

  • ファイルの持ち込み・持ち出しの申し込み用 nas: /mnt/nasw# (#は番号)
    データボックスの作成時に申し込んだ NASは、エッジノードの /mntディレクトリ下にマウントされています。Hadoopエッジノードに SSHでアクセスした後、以下のように確認できます。

    $ df -h
    
    参考

    申し込んだ NASは Hadoopクラスタと Ncloud TensorFlow Serverに一緒にマウントされているので、データを共有することができます。顧客のバケットにファイルをアップロードした後、ファイルの持ち込みを申し込むとこの NASに保存され、この NASにファイルをアップロードしてファイルの持ち出しを申し込むと、審査後に顧客のオブジェクトストレージバケットに保存されます。

  • サンプルデータ: /user/ncp/sample
    サンプルデータはデータボックスの作成後、以下の HDFSにアップロードされます。

    $ hdfs dfs -ls /user/ncp/sample
    
  • 提供データ nas: /mnt/xx(xx はデータのマウントディレクトリ)
    提供される NAVER検索、ショッピング、AIデータは、データ供給後に /mntディレクトリ下に Read-onlyでマウントされます。Hadoopエッジノードに SSHでアクセスした後、以下のように確認できます。

    $ df -h
    
    参考
    • 申し込んだデータは、必要なデータを Hadoopに直接アップロードして使用してください。詳しい方法は、提供されたデータを Hadoopクラスタにアップロードをご参照ください。
    • 新しいデータをアップロードする前に、Hadoopのストレージ容量が十分であることを確認し、Hadoopのストレージ容量が不足している場合は、不要なデータを削除してください。

5. Ncloud TensorFlow Serverへのアクセスと利用

Connectサーバから Putty、またはウェブブラウザの Chromeで TensorFlow CPU、TensorFlow GPUサーバにアクセスできます。

Jupyter Notebookにアクセス

Connectサーバから Chromeブラウザで Jupyter Notebookにアクセスする方法は、次の通りです。

  1. Connectサーバのデスクトップにある Chrome アイコンをダブルクリックします。
  2. アドレスを入力して Jupyter Notebookにアクセスします。
    • http://サーバ IPアドレス:18888
    • pw: データボックスの作成時に入力した pw
    • 必ず httpでアクセスします。 最初のアクセス時に、アクセスまで時間がかかります。
参考

Ncloud TensorFlow Server IPアドレスはデータボックスの [詳細] ボタンをクリックすると表示される [インフラ] タブで確認できます。

Ncloud TensorFlow Serverデータ保存場所確認

Chromeブラウザで Jupyter Notebookにログインすると、Home画面で提供されたデータ保存場所を確認できます。
databox-connect-11

項目 説明
① 追加ブロックストレージ /home/ncp/workspace/blocks
TesnsorFlowサーバには基本的に2TBのブロックストレージが追加提供される。提供された NASデータのうち、頻繁に使用されるデータはパフォーマンスのためにブロックストレージに保存して使用することを推奨
② ファイルの持ち込み/持ち出しの申し込み用 nas: /home/ncp/workspace/nasw# (#は番号)
ファイルの持ち込み・持ち出しの申し込み時にデータが転送される NAS
データボックスの作成時に申し込んだ NASは、Hadoopクラスタにも一緒にマウントされているので、データをすぐに共有可能
③ サンプルデータ /home/ncp/workspace/sample
データボックスの作成時にサンプルデータが提供される場所。サンプルデータを活用し、必要なモジュールをインストールして分析環境を構成可能
④ 提供データ(read-only) /home/ncp/workspace/xx (xxはデータのマウントディレクトリ)
提供される NAVER検索、ショッピング、AIデータは、データ供給の申し込み後に Jupyter homeディレクトリにマウントされて提供される。申込データの NASは読み取りのみ可能
参考

'/home/ncp/workspace'は、Jupyter notebookの home directoryです。

サーバに SSHでアクセス

Ncloud TensorFlow Serverにアクセスする方法は、次の通りです。

  1. Connectサーバで PuTTY を実行した後、アクセス情報を入力します。
    • Host Name: root@サーバ IPアドレス
    • Port : 22
    • Connection type : SSH
  2. [Open] ボタンをクリックします。
参考

Ncloud TensorFlow Server IPアドレスはデータボックスの [詳細] ボタンをクリックすると表示される [インフラ] タブで確認できます。

Ncloud TensorFlow Server Docker再起動

TensorFlow Dockerを再起動する場合、以下のようにコマンドを入力して再起動した後、Jupyter notebookを再実行してください。

  • TensorFlow CPU再起動
    docker restart tf-server-mkl  
    
  • TensorFlow GPU再起動
    docker restart tf-server-gpu
    

Jupyter notebook再起動

Jupyter notebookを再起動する場合、以下のようにコマンドを入力します。

jup restartまたは
jup stop実行後、jup start