VPC環境で利用できます。
データボックスの作成が完了すると、ユーザーのメールアカウントに案内メールが送信されます。案内メールを確認し、NAVERクラウドプラットフォームコンソールにアクセスして SSL VPNのユーザー設定を完了します。次に、データボックスのアクセス情報を使用してインフラサービスにアクセスし、サンプルデータを確認した後、分析に必要なモジュールをインストールします。データ供給の申し込み後は外部ネットワークとの通信がブロックされるため、データ供給の申し込み前に必要なモジュールをインストールするか、必要なデータをダウンロードする必要があります。外部ネットワークとの通信がブロックされた後は、Object Storageの Bucketにアップロードしたファイルのみを制限的に持ち込みできます。
1. SSL VPNユーザー設定
データボックスを使用するには、SSL VPNのユーザー設定を完了する必要があります。SSL VPNユーザーを設定する方法は、次の通りです。
- NAVERクラウドプラットフォームコンソールの VPC環境で、
> Services > Big Data & Analytics > Cloud Data Box > My Spaceメニューを順にクリックします。 - 設定するボックスのタブで [SSL VPNユーザー設定] ボタンをクリックします。

- 登録可能なユーザー数を確認した後、認証に使用する Username、Password、Email、SMSの項目を入力し、 [追加] ボタンをクリックします。

- ユーザー設定が完了したら、 [閉じる] ボタンをクリックします。
SSL VPNユーザーアカウント数の変更、削除、パスワードの変更方法についての説明、データボックス管理をご参照ください。
2. インフラサービスのアクセス情報の確認
データボックスインフラサービスのアクセス情報を確認する段階です。インフラサービスのアクセス情報を確認する方法は、次の通りです。
- NAVERクラウドプラットフォームコンソールの VPC環境で、
> Services > Big Data & Analytics > Cloud Data Box > My Spaceメニューを順にクリックします。 - 作成されたデータボックスを確認し、 [サーバの詳細を見る] をクリックします。

- インフラ タブでサービスごとの IPアドレスと IDを確認します。
- Cloud Hadoopと TensorFlowの
をクリックすると、詳細を確認できます。

3. SSL VPNと Connectサーバアクセス
データボックスインフラサービスにアクセスするには、まず SSL VPNに接続した後、Connectサーバにアクセスする必要があります。
- 他の VPN接続が有効な状態で SSL VPN Agentを実行すると競合する可能性があるため、他の VPNを完全に終了してから SSL VPN Agentを実行してください。
SSL VPNを接続し、Connectサーバにアクセスする方法は、次の通りです。
- SSL VPN Agentをインストールします。
- SSL VPN Agentをインストールする方法は、SSL VPNご利用ガイド(VPC)の SSL VPN Agentをインストールするをご参照ください。
- BIG-IP Edge Clientを実行します。
- BIG-IP Edge Clientにアクセスする方法は、SSL VPNご利用ガイド(VPC)の SSL VPN Agentにアクセスをご参照ください。
- サーバアドレス: https://sslvpn-kr-vpc-01.ncloud.com
- 1. SSL VPNユーザー設定段階で登録した Username、Passwordを入力し、 [ログオン] ボタンをクリックします。
- 携帯電話またはメールに転送された OTP番号を入力し、 [ログオン] ボタンをクリックします。
- Connectサーバは Windowsサーバですので、Connectサーバにアクセスするには PCの リモートデスクトップ接続 を実行して Connectサーバの IPアドレスを入力します。その後、 [接続] ボタンをクリックしてユーザー名とパスワードを入力します。
- Connectサーバや Ncloud TensorFlow Server、または Hadoopクラスタのパスワードを忘れた場合や、パスワード初期化の案内メールを受け取った場合は、 Cloud Data Box > My Space > 詳細 画面の [パスワード初期化] ボタンをクリックしてパスワードを変更します。
データ供給の申し込み後には外部ネットワークとの通信がすべてブロックされ、pip installなどのコマンドではモジュールをインストールできません。直接インストールファイルをダウンロードした後、「ファイル持ち込み」の申し込みを通じてデータボックスにインストールファイルをインポートしてモジュールをインストールする必要があります。したがって、「データ供給」の申し込みを行う前に、サンプルデータを利用して分析コードを作成しながら必要なモジュールをすべてインストールすることをお勧めします。
4. Cloud Hadoopサーバへのアクセスと利用
Connectサーバにインストールした Puttyプログラムや Chromeブラウザで Hadoopクラスタにアクセスできます。
Cloud Hadoopとは、ユーザーに管理ツール(Ambari)とサーバへの直接アクセス権限を提供し、ユーザーが直接クラスタを管理できるようにサポートするサービスです。このガイドでは、Hadoopクラスタにアクセスする方法のみご案内し、Cloud Hadoopを使用する方法の詳細は、Cloud Hadoopご利用ガイドをご参照ください。
クラスタノードに SSHでアクセス
ppkファイルを使用して SSHで Hadoopエッジノードにアクセスする方法は、次の通りです。
-
Connectサーバで PuTTY を実行した後、アクセス情報を入力します。
- Host Name: sshuser@Hadoopエッジノード IPアドレス
- Port : 22
- Connection type : SSH
参考Hadoopエッジノード IPアドレスは、NAVERクラウドプラットフォームコンソールのインフラ情報で確認できます。
-
Connection > SSH > Auth を順にクリックした後、 [Browser] ボタンをクリックして ppkファイルを選択します。
-
Hadoopクラスタエッジノードにアクセスするには、 [Open] ボタンをクリックします。
-
全体ノードを確認するには、Hadoopクラスタにアクセスした後、以下のコマンドを入力します。
$ cat /etc/hosts- エッジノード: e-001で始まる
- マスターノード: m-001、m-002で始まる
- ワーカーノード: d-001から作成したワーカーノード数だけ

-
マスターノードやワーカーノードでアクセスするには、エッジノードにアクセスした後、以下のコマンドを入力します。 マスターノードとワーカーノードの名前は、 m-00# または d-00# (ここで#は順番を意味する)まで入力した後、 tab キーを入力すると自動で完成します。アクセス確認に yes を入力すると、エッジノードから他のノードにアクセスします。
また、他のノードにアクセスするには exit で再びエッジノードに戻った後、他のノードにアクセスします。- m-001-xxxは、上記で照会したノード名
$ ssh sshuser@m-001-xxx $ ... $ exit
Hadoopデータ保存場所確認
データボックスの申し込みを完了した後には、ファイルの持ち込み・持ち出し時に使用するために申し込んだ NASがマウントされていることを確認できます。また、データ供給の申し込みを完了した後には、申し込んだデータの NASが Read-onlyでマウントされていることを確認できます。
-
ファイルの持ち込み・持ち出しの申し込み用 nas: /mnt/nasw# (#は番号)
データボックスの作成時に申し込んだ NASは、エッジノードの /mntディレクトリ下にマウントされています。Hadoopエッジノードに SSHでアクセスした後、以下のように確認できます。$ df -h参考申し込んだ NASは Hadoopクラスタと Ncloud TensorFlow Serverに一緒にマウントされているので、データを共有することができます。顧客のバケットにファイルをアップロードした後、ファイルの持ち込みを申し込むとこの NASに保存され、この NASにファイルをアップロードしてファイルの持ち出しを申し込むと、審査後に顧客のオブジェクトストレージバケットに保存されます。
-
サンプルデータ: /user/ncp/sample
サンプルデータはデータボックスの作成後、以下の HDFSにアップロードされます。$ hdfs dfs -ls /user/ncp/sample -
提供データ nas: /mnt/xx(xx はデータのマウントディレクトリ)
提供される NAVER検索、ショッピング、AIデータは、データ供給後に /mntディレクトリ下に Read-onlyでマウントされます。Hadoopエッジノードに SSHでアクセスした後、以下のように確認できます。$ df -h参考- 申し込んだデータは、必要なデータを Hadoopに直接アップロードして使用してください。詳しい方法は、提供されたデータを Hadoopクラスタにアップロードをご参照ください。
- 新しいデータをアップロードする前に、Hadoopのストレージ容量が十分であることを確認し、Hadoopのストレージ容量が不足している場合は、不要なデータを削除してください。
5. Ncloud TensorFlow Serverへのアクセスと利用
Connectサーバから Putty、またはウェブブラウザの Chromeで TensorFlow CPU、TensorFlow GPUサーバにアクセスできます。
Jupyter Notebookにアクセス
Connectサーバから Chromeブラウザで Jupyter Notebookにアクセスする方法は、次の通りです。
- Connectサーバのデスクトップにある Chrome アイコンをダブルクリックします。
- アドレスを入力して Jupyter Notebookにアクセスします。
- http://サーバ IPアドレス:18888
- pw: データボックスの作成時に入力した pw
- 必ず httpでアクセスします。 最初のアクセス時に、アクセスまで時間がかかります。
Ncloud TensorFlow Server IPアドレスはデータボックスの [詳細] ボタンをクリックすると表示される [インフラ] タブで確認できます。
Ncloud TensorFlow Serverデータ保存場所確認
Chromeブラウザで Jupyter Notebookにログインすると、Home画面で提供されたデータ保存場所を確認できます。

| 項目 | 説明 |
|---|---|
| ① 追加ブロックストレージ | /home/ncp/workspace/blocks TesnsorFlowサーバには基本的に2TBのブロックストレージが追加提供される。提供された NASデータのうち、頻繁に使用されるデータはパフォーマンスのためにブロックストレージに保存して使用することを推奨 |
| ② ファイルの持ち込み/持ち出しの申し込み用 | nas: /home/ncp/workspace/nasw# (#は番号) ファイルの持ち込み・持ち出しの申し込み時にデータが転送される NAS データボックスの作成時に申し込んだ NASは、Hadoopクラスタにも一緒にマウントされているので、データをすぐに共有可能 |
| ③ サンプルデータ | /home/ncp/workspace/sample データボックスの作成時にサンプルデータが提供される場所。サンプルデータを活用し、必要なモジュールをインストールして分析環境を構成可能 |
| ④ 提供データ(read-only) | /home/ncp/workspace/xx (xxはデータのマウントディレクトリ) 提供される NAVER検索、ショッピング、AIデータは、データ供給の申し込み後に Jupyter homeディレクトリにマウントされて提供される。申込データの NASは読み取りのみ可能 |
'/home/ncp/workspace'は、Jupyter notebookの home directoryです。
サーバに SSHでアクセス
Ncloud TensorFlow Serverにアクセスする方法は、次の通りです。
- Connectサーバで PuTTY を実行した後、アクセス情報を入力します。
- Host Name: root@サーバ IPアドレス
- Port : 22
- Connection type : SSH
- [Open] ボタンをクリックします。
Ncloud TensorFlow Server IPアドレスはデータボックスの [詳細] ボタンをクリックすると表示される [インフラ] タブで確認できます。
Ncloud TensorFlow Server Docker再起動
TensorFlow Dockerを再起動する場合、以下のようにコマンドを入力して再起動した後、Jupyter notebookを再実行してください。
- TensorFlow CPU再起動
docker restart tf-server-mkl - TensorFlow GPU再起動
docker restart tf-server-gpu
Jupyter notebook再起動
Jupyter notebookを再起動する場合、以下のようにコマンドを入力します。
jup restartまたは
jup stop実行後、jup start