- 印刷する
- PDF
データボックスへのアクセス設定
- 印刷する
- PDF
Classic/VPC環境で利用できます。
データボックスの作成が完了すると、ユーザーのメールアカウントに案内メールが送信されます。案内メールを確認した後、NAVERクラウドプラットフォームのコンソールにアクセスしてSSL VPNユーザー設定を完了します。その後、データボックスのアクセス情報を使用してインフラサービスにアクセスし、サンプルデータを確認した後、分析に必要なモジュールをインストールします。データ供給の申込後には外部ネットワークとの通信が遮断されるので、データ供給申込の前に必要なモジュールをインストールするか、必要なデータをダウンロードする必要があります。外部ネットワークとの通信が遮断された後にはObject Storageのバケットにアップロードしたファイルのみ限定的に持ち込みできます。
1. SSL VPNユーザー設定
データボックスを使用するには、SSL VPNユーザー設定を完了する必要があります。SSL VPNユーザーを設定する方法は以下のとおりです。
- NAVERクラウドプラットフォームのコンソールで、Services > Big Data & Analytics > Cloud Data Box > My Spaceメニューを順にクリックします。
- 作成されたデータボックスを選択し、[サーバの詳細情報を見る] ボタンをクリックします。
- インフラタブで [SSL VPNユーザー設定] ボタンをクリックします。
- 登録できるユーザー数を確認した後、認証に使用するユーザー名、パスワード、メールアドレス、SMS項目を入力して [追加] ボタンをクリックします。
- ユーザー設定が完了したら [閉じる] ボタンをクリックします。
SSL VPNユーザーアカウント数の変更、削除、パスワードの変更方法についての説明は、データボックスの管理をご参照ください。
2. インフラサービスのアクセス情報の確認
データボックスインフラサービスのアクセス情報を確認する段階です。インフラサービスのアクセス情報を確認する方法は、以下のとおりです。
- NAVERクラウドプラットフォームのコンソールで、Services > Big Data & Analytics > Cloud Data Box > My Spaceメニューを順にクリックします。
- 作成されたデータボックスを確認し、[サーバの詳細情報を見る] ボタンをクリックします。
- インフラタブで商品別のIPとIDを確認します。
- Cloud HadoopとTensorFlowのをクリックすると、詳細情報を確認できます。
- Cloud HadoopとTensorFlowのをクリックすると、詳細情報を確認できます。
3. SSL VPN及びConnect Serverへのアクセス
データボックスインフラサービスにアクセスするには、まずSSL VPNにアクセスしてからConnect Serverにアクセスする必要があります。
- 他のVPN接続が有効になっている状態で、SSL VPNエージェントを実行する場合は衝突の可能性があるため、他のVPNは完全に終了させてからSSL VPNエージェントを実行してください。
SSL VPNを接続させてConnect Serverにアクセスする方法は、以下のとおりです。
- SSL VPNエージェントをインストールします。
- SSL VPNエージェントをインストールする方法は、SSL VPNユーザーガイド(VPC)のSSL VPNエージェントをインストールするを参照してください。
- BIG-IP Edge Clientを実行します。
- BIG-IP Edge Clientへのアクセス方法は、SSL VPNユーザーガイド(VPC)のSSL VPNエージェントのアクセスを参照してください。
- サーバアドレス:https://sslvpn-kr-vpc-01.ncloud.com
- 1.SSL VPNユーザー設定の段階で登録したユーザー名、パスワードを入力して [ログイン] ボタンをクリックします。
- 携帯電話またはメールに送信されたOTP番号を入力して [ログイン] ボタンをクリックします。
- Connect ServerはWindows Serverなので、Connect ServerにアクセスするためにPCのリモートデスクトップ接続を実行してConnect ServerのIPを入力した後、[接続] ボタンをクリックしてユーザー名とパスワードを入力します。
- Connect ServerやNcloud TensorFlow ServerまたはHadoopクラスタのパスワードを忘れたか、パスワード初期化の案内メールが届いた場合は、Cloud Data Box > My Space > 詳細画面の [パスワードの初期化] ボタンをクリックしてパスワードを変更してください。
データ供給の申込を行った後には外部ネットワークとの通信がすべて遮断され、pip installなどのコマンドでモジュールをインストールできません。直接インストールファイルをダウンロードし、「ファイル持ち込み」を申請してインストールファイルをデータボックスに持ち込むことでモジュールをインストールできます。したがって、「データ供給の申込」を行う前にサンプルデータを利用して分析コードを作成しながら必要なモジュールをすべてインストールすることをお勧めします。
4. Cloud Hadoop Serverへのアクセスと利用
Connect ServerにインストールされたPuTTYプログラムまたはChromeブラウザでHadoopクラスタにアクセスできます。
Cloud Hadoopは、ユーザーに管理ツール(Ambari)とサーバへの直接アクセス権限を提供してユーザーが直接クラスタを管理できるようにサポートするサービスです。このガイドではHadoopクラスタにアクセスする方法のみ説明します。Cloud Hadoopの使用方法についての詳しい説明は、Cloud Hadoopご利用ガイドを参照してください。
PEMキーの変換
PuTTYを利用してHadoopクラスタノードにアクセスするために、提供されたPEMファイルをPPKファイルに変換する必要があります。
PEMファイルをPPKファイルに変換する方法は以下のとおりです。
- Connect Serverで画面下部のSearch Windowsにputtygenと入力し、PuTTY Key Geneartorを実行します。
- 「Type of key to generate」に「RSA」が選択されたことを確認し、[Load] ボタンをクリックします。
- 「All Files(.)」を選択して「C:\Users\Public\Desktop」に提供されたPEMファイルを選択します。
- [Save private key] ボタンをクリックします。
- PuTTYで使用できる形式でキーが保存されます。
Connect ServerでPEMファイルが見えない場合、File ExplorerのViewメニューでHidden itemsを選択し、隠れたファイルが見えるように設定してください。
クラスタノードにSSHでアクセス
PPKファイルを利用してSSHでHadoopエッジノードにアクセスする方法は、以下のとおりです。
- Connect ServerでPuTTYを実行し、アクセス情報を入力します。
- Host name:sshuser@HadoopエッジノードIP
- Port : 22
- Connection type : SSH
参考HadoopエッジノードIPはNAVERクラウドプラットフォームコンソールのインフラ情報で確認できます。
- Connection > SSH > Authを順にクリックし、[Browser] ボタンをクリックしてPPKファイルを選択します。
- PPKファイルの作成方法は、PEMキーの変換をご参照ください。
- Hadoopクラスタエッジノードにアクセスするには、[Open] ボタンをクリックします。
- 全体のノードを確認するには、Hadoopクラスタにアクセスして以下のコマンドを入力します。
$ cat /etc/hosts
- エッジノード:e-001で始まる
- マスターノード:m-001、m-002で始まる
- ワーカーノード:d-001から作成したワーカーノード数のみ
- マスターノードまたはワーカーノードにアクセスするには、エッジノードにアクセスし、以下のようなコマンドを入力します。マスターノードとワーカーノードの名前は、m-00#またはd-00#(ここで#は順番)まで入力してtabキーを入力すると、自動で完成します。アクセスの確認にyesと入力すると、エッジノードから他のノードにアクセスします。
また他のノードにアクセスするには、exitでエッジノードに戻り、他のノードにアクセスします。- m-001-xxxは上記で照会したノード名
$ ssh sshuser@m-001-xxx $ ... $ exit
Hadoopデータの保存場所の確認
データボックスの申込完了後には、ファイルの持ち出しや持ち込みの際に使用するために申し込んだNASがマウントされていることが確認できます。また、データ供給の申込を完了してからは、申し込んだデータのNASが読み取り専用としてマウントされていることが確認できます。
ファイルの持ち込み/持ち出し申請用NAS : /mnt/nasw# (#は番号)
データボックスの作成時に申し込んだNASは、エッジノードの/mntディレクトリの下位にマウントされています。HadoopエッジノードにSSHでアクセスして以下のように確認できます。$ df -h
参考申し込んだNASはHadoopクラスタとNcloud TensorFlow Serverに一緒にマウントされているため、データを相互に共有できます。顧客のバケットにファイルをアップロードした後にファイル持ち込みを申し込むとこのNASに保存されます。また、このNASにファイルをアップロードしてファイル持ち出しを申請すると、審査後に顧客のObject Storageバケットに保存されます。
サンプルデータ:/user/ncp/sample
サンプルデータはデータボックスが作成された後、以下のHDFSにアップロードされます。$ hdfs dfs -ls /user/ncp/sample
提供データNAS : /mnt/xx (xxはデータのマウントディレクトリ)
提供されるNAVER検索、ショッピング、AIデータは、データの供給後に/mntディレクトリの下位に読み取り専用としてマウントされます。HadoopエッジノードにSSHでアクセスして以下のように確認できます。$ df -h
参考- 申し込んだデータは、必要なデータをHadoopに直接アップロードして使用してください。詳しい方法は、提供されたデータをHadoopクラスタにアップロードをご参照ください。
- 新規のデータをアップロードする前にHadoopの保存容量が充分であるかを確認し、Hadoopの保存容量が足りない場合は不要なデータを削除してください。
トンネリングを利用したウェブUIへのアクセス
Ambari、HUE、Zeppelin NotebookなどはIPとポートを利用してウェブUIにアクセスできますが、HDFS NameNodeのような一部のサービスはトンネリングを通じてのみウェブUIにアクセスできます。Ambari、HUE、Zeppelin Notebook以外のサービスにアクセスするには、トンネリング後にトンネリング設定の完了したウェブブラウザでアクセスする必要があります。
トンネリングを利用してウェブUIにアクセスする方法は、以下のとおりです。
- Connect ServerでPuTTYを実行し、アクセス情報を入力します。
- Host name:sshuser@HadoopエッジノードIP
- Port: 22
- Connection type: SSH
参考HadoopエッジノードIPはデータボックスの [詳細] ボタンをクリックすると表示される [インフラ] タブで確認できます。
- 画面左側のCategoryでConnection > SSH > Authを順にクリックします。
- [Browser] ボタンをクリックし、PPKファイルを選択します。
- PPKファイルの作成方法は、1. PEMキーの変換をご参照ください。
- 画面左側のCategoryでConnection > SSH > Tunnelsを順にクリックします。
- Source portに9876と入力してDynamicを選択し、[Add] ボタンをクリックします。
- 画面左側のCategoryからSessionを選択してSaved Sessionsに識別できる名前を入力した後、[Save] ボタンをクリックします。
- 設定した情報が保存されます。
- 設定情報が保存された後には保存済みの情報をロードしてアクセスできます。
- [Open] ボタンをクリックしてHadoopクラスタにアクセスします。
- Connect Serverのデスクトップ画面にあるChrome-Tunnelアイコンをダブルクリックします。
- Chrome-TunnelはChromeのショートカット属性のTargetの最後に
--proxy-server="socks5://127.0.0.1:9876"
を以下のように追加したものです。
"C:\Program Files\Google\Chrome\Application\chrome.exe" --proxy-server="socks5://127.0.0.1:9876"
- Chrome-TunnelはChromeのショートカット属性のTargetの最後に
- アドレスを入力し、Ambariにアクセスします。
- https://HadoopエッジノードIP:8443
- id: ncp
- pw:データボックス作成時に入力したパスワード
- 必ずhttpsでアクセスしてください。初回アクセスの際、アクセスするのに多少時間がかかる場合があります。
- 初回アクセスの際に警告メッセージが表示された場合、AdvancedとProceed to ... を選択します。
- Ambariにアクセスした後、サービスのQuick Linksを通じてHDFS NameNodeなど他のサービスウェブUIにアクセスできます。
5. Ncloud TensorFlow Serverへのアクセスと利用
Connect ServerでPuTTYまたはウェブブラウザであるChromeを介してTensorFlow CPUやTensorFlow GPUサーバにアクセスできます。
Jupyter Notebookへのアクセス
Connect Serverで、Chromeブラウザを通じてJupyter Notebookにアクセスする方法は以下のとおりです。
- Connect Serverのデスクトップ画面にあるChromeアイコンをダブルクリックします。
- アドレスを入力してJupyter Notebookにアクセスします。
- http://サーバIP:18888
- pw:データボックス作成時に入力したパスワード
- 必ずhttpsでアクセスしてください。初回アクセスの際、アクセスするのに多少時間がかかる場合があります。
Ncloud TensorFlow Server IPはデータボックスの [詳細] ボタンをクリックすると表示される [インフラ] タブで確認できます。
Ncloud TensorFlow Serverデータの保存場所の確認
ChromeブラウザからJupyter Notebookにログインすると、Home画面で提供されたデータの保存場所を確認できます。
項目 | 説明 |
---|---|
① 追加ブロックストレージ | /home/ncp/workspace/blocks Ncloud TensorFlow Serverには基本的にブロックストレージの2TBが追加提供される。提供されたNASデータのうち、よく使用されるデータは性能のためにブロックストレージに保存して使用することをお勧めする |
② ファイルの持ち込み/持ち出しの申請用 | nas: /home/ncp/workspace/nasw# (#は番号) ファイルの持ち込みや持ち出しの申請時にデータが伝達されるNAS。 データボックス作成時に申し込んだNASはHadoopクラスタにも一緒にマウントされているため、データをすぐ共有できる |
③ サンプルデータ | /home/ncp/workspace/sample データボックス作成時にサンプルデータが提供される位置。サンプルデータを活用して必要なモジュールをインストールして分析環境を構成できる |
④ 提供データ(読み取り専用) | /home/ncp/workspace/xx(xxはデータのマウントディレクトリ) 提供されるNAVER検索、ショッピング、AIデータは、データ供給の申込後にJupyterホームディレクトリにマウントされ提供される。申し込んだデータのNASは読み取りのみできる |
「/home/ncp/workspace」はJupyter Notebookのホームディレクトリです。
サーバにSSHでアクセス
Ncloud TensorFlow Serverにアクセスする方法は以下のとおりです。
- Connect ServerでPuTTYを実行し、アクセス情報を入力します。
- Host name:root@サーバIP
- Port : 22
- Connection type : SSH
- [Open] ボタンをクリックします。
Ncloud TensorFlow Server IPはデータボックスの [詳細] ボタンをクリックすると表示される [インフラ] タブで確認できます。
Ncloud TensorFlow Server Dockerの再起動
TensorFlow Dockerを再起動する必要がある場合、以下のようなコマンドを入力して再起動し、Jupyter Notebookを再起動してください。
- TensorFlow CPUの再起動
docker restart tf-server-mkl
- TensorFlow GPUの再起動
docker restart tf-server-gpu
Jupyter Notebookの再起動
Jupyter Notebookを再起動する必要がある場合、以下のようなコマンドを入力してください。
jup restartまたは
jup stopの実行後にjup start