- 印刷する
- PDF
各 Box別データ分析
- 印刷する
- PDF
VPC環境で利用できます。
1. Boxにアクセス
分析者は対象データの分析のために渡された Box情報で Boxにアクセスします。Boxへのアクセス方法と Box内部の分析環境へのアクセス方法をご案内します。
分析者は SSL-VPNに接続した後、Boxへアクセスする必要があります。SSL-VPNに関する内容は、SSL-VPN設定で確認できます。
Connect Serverアクセス
ボックスにインストールした Cloud Hadoopと Tensor Flowを利用するには、Connect Serverにアクセスする必要があります。Connect Serverへのアクセス方法をご案内します。
- Connectサーバは Windowsサーバですので、Connectサーバにアクセスするには PCのリモートデスクトップに接続して Connectサーバの IPアドレスを入力します。その後、 [接続] ボタンをクリックしてユーザー名とパスワードを入力します。
- Connect Serverのパスワードを忘れたり、5回以上間違って入力する場合、管理者が SSL VPNユーザー設定 ページでパスワードを再設定できます。
データ保存場所確認
すべての Connect Serverは同じ Driveに NASがマウントされ、Driveの場所は以下のルールに従います。
- ファイルの持ち込み/持ち出しの申し込み用 NAS: マウントされる順に F、E、B、A Driveにマウントされます。
- 提供データ NAS: マウントされる順に Z~G Driveに read-only権限でマウントされます。
Connect Server NAS使用上の注意事項
現在 Connect Serverで NASは制限的に使用できます。以下の項目を十分にご検討のうえ、使用してください。
文字エンコード方式不一致
Databox Frameで提供する NASは、Linuxサーバで使用可能な NFSプロトコルを使用します。Linuxと Windowsの相互の OS間に使用するエンコード方式が異なるので、以下の問題が発生することがあります。
- ファイル名を韓国語で作成した場合、各 OSでファイル名が正確でないことがあります。
- Windowsで NASにファイルを作成する場合、ファイル名を韓国語で作成すると Windowsと Linuxでファイル名が不明な形式に表示されます。
- Windowsで NASにファイルを作成する場合、ファイル名を韓国語で作成すると Windowsと Linuxでファイル名が不明な形式で表示されます。
- ファイルの持ち込み時にファイル名が韓国語の場合、Windowsではファイル名が不明な形式で表示されます。
- ファイルの持ち出し時にファイル名は、Linuxで表示されるファイル名が基準です。Windowsで作成したファイル名が韓国語のファイルは、Linuxで不明な形式で表示されるので持ち出しはできません。
- Windowと Linuxの改行文字の差によってファイル内容が各々異なることがあります。
ファイルとフォルダで使用可能なアクション
Connect Serverで NASのファイルとフォルダで使用可能なアクションは、次の通りです。
ファイル
GUI (file explorer) | コマンドプロンプト | |
---|---|---|
作成 | O(名前指定不可) | O |
読み取り | O | O |
コピー | O | O |
移動 | O | O |
削除 | O | O |
名前の変更 | X | O |
ファイル内容の変更 | O | - |
フォルダ
GUI (file explorer) | コマンドプロンプト | |
---|---|---|
作成 | O(名前指定不可) | O |
コピー | O | O |
移動 | O | X |
削除 | O | O |
名前の変更 | X | X |
Cloud Hadoopへのアクセスと利用
Connectサーバにインストールした Puttyプログラムや Chromeブラウザで Hadoopクラスタにアクセスできます。
Cloud Hadoopとは、ユーザーに管理ツール(Ambari)とサーバへの直接アクセス権限を提供し、ユーザーが直接クラスタを管理できるようにサポートするサービスです。このガイドでは、Hadoopクラスタにアクセスする方法のみご案内し、Cloud Hadoopを使用する方法の詳細は、Cloud Hadoopご利用ガイドをご参照ください。
Pemキー変換
PuTTYを使用して Hadoopクラスタノードにアクセスするために提供された pemファイルを ppkファイルに変換する必要があります。
pemファイルを ppkファイルに変換する方法は、次の通りです。
- Connectサーバで画面下の Search Windowsに puttygenを入力した後、PuTTY Key Generatorを実行します。
- 「Type of key to generate」に「RSA」が選択されているか確認した後、 [Load] ボタンをクリックします。
- 「All Files(.)」を選択し、「C:\Users\Public\Desktop」に提供された pemファイルを選択します。
- [Save private key] ボタンをクリックします。
- PuTTYで使用できる形式でキーを保存します。
Connectサーバに pemファイルが表示去れない場合、File Explorerの Viewメニューの Hidden itemsを選択して隠しファイルを表示すうよう設定します。
クラスタノードに SSHでアクセス
ppkファイルを使用して SSHで Hadoopエッジノードにアクセスする方法は、次の通りです。
- Connectサーバで PuTTYを実行した後、アクセス情報を入力します。
- Host Name : sshuser@Hadoopエッジノード IPアドレス
- Port : 22
- Connection type : SSH
Hadoopエッジノード IPアドレスは、NAVERクラウドプラットフォームコンソールのインフラ情報で確認できます。
Connection > SSH > Authを順にクリックした後、 [Browser] ボタンをクリックして ppkファイルを選択します。
- ppkファイルを作成する方法は、pemキー変換をご参照ください。
Hadoopクラスタエッジノードにアクセスするには、 [Open] ボタンをクリックします。
全体ノードを確認するには、Hadoopクラスタにアクセスした後、以下のコマンドを入力します。
$ cat /etc/hosts
- エッジノード: e-001で始まる
- マスターノード: m-001、m-002で始まる
- ワーカーノード: d-001から作成したワーカーノード数だけ
マスターノードやワーカーノードでアクセスするには、エッジノードにアクセスした後、以下のコマンドを入力します。マスターノードとワーカーノードの名前は、m-00#、または d-00#(ここで#は順番を意味)まで入力した後、tabキーを入力すると自動で完成します。アクセス確認に yesを入力すると、エッジノードから他のノードにアクセスします。
また、他のノードにアクセスするには exitで再びエッジノードに戻った後、他のノードにアクセスします。
- m-001-xxxは、上記で照会したノード名
$ ssh sshuser@m-001-xxx
$ ...
$ exit
データ保存場所確認
Box内部でファイルの持ち込み・持ち出し時に使用するために申し込んだ NASがマウントされていることを確認できます。また、データ供給の申し込みを完了した後は申し込んだデータの NASが Read-onlyでマウントされていることを確認できます。
ファイル持ち込み/持ち出しの申し込み用 NAS: /mnt/nasw*
- ファイル持ち込み/持ち出しの申し込み用 NASは、エッジノードの/mntサブディレクトリにマウントされています。Hadoopエッジノードに SSHでアクセスした後、以下のように確認できます。
$ df -h
提供データ NAS: /mnt/nasr/pub*
- Data Box Frameで提供されるデータは、データ供給後に/mntのサブディレクトリに Read-onlyでマウントされます。Hadoopエッジノードに SSHでアクセスした後、以下のように確認できます。
$ df -h
トンネリングを使用したウェブ UIアクセス
Ambari、Hue、Zeppelin Notebookなどは IPアドレスとポートを使用してウェブ UIにアクセスできますが、 HDFS NameNodeのような一部のサービスはトンネリングでのみウェブ UIにアクセスできます。Ambari、Hue、Zeppelin Notebook以外のサービスにアクセスするには、トンネリング後にトンネリング設定が完了したウェブブラウザでアクセスする必要があります。
トンネリングでウェブ UIにアクセスする方法は、次の通りです。
- Connectサーバで PuTTYを実行した後、アクセス情報を入力します。
- Host Name: sshuser@Hadoopエッジノード IPアドレス
- Port : 22
- Connection type: SSH
- Putty画面左の Categoryで Connection > SSH > Auth を順にクリックします。
- [Browser] ボタンをクリックした後、ppkファイルを選択します。
- ppkファイルを作成する方法は、pemキー変換をご参照ください。
- 画面左の Categoryで、 Connection > SSH > Tunnels を順にクリックします。
- Source portに9876を入力して Dynamicを選択した後、 [Add] ボタンをクリックします。
- 画面左の Categoryで Sessionを選択して Saved Sessionsに識別できる名前を入力した後、 [Save] ボタンをクリックします。
- 設定した情報を保存し、保存した情報で以降アクセスできます。
- [Open] ボタンをクリックして Hadoopクラスタにアクセスします。
- Connectサーバのデスクトップにある Chrome-Tunnelアイコンをダブルクリックします。
- Chrome-Tunnelは Chromeに移動する Propertiesの Targetの末尾に--proxy-server="socks5://127.0.0.1:9876"を以下のように追加します。
"C:\Program Files\Google\Chrome\Application\chrome.exe" --proxy-server="socks5://127.0.0.1:9876"
- Chrome-Tunnelは Chromeに移動する Propertiesの Targetの末尾に--proxy-server="socks5://127.0.0.1:9876"を以下のように追加します。
- アドレスを入力して Ambariにアクセスします。
- https://하둡엣지노드IP:8443
- ID : ncp
- PW: Boxの作成時に入力したパスワード
- 必ず httpsでアクセスします。最初のアクセス時に、アクセスまで時間がかかります。
- 最初のアクセス時に警告メッセージが表示される場合、Advancedと Proceed to...を選択します。
- Ambariにアクセス後、サービスの Quick Linksで HDFS NameNodeなどの他のサービスウェブ UIにアクセスできます。
Tensor Flowへのアクセスと利用
Connectサーバから Putty、またはウェブブラウザの Chromeで TensorFlow CPU、TensorFlow GPUサーバにアクセスできます。
Jupyter Notebookにアクセス
Connectサーバから Chromeブラウザで Jupyter Notebookにアクセスする方法は、次の通りです。
- Connectサーバのデスクトップにある Chromeアイコンをダブルクリックします。
- アドレスを入力して Jupyter Notebookにアクセスします。
- http://サーバ IPアドレス:18888
- pw: データボックスの作成時に入力した pw
- 必ず httpでアクセスします。最初のアクセス時に、アクセスまで時間がかかります。
サーバに SSH接続
Ncloud TensorFlow Serverにアクセスする方法は、次の通りです。
- Connectサーバで PuTTYを実行した後、アクセス情報を入力します。
- Host Name: root@サーバ IPアドレス
- Port : 22
- Connection type : SSH
- [Open] ボタンをクリックします。
Ncloud TensorFlow Server Docker再起動
TensorFlow Dockerを再起動する場合、以下のようにコマンドを入力して再起動した後、Jupyter notebookを再実行してください。
- TensorFlow CPU再起動
docker restart tf-server-mkl
- TensorFlow GPU再起動
docker restart tf-server-gpu
Jupyter Notebook再起動
Jupyter notebookを再起動する場合、以下のようにコマンドを入力します。
jup restartまたは
jup stop実行後、jup start
2. 共用データ分析
Data Box Frame管理者が適用する共用 NASにあるデータをすぐ分析するか、HDFSに読み取って使用できます。共用データは、以下のディレクトリにあります。
- /mnt/nasr/pub*
- 共用データがない場合、Data Box Frameの管理者に共用データの閲覧状態変更の確認をリクエストします。
3. 分析結果保存
Box内部データで表示された結果は、個別保存場所で外部に持ち出せます。個別保存場所は、以下のディレクトリにあります。
- /mnt/nasw*