各 Box別データ分析

Prev Next

VPC環境で利用できます。

1. Boxにアクセス

アナリストは対象データの分析のために渡された Box情報で Boxにアクセスします。Boxへのアクセス方法と Box内部の分析環境へのアクセス方法をご案内します。

参考

アナリストは SSL-VPNに接続した後、Boxへアクセスする必要があります。SSL-VPNに関する内容は、SSL-VPN設定で確認できます。

Connect Serverアクセス

ボックスにインストールした Cloud Hadoopと Tensor Flowを利用するには、Connect Serverにアクセスする必要があります。Connect Serverへのアクセス方法をご案内します。

  1. Connectサーバは Windowsサーバですので、Connectサーバにアクセスするには PCのリモートデスクトップ接続を実行して Connectサーバの IPアドレスを入力します。その後、 [接続] ボタンをクリックしてユーザー名とパスワードを入力します。
  2. Connect Serverのパスワードを忘れたり、5回以上間違って入力する場合、管理者が SSL VPNユーザー設定 ページでパスワードを再設定できます。

データ保存場所確認

すべての Connect Serverは同じ Driveに NASがマウントされ、Driveの場所は以下のルールに従います。

  • ファイルの持ち込み/持ち出しの申し込み用 NAS: マウントされる順に F、E、B、A Driveにマウントされます。
  • 提供データ NAS: マウントされる順に Z~G Driveに read-only権限でマウントされます。

Connect Server NAS使用上の注意事項

注意

現在 Connect Serverで NASは制限的に使用できます。以下の項目を十分にご検討のうえ、使用してください。

文字エンコード方式不一致

Databox Frameで提供する NASは、Linuxサーバで使用可能な NFSプロトコルを使用します。Linuxと Windowsの相互の OS間に使用するエンコード方式が異なるので、以下の問題が発生することがあります。

  • ファイル名を韓国語で作成した場合、各 OSでファイル名が正確でないことがあります。
    • Windowsで NASにファイルを作成する場合、ファイル名を韓国語で作成すると Windowsと Linuxでファイル名が不明な形式に表示されます。
    • Windowsで NASにファイルを作成する場合、ファイル名を韓国語で作成すると Windowsと Linuxでファイル名が不明な形式で表示されます。
  • ファイルの持ち込み時にファイル名が韓国語の場合、Windowsではファイル名が不明な形式で表示されます。
  • ファイルの持ち出し時にファイル名は、Linuxで表示されるファイル名が基準です。Windowsで作成したファイル名が韓国語のファイルは、Linuxで不明な形式で表示されるので持ち出しはできません。
  • Windowと Linuxの改行文字の差によってファイル内容が各々異なることがあります。

ファイルとフォルダで使用可能なアクション

Connect Serverで NASのファイルとフォルダで使用可能なアクションは、次の通りです。

ファイル

GUI (file explorer) コマンドプロンプト
作成 O(名前指定不可) O
読み取り O O
コピー O O
移動 O O
削除 O O
名前の変更 X O
ファイル内容の変更 O -

フォルダ

GUI (file explorer) コマンドプロンプト
作成 O(名前指定不可) O
コピー O O
移動 O X
削除 O O
名前の変更 X X

Cloud Hadoopへのアクセスと利用

Connectサーバにインストールした Puttyプログラムや Chromeブラウザで Hadoopクラスタにアクセスできます。

参考

Cloud Hadoopとは、ユーザーに管理ツール(Ambari)とサーバへの直接アクセス権限を提供し、ユーザーが直接クラスタを管理できるようにサポートするサービスです。このガイドでは、Hadoopクラスタにアクセスする方法のみご案内し、Cloud Hadoopを使用する方法の詳細は、Cloud Hadoopご利用ガイドをご参照ください。

Pemキー変換

PuTTYを使用して Hadoopクラスタノードにアクセスするために提供された pemファイルを ppkファイルに変換する必要があります。
pemファイルを ppkファイルに変換する方法は、次の通りです。

  1. Connectサーバで画面下の Search Windowsに puttygenを入力した後、PuTTY Key Generatorを実行します。
  2. 「Type of key to generate」に「RSA」が選択されているか確認した後、 [Load] ボタンをクリックします。
  3. 「All Files(.)」を選択し、「C:\Users\Public\Desktop」に提供された pemファイルを選択します。
  4. [Save private key] ボタンをクリックします。
  5. PuTTYで使用できる形式でキーを保存します。
参考

Connectサーバに pemファイルが表示去れない場合、File Explorerの Viewメニューの Hidden itemsを選択して隠しファイルを表示すうよう設定します。

クラスタノードに SSHでアクセス

ppkファイルを使用して SSHで Hadoopエッジノードにアクセスする方法は、次の通りです。

  • Connectサーバで PuTTYを実行した後、アクセス情報を入力します。
    • Host Name: sshuser@Hadoopエッジノード IPアドレス
    • Port : 22
    • Connection type : SSH
参考

Hadoopエッジノード IPアドレスは、NAVERクラウドプラットフォームコンソールのインフラ情報で確認できます。

  • Connection > SSH > Authを順にクリックした後、 [Browser] ボタンをクリックして ppkファイルを選択します。

    • ppkファイルを作成する方法は、pemキー変換をご参照ください。
  • Hadoopクラスタエッジノードにアクセスするには、 [Open] ボタンをクリックします。

  • 全体ノードを確認するには、Hadoopクラスタにアクセスした後、以下のコマンドを入力します。

    $ cat /etc/hosts 
    
    • エッジノード: e-001で始まる
    • マスターノード: m-001、m-002で始まる
    • ワーカーノード: d-001から作成したワーカーノード数だけ
  • マスターノードやワーカーノードでアクセスするには、エッジノードにアクセスした後、以下のコマンドを入力します。マスターノードとワーカーノードの名前は、m-00# または d-00#(ここで#は順番を意味する)まで入力した後、tabキーを入力すると自動で完成します。アクセス確認に yesを入力すると、エッジノードから他のノードにアクセスします。
    また、他のノードにアクセスするには exitで再びエッジノードに戻った後、他のノードにアクセスします。

  1. m-001-xxxは、上記で照会したノード名
$ ssh sshuser@m-001-xxx 
$ ...
$ exit

データ保存場所確認

Box内部でファイルの持ち込み・持ち出し時に使用するために申し込んだ NASがマウントされていることを確認できます。また、データ供給の申し込みを完了した後は申し込んだデータの NASが Read-onlyでマウントされていることを確認できます。

  • ファイル持ち込み/持ち出しの申し込み用 NAS: /mnt/nasw*

    • ファイル持ち込み/持ち出しの申し込み用 NASは、エッジノードの/mntサブディレクトリにマウントされています。Hadoopエッジノードに SSHでアクセスした後、以下のように確認できます。
    $ df -h
    
  • 提供データ NAS: /mnt/nasr/pub*

    • Data Box Frameで提供されるデータは、データ供給後に/mntのサブディレクトリに Read-onlyでマウントされます。Hadoopエッジノードに SSHでアクセスした後、以下のように確認できます。
    $ df -h
    

Tensor Flowへのアクセスと利用

Connectサーバから Putty、またはウェブブラウザの Chromeで TensorFlow CPU、TensorFlow GPUサーバにアクセスできます。

Jupyter Notebookにアクセス

Connectサーバから Chromeブラウザで Jupyter Notebookにアクセスする方法は、次の通りです。

  1. Connectサーバのデスクトップにある Chromeアイコンをダブルクリックします。
  2. アドレスを入力して Jupyter Notebookにアクセスします。
    • http://サーバ IPアドレス:18888
    • pw: データボックスの作成時に入力した pw
    • 必ず httpでアクセスします。最初のアクセス時に、アクセスまで時間がかかります。

サーバに SSH接続

Ncloud TensorFlow Serverにアクセスする方法は、次の通りです。

  1. Connectサーバで PuTTYを実行した後、アクセス情報を入力します。
    • Host Name: root@サーバ IPアドレス
    • Port : 22
    • Connection type : SSH
  2. [Open] ボタンをクリックします。

Ncloud TensorFlow Server Docker再起動

TensorFlow Dockerを再起動する場合、以下のようにコマンドを入力して再起動した後、Jupyter notebookを再実行してください。

  • TensorFlow CPU再起動
    docker restart tf-server-mkl  
    
  • TensorFlow GPU再起動
    docker restart tf-server-gpu
    

Jupyter Notebook再起動

Jupyter notebookを再起動する場合、以下のようにコマンドを入力します。

jup restartまたは
jup stop実行後、jup start

2. 共用データ分析

Data Box Frame管理者が適用する共用 NASにあるデータをすぐ分析するか、HDFSに読み取って使用できます。共用データは、以下のディレクトリにあります。

  • /mnt/nasr/pub*
参考
  • 共用データがない場合、Data Box Frameの管理者に共用データの閲覧ステータス変更の確認をリクエストします。

3. 分析結果保存

Box内部データで表示された結果は、個別保存場所で外部に持ち出せます。個別保存場所は、以下のディレクトリにあります。