データ供給

Prev Next

VPC環境で利用できます。

データ供給を申し込む方法と、データボックスの作成時に選択できなかった追加データを申し込む方法、約定された期間中に最新のデータを提供されるインサイトオプションを申し込む方法について説明します。

データ供給の申し込み

データボックスのアクセス設定を完了した後、申し込んだデータを提供されるためには、データ供給の申し込みを行います。データ供給の申し込み後には外部ネットワークとの通信がブロックされ、ユーザーが申し込んだデータが提供されます。
データ供給を申し込む方法は、次の通りです。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、 i_menu > Services > Big Data & Analytics > Cloud Data Box > My Spaceメニューを順にクリックします。
  2. 作成されたデータボックスを選択し、 [データ供給の申し込み] ボタンをクリックします。
    clouddatabox-datarequest_datarequest01_new_ko
  3. データ供給の申し込みウィンドウが表示されたら、データボックス名を入力してから [確認] ボタンをクリックします。
  4. データ供給がすべて完了するまで5~10分程度時間がかかり、供給が完了すると、 データボックスのステータスデータ供給の申し込み から データ供給済み に変更されます。
参考
  • 基本提供データはデータリストに表示されません。供給されたデータの詳細状況は、ボックスの [サーバの詳細を見る] > [データ] タブで確認できます。
注意
  • データ供給の申し込み後には外部ネットワークとの通信がブロックされ、以前のステータスに戻すことはできません。
  • データ供給の申し込み後には TensorFlow Dockerと Jupyterが再起動しますので、進行中のタスクがある場合は必ず先にタスクを完了してください。
  • データ供給の申し込みやインサイトオプションの申し込みを行ったり、データ供給が完了した状態でデータ追加の申し込みを行うと、SSL VPNおよびサーバとの接続が切断され、供給が完了した後に再接続する必要があります。

データ追加

新しい半期データを追加できます。データ供給が進行中の場合は、データ追加を申し込むことはできず、データ供給がすべて完了した後に申し込みできます。
最新の半期データを追加する方法は、次の通りです。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、 i_menu > Services > Big Data & Analytics > Cloud Data Box > My Spaceメニューを順にクリックします。
  2. データを追加するデータボックスの [サーバの詳細を見る] をクリックします。
    clouddatabox-datarequest_add01_new_ko
  3. [データ] タブで [追加] ボタンをクリックします。
    clouddatabox-datarequest_add03_new_ko
  4. 追加するデータを選択し、 [確認] ボタンをクリックします。
  5. データボックスのステータスが データ供給完了 のステータスでデータを追加した場合、供給がすべて完了するまでに5~10分程度時間がかかり、データ追加供給が完了すると、 データ提供ステータスデータ照会可能 のステータスに変更されます。
    データボックスのステータスが インフラ作成完了 のステータスでデータを追加した場合、 データ供給の申し込み を行うことでデータが提供されるようになります。

インサイトオプション

インサイトオプションは、約定した期間(12か月)の間、2年前のデータから前月までの最新データが提供される機能です。インサイトオプションを申し込んだ後、申込日から12か月以内にデータボックスを返却する場合、違約金が発生します。インサイトオプションデータを利用するためには、外部ネットワークとの通信がブロックされた状態である必要があるため、データ供給の申し込みを先に完了する必要があります。

インサイトオプションの申し込み

インサイトオプションを申し込む方法は、次の通りです。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、 i_menu > Services > Big Data & Analytics > Cloud Data Box > My Spaceメニューを順にクリックします。
  2. データ供給の申し込みが完了しているか確認します。
    • データ供給の申し込みが完了すると、 [アップグレード] ボタンが有効になります。
  3. 作成されたデータボックスを選択します。
  4. [アップグレード] > [インサイトオプションの申し込み] ボタンを順にクリックします。
    clouddatabox-datarequest_option01_new_ko
  5. インサイトオプションの申し込み画面が表示されたら、提供されるデータ基準と違約金の案内を確認し、 [インサイトオプションの申し込み] ボタンをクリックします。
  6. TensorFlow Dockerと Jupyterの再起動の案内文を確認し、 [確認] ボタンをクリックします。
    • インサイトオプションのデータ供給がすべて完了するまで、5~10分程度かかります。
    • データ供給が完了すると、 データボックスのステータスデータ供給済み に変更されます。
  7. インサイトオプションデータが Ncloud TensorFlow Serverおよび Hadoopノードにマウントされて提供されることを確認した後、Ncloud TensorFlow Serverにアクセスして Dockerおよび Jupyterを再起動してください。Dockerと Jupyterを再起動することで、Jupyter Notebookでディレクトリのデータを確認できるようになります。
    • TensorFlow CPU再起動
      docker restart tf-server-mkl  
      
    • TensorFlow GPU再起動
      docker restart tf-server-gpu
      
    • Jupyter Notebook再起動
      jup restartまたは
      jup stop実行後、jup start
      

インサイトプロオプション

インサイトプロオプションは、インサイトオプションを申し込んだ場合に申し込みでき、ユーザーグループ単位で検索およびショッピングデータが提供される機能です。事前に営業窓口で許可を得てから申し込みできます。インサイトプロオプションは、インサイトオプションのデータと同様に、2年前から前月までの最新データが提供されます。インサイトプロオプションを申し込んだ後、インサイトプロオプションを申し込んだ日から12か月以内にインサイトプロオプションを解約した場合、違約金が発生します。

インサイトプロオプションの申し込み

インサイトプロオプションを申し込む方法は、次の通りです。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、 i_menu > Services > Big Data & Analytics > Cloud Data Box > My Spaceメニューを順にクリックします。
  2. 作成されたデータボックスを選択します。
  3. [アップグレード] > [インサイトプロオプションの申し込み] ボタンを順にクリックします。
    clouddatabox-datarequest_option02_new_ko
  4. 違約金についてのご案内を確認し、 [インサイトプロオプションの申し込み] ボタンをクリックします。
    • インサイトオプションの申し込みが完了した状態で、インサイトプロオプションを申し込みできます。
    • インサイトオプションの契約期間内にプロオプションを解約する場合、違約金が発生します。
  5. プロオプションの権限がない場合、 [営業窓口] ボタンをクリックしてお問い合わせください。
  6. プロオプションの権限がある場合、インサイトプロオプションの申し込みウィンドウが表示され、申し込むプロオプションを選択した後、 [申し込み] ボタンをクリックします。
  7. 匿名情報保護に関する誓約内容をお読みいただき、誓約と同意のチェックボックスをクリックし、 [確認] ボタンをクリックします。
    • インサイトプロオプションのデータ供給がすべて完了するまで、5~10分程度かかります。
    • インサイトプロオプションデータ供給が完了すると、 データボックスのステータスデータ供給済み に変更されます。
  8. インサイトオプションデータが Ncloud TensorFlow Serverおよび Hadoopノードにマウントされて提供されることを確認した後、Ncloud TensorFlow Serverにアクセスして Dockerおよび Jupyterを再起動してください。Dockerと Jupyterを再起動することで、Jupyter Notebookでディレクトリのデータを確認できるようになります。
    • TensorFlow CPU再起動
      docker restart tf-server-mkl  
      
    • TensorFlow GPU再起動
      docker restart tf-server-gpu
      
    • Jupyter Notebook再起動
      jup restartまたは
      jup stop実行後、jup start
      

インサイトプロオプションの違約金照会

インサイトプロオプションの解約違約金を照会する方法は、次の通りです。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、 i_menu > Services > Big Data & Analytics > Cloud Data Box > My Spaceメニューを順にクリックします。
  2. プロオプション解約違約金を照会するデータボックスを選択します。
  3. [プロオプションの解約と違約金照会] > [違約金照会] ボタンを順にクリックし、予想違約金を確認します。

インサイトプロオプションの解約

インサイトプロオプションを解約する方法は、次の通りです。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、 i_menu > Services > Big Data & Analytics > Cloud Data Box > My Spaceメニューを順にクリックします。
  2. プロオプションを解約するデータボックスを選択します。
  3. [プロオプションの解約と違約金照会] > [インサイトプロオプションの解約] ボタンを順にクリックします。
  4. プロオプション中途解約違約金のご案内と解約予想違約金を確認し、解約を継続する場合は同意を選択した後、 [オプション解約を続行] ボタンをクリックします。

提供されたデータを Hadoopクラスタにアップロード

申し込んだ基本データやインサイトオプション、またはインサイトプロオプションデータが必要な場合は、Hadoopクラスタにアップロードして使用する必要があります。
アップロードする前に、Hadoopの空き容量を十分に確保した後、Hadoopクラスタにデータをアップロードしてください。

以下は、「shopping25y1h」に移動する場合のシナリオです。

  1. PuTTyで Cloud Hadoopエッジノードに接続した後、クラスタにディレクトリを作成してください。 (shopping25y1hは例です)

    $ hdfs dfs -mkdir -p /user/ncp/shopping25y1h/shopping
    // hdfs内の shoppingディレクトリ 
    
  2. hadoopに put コマンドを使用してデータをアップロードしてください。

    • Hadoopクラスタ名は hadoop-000-000 形式であり、NCPコンソールで確認したりアクセスした Hadoopノード名から確認できます。
    • 申し込んだデータボリュームの下位(この例では/mnt/shopping20y1h/)にある .snapshotディレクトリを一緒にアップロードするとエラーが発生することがありますので、データディレクトリのみアップロードしてください。
    • ショッピング半期のデータは約60〜70GB程度であり、Hadoopにアップロードするまで約30分程度かかります。
    • 検索半期データは5~8TB程度と容量が大きいため、Hadoopにアップロードするのに約5~10時間程度かかります(所要時間は Hadoopノードのスペックによって異なります)。
    $ hadoop dfs -put file:///mnt/shopping25y1h/shopping hdfs://hadoop-000-000/user/ncp/shopping25y1h
    
  3. Hadoopにアップロードされたデータをご確認ください。

    $ find /mnt/shopping25y1h/v3/shopping -type f | wc -l
    // ローカルファイルパスのファイル数を確認
    $ hdfs dfs -ls -R /user/ncp/shopping25y1h/shopping | grep -v ‘^d’ | wc -l
    // hdfsファイルパスのファイル数を確認