- 印刷する
- PDF
データ供給
- 印刷する
- PDF
Classic/VPC環境で利用できます。
データ供給の申込方法とデータボックスの作成時に選択できなかった追加データの申込方法、契約期間を通して、最新データの提供を受けられるInsight Optionの申込方法を説明します。
データ供給の申込
データボックスのアクセス設定完了後に申し込んだデータの提供を受けるには、データ供給の申込を行います。データ供給の申込後には外部ネットワークとの通信が遮断され、ユーザーの申し込んだデータが提供されます。
データ供給の申込方法は以下のとおりです。
- NAVERクラウドプラットフォームのコンソールで、Services > Big Data & Analytics > Cloud Data Box > My Spaceメニューを順にクリックします。
- 作成されたデータボックスを選択し、[データの供給を申し込む] ボタンをクリックします。
- データ供給の申込画面が表示されたら、データボックスの名前を入力して [確認] ボタンをクリックします。
- データ供給がすべて完了するには5~10分ほどかかります。供給が完了すると、データボックスの状態がデータ供給申込からデータ供給完了に変更されます。
- データ供給の申込を行った後には、外部ネットワークとの通信が遮断されて前の状態に戻せません。
- データ供給の申込を行った後にはTensorFlow DockerとJupyterが再起動されるので、進行中の作業がある場合は必ず作業を先に完了してください。
- データ供給やInsight Optionを申し込むか、またはデータ供給完了状態で追加のデータを申し込むと、SSL VPNとサーバとの接続が切れます。供給が完了したら、再接続してください。
データの追加
新しい半期データを追加できます。データ供給が進行中の場合はデータの追加を申し込むことができず、データ供給がすべて完了した後に申込できます。
最新の半期データを追加する方法は以下のとおりです。
- NAVERクラウドプラットフォームのコンソールで、Services > Big Data & Analytics > Cloud Data Box > My Spaceメニューを順にクリックします。
- データの追加先となるデータボックスの [サーバの詳細情報を見る] をクリックします。
- [データ] タブの [追加] ボタンをクリックします。
- 追加するデータを選択して [確認] ボタンをクリックします。
- データボックスの状態がデータ供給完了の状態でデータを追加した場合、供給がすべて完了するまで5~10分ほどかかります。データの追加供給が完了すると、データの提供状態がデータ照会可能状態に変更されます。
データボックスの状態がインフラ作成完了の状態でデータを追加した場合、データの供給を申し込まないとデータは提供されません。
Insight Option
Insight Optionは、契約期間(12か月)を通して2年前のデータから前月までの最新データが提供される機能です。Insight Optionを申し込んだ後、申込日以降12か月以内にデータボックスを返却する場合、違約金が発生します。Insight Optionデータを利用するには、外部ネットワークとの通信が遮断状態である必要があるので、データ供給の申込をあらかじめ完了してください。
Insight Optionの申込
Insight Optionの申込方法は以下のとおりです。
NAVERクラウドプラットフォームのコンソールで、Services > Big Data & Analytics > Cloud Data Box > My Spaceメニューを順にクリックします。
データ供給の申込が完了したかどうかを確認します。
- データ供給の申込が完了状態になると、[アップグレード] ボタンが有効になります。
作成されたデータボックスを選択します。
[アップグレード] > [Insight Optionを申し込む] ボタンを順にクリックします。
Insight Optionの申込画面が表示されたら、提供されるデータの基準と違約金の案内を確認し、[Insight Optionを申し込む] ボタンをクリックします。
TensorFlow DockerとJupyterの再起動の案内を確認し、[確認] ボタンをクリックします。
- Insight Optionのデータ供給がすべて完了するまで、5~10分ほどかかります。
- データ供給が完了すると、データボックスの状態がデータ供給完了に変更されます。
Insight OptionのデータがNcloud TensorFlow ServerとHadoopノードにマウントされ提供されることを確認した後、Ncloud TensorFlow ServerにアクセスしてDockerとJupyterを再起動します。DockerとJupyterを再起動すると、Jupyter Notebookでディレクトリのデータを確認できるようになります。
TensorFlow CPUの再起動
docker restart tf-server-mkl
TensorFlow GPUの再起動
docker restart tf-server-gpu
Jupyter Notebookの再起動
jup restartまたは jup stopの実行後にjup start
Insight Pro Option
Insight Pro Optionは、Insight Optionを申し込んでから申し込むことができ、ユーザーグループ単位で検索とショッピングデータが提供される機能です。事前に営業に関するお問い合わせにより権限を取得した後、申込めるようになります。Insight Pro Optionは、Insight Optionデータと同様で、2年前のデータから前月までの最新データが提供されます。Insight Pro Optionを申し込んだ後、Insight Optionの申込日以降12か月以内にInsight Pro Optionを解約する場合、違約金が発生します。
Insight Pro Optionの申込
Insight Pro Optionの申込方法は以下のとおりです。
NAVERクラウドプラットフォームのコンソールで、Services > Big Data & Analytics > Cloud Data Box > My Spaceメニューを順にクリックします。
作成されたデータボックスを選択します。
[アップグレード] > [Insight Pro Optionを申し込む] ボタンを順にクリックします。
違約金に関する案内を確認し、[Insight Pro Optionを申し込む] ボタンをクリックします。
- Insight Pro Optionを申し込むには、事前にInsight Optionの申込が完了している必要があります。
- Insight Optionの契約期間以内にPro Optionを解約する場合、違約金が発生します。
Pro Optionに対する権限がない場合、[営業に関するお問い合わせ] ボタンをクリックしてお問い合わせください。
Pro Optionに対する権限がある場合、Insight Pro Optionの申込画面が表示されます。そこで申し込むPro Optionを選択し、[申込] ボタンをクリックします。
匿名情報の保護に関する誓約の内容を読んで、誓約と同意のチェックボックスをクリックし、[確認] ボタンをクリックします。
- Insight Pro Optionのデータ供給がすべて完了するまで、5~10分ほどかかります。
- Insight Pro Optionのデータ供給が完了すると、データボックスの状態がデータ供給完了に変更されます。
Insight OptionのデータがNcloud TensorFlow ServerとHadoopノードにマウントされ提供されることを確認した後、Ncloud TensorFlow ServerにアクセスしてDockerとJupyterを再起動します。DockerとJupyterを再起動すると、Jupyter Notebookでディレクトリのデータを確認できるようになります。
TensorFlow CPUの再起動
docker restart tf-server-mkl
TensorFlow GPUの再起動
docker restart tf-server-gpu
Jupyter Notebookの再起動
jup restartまたは jup stopの実行後にjup start
Insight Pro Optionの違約金の照会
Insight Pro Optionの解約による違約金を照会する方法は以下のとおりです。
- NAVERクラウドプラットフォームのコンソールで、Services > Big Data & Analytics > Cloud Data Box > My Spaceメニューを順にクリックします。
- Pro Optionの解約による違約金を照会するデータボックスを選択します。
- [Pro Optionの解約と違約金の照会] > [違約金を照会] ボタンを順にクリックし、予想違約金を確認します。
Insight Pro Optionの解約
Insight Pro Optionの解約方法は以下のとおりです。
- NAVERクラウドプラットフォームのコンソールで、Services > Big Data & Analytics > Cloud Data Box > My Spaceメニューを順にクリックします。
- Pro Optionを解約するデータボックスを選択します。
- [Pro Optionの解約と違約金の照会] > [Insight Pro Optionを解約] ボタンを順にクリックします。
- Pro Optionの中途解約による違約金に関する案内と、解約時の予想違約金を確認して解約を続行するには、同意を選択して [オプションの解約を続行] ボタンをクリックします。
提供されたデータをHadoopクラスタにアップロード
申し込んだ基本データやInsight OptionまたはInsight Pro Optionデータが必要な場合、Hadoopクラスタにアップロードして使用します。アップロードする前にHadoopの残りの容量を充分に確保した上で、distcpを利用してアップロードしてください。
PuTTYでCloud Hadoopエッジノードにアクセスし、Hadoopにアップロードするデータを確認します。
(shopping20y1h
は例)$ ls -al /mnt/shopping20y1h/shopping $ find /mnt/shopping20y1h -type f | wc -l $ du -sh /mnt/shopping20y1h
Hadoopにdistcpを利用してデータをアップロードします。
- Hadoopクラスタ名はnv0###-hadoopの形式です。NAVERクラウドプラットフォームコンソールか、アクセスしたHadoopノード名から確認できます。
- 申し込んだデータボリュームの下位(この例では/mnt/shopping20y1h/)にある .snapshot ディレクトリを一緒にアップロードすると、エラーが発生する可能性があります。データディレクトリのみアップロードしてください。
- hadoop-distcp.sh was not foundエラーが発生する場合、無視してください。
- ショッピングの半期データはおおよそ60~70GB程度で、Hadoopにアップロードするのに10分ほどかかります。
- 検索の半期データは5~8TB程度で容量が大きいため、Hadoopにアップロードするのに約5~10時間ほどかかります(所要時間はHadoopノードスペックによる)。
$ hadoop distcp file:///mnt/shopping20y1h/shopping hdfs://nv0###-hadoop/user/ncp/shopping20y1h
Hadoopにアップロードされたデータを確認します。
$ hdfs dfs -ls /user/ncp/shopping20y1h $ hdfs dfs -count /user/ncp/shopping20y1h $ hdfs dfs -du -h /user/ncp