Object Storage に HDFS データをコピー
    • PDF

    Object Storage に HDFS データをコピー

    • PDF

    Article Summary

    VPC環境で利用できます。

    Object Storageを作成してHDFSデータと連携し、Object StorageにHDFSのデータをコピーする方法を説明します。

    Object Storageの作成

    HDFSデータ連携を行うには、まずObject Storageを作成してください。

    NAVERクラウドプラットフォームコンソールで、Object Storageサービスを選択してバケット(Bucket)を作成します。Object Storageの作成に関する詳しい説明は、Object Storageの概要をご確認ください。

    API認証キーの作成

    Object Storageと連携するにはAPI認証キーを作成する必要があります。

    API認証キーを作成する方法は以下のとおりです。

    1. NAVERクラウドプラットフォームのポータルにログインします。
    2. マイページ > アカウントの管理 > 認証キー管理メニューをクリックします。
    3. [新規API認証キー作成] ボタンをクリックします。
    4. 作成されたAPI認証キー情報を確認します。
      • Access Key ID、Secret KeyはHDFSデータと連携する際に使用

    HDFSにファイルをコピー

    バケットとAPI認証キーをいずれも作成したら、VMでData Forestが提供するCLIを利用して開発環境を構成します。

    開発環境の構成が完了すると、Hadoopコマンドに以下の例のようにObject Storageのアクセスアドレスや認証キーを設定してcpでデータをコピーできます。

    $ hadoop fs -Dfs.s3a.endpoint=http://kr.object.private.ncloudstorage.com -Dfs.s3a.access.key={ACCESS_KEY_ID} -Dfs.s3a.secret.key={SECRET_KEY} -Dfs.s3a.connection.ssl.enabled=false -cp hdfs://koya/user/{USERNAME}/ExampleFile  s3a://{BUCKET_NAME}
    

    AWS CLIでObject Storageにファイルをコピー

    AWS S3で提供するCLIを利用してNAVERクラウドプラットフォームのObject Storageを使用できます。

    参考

    CLIを利用するための環境設定とコマンドの使い方は、Object Storage CLIご利用ガイドをご参照ください。

    1. アプリの作成

    VMにアクセスし、以下のようにAWS CLIコマンドを利用して認証情報を設定してください。

    $ aws configure
    AWS Access Key ID [****************leLy]: ACCESS_KEY_ID
    AWS Secret Access Key [None]: SECRET_KEY
    Default region name [None]: [Enter]
    Default output format [None]: [Enter]
    

    2. マイバケット情報の確認

    認証情報の設定が完了したら、CLIを使用して作成しておいたバケットリストを確認します。

    $ aws --endpoint-url=https://kr.object.private.ncloudstorage.com s3 ls
    2020-06-24 11:09:41 bucket-1
    2020-07-14 18:00:17 bucket-3
    2020-09-17 19:37:36 bucket-4
    2020-09-17 20:23:39 bucket-6
    
    参考
    • CLIを利用する場合、--endpoint-urlオプションは必須です。
    • VPC環境の場合、Object Storageのendpoint-urlアドレスはkr.object.private.ncloudstorage.comです。

    3. 単一ファイルのコピー

    s3 cpコマンドを利用して特定のファイルを特定のバケットにアップロードします。

    $ aws --endpoint-url=http://kr.object.private.ncloudstorage.com s3 cp SOURCE_FILE s3://DEST_BUCKET/FILE_NAME
    

    4. 大量ファイルのコピー

    バケットとディレクトリ、または2つのバケットの内容を同期するには、s3 syncコマンドを使用します。

    $ aws --endpoint-url=http://kr.object.private.ncloudstorage.com s3 sync SOURCE_DIR s3://DEST_BUCKET/
    
    注意

    --deleteオプションを使用する場合、ソースにないファイルやオブジェクトが削除されることがあります。ご注意ください。

    ディレクトリと下位のファイルを一度にObject Storageにアップロードするには、s3 cpの--recursiveオプションを使用してください。

    $ aws --endpoint-url=http://kr.object.private.ncloudstorage.com s3 cp --recursive SOURCE_DIR s3://DEST_BUCKET/
    

    この記事は役に立ちましたか?

    Changing your password will log you out immediately. Use the new password to log back in.
    First name must have atleast 2 characters. Numbers and special characters are not allowed.
    Last name must have atleast 1 characters. Numbers and special characters are not allowed.
    Enter a valid email
    Enter a valid password
    Your profile has been successfully updated.