Object Storage에 HDFS 데이터 복사
    • PDF

    Object Storage에 HDFS 데이터 복사

    • PDF

    Article Summary

    VPC 환경에서 이용 가능합니다.

    Object Storage를 생성하고 HDFS 데이터를 연동하여 Object Storage에 HDFS의 데이터를 복사하는 방법을 설명합니다.

    Object Storage 생성

    HDFS 데이터를 연동하려면 먼저 Object Storage가 생성되어 있어야 합니다.

    네이버 클라우드 플랫폼 콘솔에서 Object Storage 서비스를 선택하여 버킷(Bucket)을 생성해 주십시오. Object Storage 생성에 대한 자세한 설명은 Object Storage 개요를 확인해 주십시오.

    API 인증키 생성

    Object Storage와 연동하려면 API 인증키를 생성해야 합니다.

    API 인증키를 생성하는 방법은 다음과 같습니다.

    1. 네이버 클라우드 플랫폼의 포털에 로그인해 주십시오.
    2. 마이페이지 > 계정 관리 > 인증키 관리 메뉴를 클릭해 주십시오.
    3. [신규 API 인증키 생성] 버튼을 클릭해 주십시오.
    4. 생성된 API 인증키 정보를 확인해 주십시오.
      • Access Key ID, Secret Key는 HDFS 데이터 연동 시 사용

    HDFS로 파일 복사

    버킷과 API 인증키를 모두 생성했다면, VM에서 Data Forest가 제공하는 CLI를 이용하여 개발 환경을 구성해야 합니다.

    개발 환경 구성이 완료된 후에는 Hadoop 명령어에 아래 예시와 같이 Object Storage 접속 주소와 인증키를 설정하여 cp로 데이터를 복사할 수 있습니다.

    $ hadoop fs -Dfs.s3a.endpoint=http://kr.object.private.ncloudstorage.com -Dfs.s3a.access.key={ACCESS_KEY_ID} -Dfs.s3a.secret.key={SECRET_KEY} -Dfs.s3a.connection.ssl.enabled=false -cp hdfs://koya/user/{USERNAME}/ExampleFile  s3a://{BUCKET_NAME}
    

    AWS CLI로 Object Storage에 파일 복사

    AWS S3에서 제공하는 CLI를 이용하여 네이버 클라우드 플랫폼의 Object Storage를 사용할 수 있습니다.

    참고

    CLI를 이용하기 위한 환경 설정 및 명령어 사용 방법은 Object Storage CLI 사용 가이드를 참조해 주십시오.

    1. 앱 생성

    VM에 접속하여 아래와 같이 AWS CLI 명령어를 이용해 인증 정보를 설정해 주십시오.

    $ aws configure
    AWS Access Key ID [****************leLy]: ACCESS_KEY_ID
    AWS Secret Access Key [None]: SECRET_KEY
    Default region name [None]: [Enter]
    Default output format [None]: [Enter]
    

    2. 나의 버킷 정보 확인

    인증 정보 설정이 완료되면 CLI를 사용하여 생성해 둔 버킷 목록을 확인해 주십시오.

    $ aws --endpoint-url=https://kr.object.private.ncloudstorage.com s3 ls
    2020-06-24 11:09:41 bucket-1
    2020-07-14 18:00:17 bucket-3
    2020-09-17 19:37:36 bucket-4
    2020-09-17 20:23:39 bucket-6
    
    참고
    • CLI 이용 시 --endpoint-url 옵션은 필수값입니다.
    • VPC 환경의 경우 Object Storage의 endpoint-url 주소는 kr.object.private.ncloudstorage.com 입니다.

    3. 단일 파일 복사

    S3 cp 명령을 사용하여 특정 파일을 특정 버킷에 업로드해 주십시오.

    $ aws --endpoint-url=http://kr.object.private.ncloudstorage.com s3 cp SOURCE_FILE s3://DEST_BUCKET/FILE_NAME
    

    4. 대량 파일 복사

    버킷과 디렉터리 또는 버킷과 버킷의 내용을 동기화하려면 S3 sync 명령을 사용해 주십시오.

    $ aws --endpoint-url=http://kr.object.private.ncloudstorage.com s3 sync SOURCE_DIR s3://DEST_BUCKET/
    
    주의

    --delete 옵션을 사용할 경우에는 원본에 없는 파일이나 객체를 제거할 수 있으므로 주의해 주십시오.

    디렉터리와 하위 파일을 한 번에 Object Storage에 업로드하려면 S3 cp 의 --recursive 옵션을 사용해 주십시오.

    $ aws --endpoint-url=http://kr.object.private.ncloudstorage.com s3 cp --recursive SOURCE_DIR s3://DEST_BUCKET/
    

    이 문서가 도움이 되었습니까?

    Changing your password will log you out immediately. Use the new password to log back in.
    First name must have atleast 2 characters. Numbers and special characters are not allowed.
    Last name must have atleast 1 characters. Numbers and special characters are not allowed.
    Enter a valid email
    Enter a valid password
    Your profile has been successfully updated.