Data Forest 개요
    • PDF

    Data Forest 개요

    • PDF

    Article Summary

    VPC 환경에서 이용 가능합니다.

    Data Forest는 Apache Hadoop 기반의 대용량 멀티테넌트 빅데이터 처리 클러스터입니다. Data Forest는 다양한 빅데이터 프레임워크를 지원하여 데이터 저장, 데이터 처리, 딥러닝 분석, 서빙을 쉽고 간편하게 수행할 수 있습니다. 보안 기술이 적용되며 대용량 데이터가 분산 스토리지에 저장되므로 안전하게 사용할 수 있습니다.

    df-overview_storage_vpc_ko

    Data Forest가 제공하는 다양한 기능

    • 통합 분석 환경
      Data Forest는 데이터 수집과 처리, 딥러닝 분석, 서빙까지 모두 가능한 Apache Hadoop 기반의 통합 분석 플랫폼입니다. YARN 애플리케이션 형태로 서비스를 실행하며, 사용자가 애플리케이션을 조합하여 빅데이터 에코시스템을 만들 수 있는 환경을 제공합니다. 또한 사용자별 GPU 리소스를 동적으로 할당받아 Tensorflow, Pytorch 등의 딥러닝 학습을 수행할 수 있습니다.

    • 쉽고 빠른 분석 환경 구성
      컨테이너 기반의 서버리스 환경에서 쉽고 빠르게 앱을 런칭할 수 있고, 필요한 Hadoop 에코시스템을 앱 기반으로 생성하여 분석 환경을 구성할 수 있습니다. 대규모 데이터와 많은 사용자들을 처리할 수 있도록 설계된 멀티테넌트 기반의 통합 플랫폼을 제공합니다. 분석 목적에 따라 배치 분석 작업을 할 수 있고, 멀티테넌트 환경에서 Long-Live 분석 작업을 수행할 수 있습니다.

    • 유연한 확장성
      앱을 생성한 후에도 사용량에 따라 필요한 만큼 컨테이너를 확장하거나 축소하여 트래픽에 유연하게 대응할 수 있습니다. 컨테이너 기반이기 때문에 온라인 상태에서 동적으로 확장이 가능하며 필요 시 빠르게 변경할 수 있습니다.

    • 강화된 보안
      Data Forest는 보안이 강화된 Secure Hadoop Cluster로 Kerberos/LDAP 인증을 지원합니다. 네트워크를 통해 다른 자격 증명이 전송되지 않도록 비밀 키 암호화를 사용하여 강력한 보안 환경을 제공합니다. 또한 애플리케이션 권한 관리에서 Apache Ranger 인증을 통한 보안 기능을 제공합니다.

    • 높은 수준의 네트워크 및 디스크 성능 보장
      Data Forest는 앱 기반의 컴퓨팅 노드와 물리 서버의 로컬 디스크 기반으로 HDFS(Hadoop Distribute File System) 저장소를 사용하며 원활한 네트워크 성능과 디스크 성능을 보장합니다.

    • 다양한 컴포넌트
      Data Forest는 데이터 저장, 분석 및 시각화할 수 있는 컴포넌트로 구성되어 있습니다. 사용자는 용도에 맞는 컴포넌트를 생성하고 사용할 수 있습니다. 데이터 저장에는 HDFS, HBase, Kafka, OpenTSDB를 제공하며 데이터 분석 및 처리에는 Spark, Hive, Hive LLAP, Elasticsearch, Grafana, Hue, Trino, Phoenix를 제공하고, 데이터 시각화에는 Kibana, Zeppelin을 제공합니다.

    • 컴포넌트 접근성 강화 및 웹 기반 개발환경 제공
      VPC 환경에서 보다 쉽게 컴포넌트에 접근하기 위해 프록시 기능 및 웹 기반의 개발 환경인 Jupyter Notebook을 제공합니다. 생성된 노트북 노드의 JupyterLab 웹 페이지로 접속하여 빅데이터 분석 및 머신러닝 학습에 필요한 쿼리와 코드를 실행할 수 있습니다. Object Storage 연동을 통해 데이터를 유연하게 재사용할 수 있습니다.

    Data Forest 사용 가이드 안내

    Data Forest는 한국 리전에서 서비스를 제공하고 있습니다. Data Forest의 원활한 이용을 위해 다음 목차와 목차별 내용을 확인해 주십시오.

    Data Forest 연관 리소스

    네이버 클라우드 플랫폼에서는 Data Forest에 대한 고객의 이해를 돕기 위해 가이드 외에도 다양한 연관 리소스를 제공하고 있습니다. Data Forest을 회사에 도입하기 위해 고민 중이거나 데이터 관련 정책을 수립하면서 자세한 정보가 필요한 개발자, 마케터 등은 다음 리소스를 적극 활용해 보십시오.

    자주 하는 질문을 먼저 확인해 보십시오.

    자주 하는 질문에 대한 답변으로 궁금증을 빠르게 해소할 수 있습니다. 만약 다음의 자주 하는 질문에서 원하는 답을 얻지 못한 경우 사용 가이드에서 원하는 내용을 찾아서 확인해 보십시오.

    Q. Cloud Hadoop과 Data Forest는 유사한 성격의 서비스로 보이는데 어떤 차이가 있나요?
    A. 두 서비스는 서버/서버리스에 기반한 차이점이 있습니다.

    • Cloud Hadoop은 고객 전용 자원을 이용하여 하둡 클러스터를 구축해서 제공합니다.
      • 고객이 하둡을 직접 관리하는 self-managed 형태의 상품입니다.
      • 직접 관리할 수 있는 오픈소스 기반의 웹 관리 도구 (Apache Ambari)를 제공하고 있습니다.
    • Data Forest 는 서버리스 형태의 상품으로 분석에 필요한 Job(DL Job)을 제출해서 사용하고 long-lived 하게 돌아야 하는 Hadoop Ecosystem은 App을 생성해서 손쉽게 분석할 수 있습니다.
      • 고객이 직접 하둡을 관리하는 것이 아닌 상품 레벨에서 고가용성을 보장해 주는 managed 형태의 상품입니다.
      • Cloud Hadoop보다 더 많은 App들을 제공하고 있으며 GPU 기반의 Deep Learning Job도 제출이 가능합니다.

    비교

    FeatureCloud HadoopData Forest
    확장 가능성사용자가 하둡 클러스터 크기를 직접 결정서비스에서 관리
    비용하둡 클러스터 유지 요금 발생사용자 실행 중 작업, 스토리지에 대한 요금 발생
    유지 관리사용자가 직접 관리, 사용자 관리 도구 (Apache Ambari) 지원서비스에서 관리
    특징사용자가 자유로운 환경 구성 가능다양한 App 제공. GPU 기반 Deep Learning 작업 제출 가능

    Q. 실시간 데이터를 수집 및 처리하거나 ETL 환경을 구성하기 위한 기능은 어떻게 제공되나요?
    A. Data Forest에서 실시간 데이터 수집 및 처리를 직접 제공하지는 않지만 NAVER Cloud Platform의 다양한 서비스와 Data Forest에서 제공되는 App으로 구성된 Hadoop Ecosystem을 이용해서 환경을 구성할 수 있습니다. ETL을 전문적으로 구성하기 위한 서비스는 별도의 상품으로 향후 출시될 예정입니다.

    Q. Data Forest에서 제공하는 Quick links에 접속하려고 합니다. 어떻게 접속할 수 있나요?
    A. Quick links에 접속하기 위해서는 Data Forest 노트북 서버가 필요합니다. Data Forest > Notebooks에서 생성할 수 있습니다.
    자세한 내용은 Quick links 접속을 참조해 주십시오.

    Q. 사용자 PC와 노트북 사이에 SSH 터널을 생성하기 위해 사용자PC의 터미널에서 생성 명령어를 입력하면 계속해서 암호를 넣으라고 합니다.
    A. 인증키로 인증에 실패하는 경우 계속해서 패스워드를 요청합니다. SSH 커맨드 실행 시 사용된 키가 노트북 생성 시 설정된 로그인 키와 상이한 경우 발생할 수 있습니다. 만약 인증키를 유실하셨다면 인증키변경을 하십시오.

    Q. 노트북을 사용할 때 커널별로 동작 방식에 차이가 있나요?
    A. PySpark Kernel을 사용하는 경우, Sparkmagic을 통해 공통 클러스터의 Livy에 연결하여 작업을 수행합니다. 따라서 공통 클러스터의 Spark 버전을 사용합니다.
    반면에 Python Kernel을 사용하는 경우, 작업이 standalone으로 수행되기 때문에 로컬 환경의 Spark 버전을 사용합니다.


    이 문서가 도움이 되었습니까?

    Changing your password will log you out immediately. Use the new password to log back in.
    First name must have atleast 2 characters. Numbers and special characters are not allowed.
    Last name must have atleast 1 characters. Numbers and special characters are not allowed.
    Enter a valid email
    Enter a valid password
    Your profile has been successfully updated.