- 인쇄
- PDF
Data Forest 개요
- 인쇄
- PDF
VPC 환경에서 이용 가능합니다.
Data Forest는 Apache Hadoop 기반의 대용량 멀티테넌트 빅데이터 처리 클러스터입니다. Data Forest는 다양한 빅데이터 프레임워크를 지원하여 데이터 저장, 데이터 처리, 딥러닝 분석, 서빙을 쉽고 간편하게 수행할 수 있습니다. 보안 기술이 적용되며 대용량 데이터가 분산 스토리지에 저장되므로 안전하게 사용할 수 있습니다.
Data Forest가 제공하는 다양한 기능
통합 분석 환경
Data Forest는 데이터 수집과 처리, 딥러닝 분석, 서빙까지 모두 가능한 Apache Hadoop 기반의 통합 분석 플랫폼입니다. YARN 애플리케이션 형태로 서비스를 실행하며, 사용자가 애플리케이션을 조합하여 빅데이터 에코시스템을 만들 수 있는 환경을 제공합니다. 또한 사용자별 GPU 리소스를 동적으로 할당받아 Tensorflow, Pytorch 등의 딥러닝 학습을 수행할 수 있습니다.쉽고 빠른 분석 환경 구성
컨테이너 기반의 서버리스 환경에서 쉽고 빠르게 앱을 런칭할 수 있고, 필요한 Hadoop 에코시스템을 앱 기반으로 생성하여 분석 환경을 구성할 수 있습니다. 대규모 데이터와 많은 사용자들을 처리할 수 있도록 설계된 멀티테넌트 기반의 통합 플랫폼을 제공합니다. 분석 목적에 따라 배치 분석 작업을 할 수 있고, 멀티테넌트 환경에서 Long-Live 분석 작업을 수행할 수 있습니다.유연한 확장성
앱을 생성한 후에도 사용량에 따라 필요한 만큼 컨테이너를 확장하거나 축소하여 트래픽에 유연하게 대응할 수 있습니다. 컨테이너 기반이기 때문에 온라인 상태에서 동적으로 확장이 가능하며 필요 시 빠르게 변경할 수 있습니다.강화된 보안
Data Forest는 보안이 강화된 Secure Hadoop Cluster로 Kerberos/LDAP 인증을 지원합니다. 네트워크를 통해 다른 자격 증명이 전송되지 않도록 비밀 키 암호화를 사용하여 강력한 보안 환경을 제공합니다. 또한 애플리케이션 권한 관리에서 Apache Ranger 인증을 통한 보안 기능을 제공합니다.높은 수준의 네트워크 및 디스크 성능 보장
Data Forest는 앱 기반의 컴퓨팅 노드와 물리 서버의 로컬 디스크 기반으로 HDFS(Hadoop Distribute File System) 저장소를 사용하며 원활한 네트워크 성능과 디스크 성능을 보장합니다.다양한 컴포넌트
Data Forest는 데이터 저장, 분석 및 시각화할 수 있는 컴포넌트로 구성되어 있습니다. 사용자는 용도에 맞는 컴포넌트를 생성하고 사용할 수 있습니다. 데이터 저장에는 HDFS, HBase, Kafka, OpenTSDB를 제공하며 데이터 분석 및 처리에는 Spark, Hive, Hive LLAP, Elasticsearch, Grafana, Hue, Trino, Phoenix를 제공하고, 데이터 시각화에는 Kibana, Zeppelin을 제공합니다.
Data Forest 사용 가이드 안내
Data Forest는 한국 리전에서 서비스를 제공하고 있습니다. Data Forest의 원활한 이용을 위해 다음 목차와 목차별 내용을 확인해 주십시오.
- Data Forest 개요: Data Forest의 소개 및 강점 안내, Data Forest 연관 리소스, 자주 하는 질문과 답변 안내
- Data Forest 이용 시나리오: Data Forest에 대한 전체 이용 시나리오 안내
- Data Forest 사용 준비: Data Forest을 이용하기 위한 지원 사양 안내
- VPC
- Data Forest 시작: Data Forest와 Data Forest 앱 접근을 위한 클라이언트 환경 구성 방법 안내
- Data Forest 사용
- 계정 생성 및 관리: Data Forest 계정을 생성하고 관리하는 방법 및 계정 인증 방법 안내
- 앱 생성 및 관리: Data Forest 앱을 생성하고 관리하는 방법 안내
- Data Forest 앱 사용
- Quick links 접속: Quick link 종류와 Quick link에 접속하는 방법 안내
- Dev 사용: Dev 앱 상세정보 및 활용 방법 안내
- Elasticsearch 사용: Elasticsearch 상세정보 및 주의 사항 안내
- Grafana 사용: Grafana 상세정보 및 데이터소스 추가 방법, 데이터베이스 백업 방법 안내
- HBase 사용: HBase 상세정보 및 주의 사항 안내
- Hive 사용: Hive 상세정보, 접속 방법, 주의 사항 안내
- Hue 사용: Hue 상세정보 안내
- Kafka 사용: Kafka 상세정보, Kafka Manager 사용 방법, 사용 시 주의 사항 안내
- Kibana 사용: Kibana 상세정보 안내
- OpenTSDB 사용:OpenTSDB 상세정보 안내
- Phoenix 사용: Phoenix 상세정보 안내
- Spark History Server 사용: Spark History Server 상세정보 및 작업 조회 방법 안내
- Trino 사용: Trino 상세정보 안내
- Zepplin 사용: Zepplin 상세정보 및 인터프리터 설정, 백업 안내
- Zookeeper 사용: Zookeeper 상세정보, 다른 앱과 연동 방법, 사용 시 주의 사항 안내
- Data Forest 앱 사용
- 모니터링: 제출한 배치 잡과 앱 모니터링 방법 안내
- Data Forest ecosystem 활용
- HDFS 사용: HDFS에 파일 업로드, 다운로드 방법 안내
- 공용 Hive 사용: Hive 데이터베이스와 테이블 생성 방법 안내
- Oozie 사용: 워크플로 작성 방법 안내
- Ranger 사용: Apache Ranger 정책 설정 방법 안내
- Spark 사용: Spark Job 제출 방법 안내
- Data Forest 활용 예제
- Object Storage에 HDFS 데이터 복사: Object Storage에 HDFS 데이터 복사하는 방법 안내
- Oozie 스케줄러에 Spark 배치 작업 등록: Oozie 스케줄러에 Spark 배치 작업 등록하는 방법 안내
- Spark, Hive로 데이터 처리: Zepplin 앱과 Dev 앱으로 Spark, Hive 데이터 처리하는 방법 안내
- VPC
- Data Forest 권한 관리: Data Forest 권한 관리 방법 및 정책 안내
- Data Forest 릴리스 노트: Data Forest 사용 가이드 업데이트 이력
Data Forest 연관 리소스
네이버 클라우드 플랫폼에서는 Data Forest에 대한 고객의 이해를 돕기 위해 가이드 외에도 다양한 연관 리소스를 제공하고 있습니다. Data Forest를 회사에 도입하기 위해 고민 중이거나 데이터 관련 정책을 수립하면서 자세한 정보가 필요한 개발자, 마케터 등은 다음 리소스를 적극 활용해 보십시오.
- 요금 소개, 특징, 상세 기능: Data Forest 소개 및 요금 안내
- Data Forest 쉬운 시작 가이드
- Data Forest로 빅데이터 분석: Data Forest 기본 사용 방법
- Data Forest로 빅데이터 분석 환경 구축: Notebook 노드를 통해 빅데이터 분석에 필요한 개발 환경을 구축하고 외부 시스템과의 쉽게 연동하는 방법
- 서비스 최신 소식: Data Forest 관련 최신 소식
- 자주 하는 질문: Data Forest 사용자들이 자주 하는 질문
- 문의하기: 사용 가이드를 통해서도 궁금증이 해결되지 않는 경우 직접 문의
자주 하는 질문을 먼저 확인해 보십시오.
자주 하는 질문에 대한 답변으로 궁금증을 빠르게 해소할 수 있습니다. 만약 다음의 자주 하는 질문에서 원하는 답을 얻지 못한 경우 사용 가이드에서 원하는 내용을 찾아서 확인해 보십시오.
Q. Cloud Hadoop과 Data Forest는 유사한 성격의 서비스로 보이는데 어떤 차이가 있나요?
A. 두 서비스는 서버/서버리스에 기반한 차이점이 있습니다.
- Cloud Hadoop은 고객 전용 자원을 이용하여 하둡 클러스터를 구축해서 제공합니다.
- 고객이 하둡을 직접 관리하는 self-managed 형태의 상품입니다.
- 직접 관리할 수 있는 오픈소스 기반의 웹 관리 도구(Apache Ambari)를 제공하고 있습니다.
- Data Forest 는 서버리스 형태의 상품으로 분석에 필요한 Job(DL Job)을 제출해서 사용하고 long-lived 하게 돌아야 하는 Hadoop Ecosystem은 App을 생성해서 손쉽게 분석할 수 있습니다.
- 고객이 직접 하둡을 관리하는 것이 아닌 상품 레벨에서 고가용성을 보장해 주는 managed 형태의 상품입니다.
- Cloud Hadoop보다 더 많은 App들을 제공하고 있으며 GPU 기반의 Deep Learning Job도 제출이 가능합니다.
비교
Feature | Cloud Hadoop | Data Forest |
---|---|---|
확장 가능성 | 사용자가 하둡 클러스터 크기를 직접 결정 | 서비스에서 관리 |
비용 | 하둡 클러스터 유지 요금 발생 | 사용자 실행 중 작업, 스토리지에 대한 요금 발생 |
유지 관리 | 사용자가 직접 관리, 사용자 관리 도구 (Apache Ambari) 지원 | 서비스에서 관리 |
특징 | 사용자가 자유로운 환경 구성 가능 | 다양한 App 제공. GPU 기반 Deep Learning 작업 제출 가능 |
Q. 실시간 데이터를 수집 및 처리하거나 ETL 환경을 구성하기 위한 기능은 어떻게 제공되나요?
A. Data Forest에서 실시간 데이터 수집 및 처리를 직접 제공하지는 않지만 NAVER Cloud Platform의 다양한 서비스와 Data Forest에서 제공되는 App으로 구성된 Hadoop Ecosystem을 이용해서 환경을 구성할 수 있습니다. ETL을 전문적으로 구성하기 위한 서비스는 별도의 상품으로 향후 출시될 예정입니다.