- 인쇄
- PDF
Zeppelin 사용
- 인쇄
- PDF
VPC 환경에서 이용 가능합니다.
ZEPPELIN-0.10.1 앱은 Apache Zeppelin을 지원합니다. Zeppelin은 데이터 시각화 툴로써 데이터 분석을 용이하게 할 수 있으며, 사용자마다 개별적인 Zeppelin을 사용할 수 있습니다.
Zeppelin 앱 상세 정보 확인
앱 생성이 완료되면 상세 정보를 확인할 수 있습니다. 앱 상세 정보의 Status가 Stable 상태이면 앱이 정상적으로 구동된 것을 의미합니다.
앱 상세 정보를 확인하는 방법은 다음과 같습니다.
- 네이버 클라우드 플랫폼의 콘솔에서 Services > Big Data & Analytics > Data Forest 메뉴를 차례대로 클릭해 주십시오.
- 좌측의 Data Forest > Apps 메뉴를 클릭해 주십시오.
- 계정을 선택해 주십시오.
- 상세 정보를 확인할 앱을 클릭해 주십시오.
- 앱 상세 정보를 확인해 주십시오.
- Quick links
- shell: 웹 셸(Web shell)을 이용하면 Zeppelin이 구동된 도커 환경에 접속할 수 있고, 내부 체크 및 환경 설정을 원하는 대로 수정할 수 있음. 앱을 생성한 계정 이름 및 비밀번호로 로그인
- supervisor: Zeppelin을 관리할 수 있는 URL
- zeppelin: 앱을 생성한 계정 이름 및 비밀번호로 로그인
- 컴포넌트: ZEPPELIN-0.10.1 타입은 zeppelin 컴포넌트 하나로 구성됩니다.
- zeppelin: 기본 지정된 값이 권장 리소스. 기본값으로 1Core/12GB 메모리를 요청하여 기동
- Quick links
<예시>
셸 접속 화면은 다음과 같습니다.
Zeppelin 접속 화면은 다음과 같습니다.
작업 수행 시 세부 설정을 조정해야 할 경우, Interpreters in Apache Zeppelin을 참조해 주십시오.
Interpreter 설정
Spark
Spark는 현재 3.0.1 버전이 기본 설정이므로 노트북을 만들어서 바로 사용할 수 있습니다. Zeppelin에서 구동한 작업은 기본적으로 큐가 Dev로 할당되어 수행됩니다. 다른 큐에서 수행하길 원하는 경우 Interpreters에서 Spark 검색 후 [edit] 버튼을 클릭하여, Properties에 spark.yarn.queue 설정을 추가해 주십시오.
권한이 없는 큐에 작업을 제출할 경우 실패할 수 있습니다.
기존 Spark2 버전을 사용하려면 노트북 생성 시 Default Interpreter에서 'spark248' 을 선택해 주십시오.
JDBC
Hive를 이용하려면 %jdbc(hive)
와 같이 입력해야 합니다.
Hive 규칙 및 권한에 대한 설명은 공용 Hive 사용를 참조해 주십시오.
노트북을 생성 후 test02__db_test
라는 데이터베이스를 조회하는 예시는 다음과 같습니다.
%jdbc(hive)
use test02__db_test;
show tables;
select * from test;
노트북 백업
Zeppelin 앱은 노트북 백업과 일부 설정이 함께 백업되며, Zeppelin이 실행 중인 장비가 변경되더라도 노트북과 설정을 동기화할 수 있습니다. 백업은 10분 주기로 진행됩니다.
- 수동으로 백업할 경우 웹 셸에 접속한 뒤
backup.sh
을 실행하면 즉시 노트북과 설정이 백업됩니다. - 백업 로그는 Zeppelin 컨테이너로 접속한 후
hdfs://koya/user/${USER}/zeppelin/${SERVICE_NAME}/backup
디렉터리에서 확인할 수 있습니다.