Zeppelin 사용

인쇄
공유
PDF

기사 요약

이 요약이 도움이 되었나요?

의견을 보내 주셔서 감사합니다.

VPC 환경에서 이용 가능합니다.

ZEPPELIN-0.10.1 앱은 Apache Zeppelin을 지원합니다. Zeppelin은 데이터 시각화 툴로써 데이터 분석을 용이하게 할 수 있으며, 사용자마다 개별적인 Zeppelin을 사용할 수 있습니다.

Zeppelin 앱 상세 정보 확인

앱 생성이 완료되면 상세 정보를 확인할 수 있습니다. 앱 상세 정보의 Status가 Stable 상태이면 앱이 정상적으로 구동된 것을 의미합니다.

앱 상세 정보를 확인하는 방법은 다음과 같습니다.

네이버 클라우드 플랫폼의 콘솔에서 Services > Big Data & Analytics > Data Forest 메뉴를 차례대로 클릭해 주십시오.
좌측의 Data Forest > Apps 메뉴를 클릭해 주십시오.
계정을 선택해 주십시오.
상세 정보를 확인할 앱을 클릭해 주십시오.
앱 상세 정보를 확인해 주십시오.
- Quick links
  - shell: 웹 셸(Web shell)을 이용하면 Zeppelin이 구동된 도커 환경에 접속할 수 있고, 내부 체크 및 환경 설정을 원하는 대로 수정할 수 있음. 앱을 생성한 계정 이름 및 비밀번호로 로그인
  - supervisor: Zeppelin을 관리할 수 있는 URL
  - zeppelin: 앱을 생성한 계정 이름 및 비밀번호로 로그인
- 컴포넌트: ZEPPELIN-0.10.1 타입은 zeppelin 컴포넌트 하나로 구성됩니다.
  - zeppelin: 기본 지정된 값이 권장 리소스. 기본값으로 1Core/12GB 메모리를 요청하여 기동

<예시>

셸 접속 화면은 다음과 같습니다.
df-zeppelin_5_vpc_ko

Zeppelin 접속 화면은 다음과 같습니다.
df-zeppelin_06_vpc_ko

참고

작업 수행 시 세부 설정을 조정해야 할 경우, Interpreters in Apache Zeppelin을 참조해 주십시오.

Interpreter 설정

Spark

Spark는 현재 3.0.1 버전이 기본 설정이므로 노트북을 만들어서 바로 사용할 수 있습니다. Zeppelin에서 구동한 작업은 기본적으로 큐가 Dev로 할당되어 수행됩니다. 다른 큐에서 수행하길 원하는 경우 Interpreters에서 Spark 검색 후 [edit] 버튼을 클릭하여, Properties에 spark.yarn.queue 설정을 추가해 주십시오.
df-zeppelin_07_vpc_ko(1)

참고

권한이 없는 큐에 작업을 제출할 경우 실패할 수 있습니다.

참고

기존 Spark2 버전을 사용하려면 노트북 생성 시 Default Interpreter에서 'spark248' 을 선택해 주십시오.

JDBC

Hive를 이용하려면 %jdbc(hive)와 같이 입력해야 합니다.

참고

Hive 규칙 및 권한에 대한 설명은 공용 Hive 사용를 참조해 주십시오.

노트북을 생성 후 test02__db_test라는 데이터베이스를 조회하는 예시는 다음과 같습니다.

df-zeppelin_08_vpc_ko

%jdbc(hive)
use test02__db_test;
show tables;
select * from test;

노트북 백업

Zeppelin 앱은 노트북 백업과 일부 설정이 함께 백업되며, Zeppelin이 실행 중인 장비가 변경되더라도 노트북과 설정을 동기화할 수 있습니다. 백업은 10분 주기로 진행됩니다.

수동으로 백업할 경우 웹 셸에 접속한 뒤 backup.sh 을 실행하면 즉시 노트북과 설정이 백업됩니다.
백업 로그는 Zeppelin 컨테이너로 접속한 후 hdfs://koya/user/${USER}/zeppelin/${SERVICE_NAME}/backup 디렉터리에서 확인할 수 있습니다.

이 문서가 도움이 되었습니까?

What's Next

Zookeeper 사용

Zeppelin 앱 상세 정보 확인
Interpreter 설정
노트북 백업

태그