Zeppelin 사용

Prev Next

VPC 환경에서 이용 가능합니다.

ZEPPELIN-0.10.1 앱은 Apache Zeppelin을 지원합니다. Zeppelin은 데이터 시각화 툴로써 데이터 분석을 용이하게 할 수 있으며, 사용자마다 개별적인 Zeppelin을 사용할 수 있습니다.

Zeppelin 앱 상세 정보 확인

앱 생성이 완료되면 상세 정보를 확인할 수 있습니다. 앱 상세 정보의 StatusStable 상태이면 앱이 정상적으로 구동된 것을 의미합니다.

앱 상세 정보를 확인하는 방법은 다음과 같습니다.

  1. 네이버 클라우드 플랫폼 콘솔의 VPC 환경에서 i_menu > Services > Big Data & Analytics > Data Forest 메뉴를 차례대로 클릭해 주십시오.
  2. 좌측의 Data Forest > Apps 메뉴를 클릭해 주십시오.
  3. 계정을 선택해 주십시오.
  4. 상세 정보를 확인할 앱을 클릭해 주십시오.
  5. 앱 상세 정보를 확인해 주십시오.
    df-zeppelin_2-1_updated_ko
    • Quick links
      • shell: 웹 셸(Web shell)을 이용하면 Zeppelin이 구동된 도커 환경에 접속할 수 있고, 내부 체크 및 환경 설정을 원하는 대로 수정할 수 있음. 앱을 생성한 계정 이름 및 비밀번호로 로그인
      • supervisor: Zeppelin을 관리할 수 있는 URL
      • zeppelin: 앱을 생성한 계정 이름 및 비밀번호로 로그인
    • 컴포넌트: ZEPPELIN-0.10.1 타입은 zeppelin 컴포넌트 하나로 구성됩니다.
      • zeppelin: 기본 지정된 값이 권장 리소스. 기본값으로 1Core/12GB 메모리를 요청하여 기동

<예시>

셸 접속 화면은 다음과 같습니다.
df-zeppelin_5_vpc_ko

Zeppelin 접속 화면은 다음과 같습니다.
df-zeppelin_06_vpc_ko

참고

작업 수행 시 세부 설정을 조정해야 할 경우, Interpreters in Apache Zeppelin을 참조해 주십시오.

Interpreter 설정

Spark

Spark는 현재 3.0.1 버전이 기본 설정이므로 노트북을 만들어서 바로 사용할 수 있습니다. Zeppelin에서 구동한 작업은 기본적으로 큐가 Dev로 할당되어 수행됩니다. 다른 큐에서 수행하길 원하는 경우 Interpreters에서 Spark 검색 후 [edit] 버튼을 클릭하여, Properties에 spark.yarn.queue 설정을 추가해 주십시오.
df-zeppelin_07_vpc_ko(1)

참고

권한이 없는 큐에 작업을 제출할 경우 실패할 수 있습니다.

참고

기존 Spark2 버전을 사용하려면 노트북 생성 시 Default Interpreter에서 'spark248' 을 선택해 주십시오.

JDBC

Hive를 이용하려면 %jdbc(hive)와 같이 입력해야 합니다.

참고

Hive 규칙 및 권한에 대한 설명은 공용 Hive 사용를 참조해 주십시오.

노트북을 생성 후 test02__db_test라는 데이터베이스를 조회하는 예시는 다음과 같습니다.

df-zeppelin_08_vpc_ko

%jdbc(hive)
use test02__db_test;
show tables;
select * from test;

노트북 백업

Zeppelin 앱은 노트북 백업과 일부 설정이 함께 백업되며, Zeppelin이 실행 중인 장비가 변경되더라도 노트북과 설정을 동기화할 수 있습니다. 백업은 10분 주기로 진행됩니다.

  • 수동으로 백업할 경우 웹 셸에 접속한 뒤 backup.sh 을 실행하면 즉시 노트북과 설정이 백업됩니다.
  • 백업 로그는 Zeppelin 컨테이너로 접속한 후 hdfs://koya/user/${USER}/zeppelin/${SERVICE_NAME}/backup 디렉터리에서 확인할 수 있습니다.
    df-zeppelin_9_vpc_ko