Zeppelin を使用する

Prev Next

VPC環境で利用できます。

ZEPPELIN-0.10.1アプリは Apache Zeppelinをサポートします。Zeppelinはデータ可視化ツールとしてデータ分析を容易にすることができ、ユーザーごとに個別の Zeppelinを使用できます。

Zeppelinアプリの詳細情報の確認

アプリの作成が完了すると、詳細情報を確認できます。 アプリの詳細情報の StatusStableの場合、アプリが正常に起動されたことを意味します。

アプリの詳細情報を確認する方法は、次の通りです。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、i_menu > Services > Big Data & Analytics > Data Forestメニューを順にクリックします。
  2. 左側の Data Forest > Appsメニューをクリックします。
  3. アカウントを選択します。
  4. 詳細情報を確認するアプリをクリックします。
  5. アプリの詳細情報を確認します。
    df-zeppelin_2-1_updated_ko
    • Quick links
      • shell: ウェブシェル(Web shell)を利用すると、Zeppelinが実行された Docker環境にアクセスでき、内部をチェックしたり環境設定を希望どおりに変更可能。アプリを作成したアカウント名およびパスワードでログイン
      • supervisor: Zeppelinを管理できる URL
      • zeppelin: アプリを作成したアカウント名およびパスワードでログイン
    • コンポーネント: ZEPPELIN-0.10.1タイプは、zeppelinコンポーネント1つで構成されます。
      • zeppelin: デフォルトで指定された値が推奨リソース。デフォルト値として1Core/12GBメモリをリクエストして起動

例)

シェルアクセス画面は、次の通りです。
df-zeppelin_5_vpc_ko

Zeppelinアクセス画面は、次の通りです。
df-zeppelin_06_vpc_ko

参考

タスク実行時に詳細設定を調整する必要がある場合は、Interpreters in Apache Zeppelinをご参照ください。

Interpreter設定

Spark

Sparkは現在の3.0.1バージョンがデフォルト設定なので、Notebookを作成してすぐに使用できます。Zeppelinで起動したタスクは、基本的にキューが Devに割り当てられて実行されます。他のキューで実行したい場合は Interpretersで Sparkを検索後、 [edit] ボタンをクリックし、Propertiesに spark.yarn.queue設定を追加します。
df-zeppelin_07_vpc_ko(1)

参考

権限のないキューにタスクを提出すると失敗することがあります。

参考

既存の Spark2バージョンを使用する場合は、Notebook作成時に Default Interpreterで「spark248」を選択してください。

JDBC

Hiveを利用するには、%jdbc(hive)のように入力する必要があります。

参考

Hiveのルールと権限の説明は、共有 Hive を使用するをご参照ください。

Notebookを作成した後、test02__db_testというデータベースを照会する例は次の通りです。

df-zeppelin_08_vpc_ko

%jdbc(hive)
use test02__db_test;
show tables;
select * from test;

Notebookのバックアップ

Zeppelinアプリは Notebookのバックアップと一部の設定が一緒にバックアップされ、Zeppelinが実行している機器が変更されても Notebookと設定を同期することができます。バックアップは10分周期で行われます。

  • 手動でバックアップする場合、ウェブシェルに接続した後に backup.shを実行すると、すぐに Notebookと設定がバックアップされます。
  • バックアップログは Zeppelinコンテナにアクセスした後、hdfs://koya/user/${USER}/zeppelin/${SERVICE_NAME}/backupディレクトリで確認できます。
    df-zeppelin_9_vpc_ko