Zeppelin を使用する

VPC環境で利用できます。

NAVERクラウドプラットフォームの Cloud Hadoopには Zeppelin Notebookがインストールされています。
このガイドでは、Zeppelin Notebook UIへのアクセス方法と簡単なユースケースの実行方法について説明します。
Zeppelinに関する詳細は、Apache Zeppelin公式ホームページをご参照ください。

Zeppelin Notebook UIへのアクセス

Zeppelin Notebook UIにアクセスする方法は、次の通りです。

コンソールの Web UIリストを介したアクセス

Cloud Hadoopコンソールで [Application別に見る] を通じて Zeppelin Notebook UIにアクセスできます。詳細は、Application別に見るをご参照ください。

ウェブブラウザから直接アクセス

ウェブブラウザを立ち上げ、アドレスバーに以下のように入力してアクセスします。クラスタに割り当てられたドメインアドレスを使用します。

https://{ドメインアドレス}:9996

Ambari Web UIを介したアクセス方法

Ambari Web UIを介したアクセス方法は、次の通りです。

Ambari UIにアクセスします。
- Ambari UIへのアクセスに関する詳細は、Ambari UIガイドをご参照ください。
Ambari UI画面で Zeppelin Notebook > Quick Links > Zeppelin UIを順にクリックします。
- Zeppelin UIへのアクセス方法は、トンネリングを用いた Web UIアクセスガイドをご参照ください。
ブラウザにログインページが表示されたら、クラスタの作成時に設定した管理者アカウントとパスワードを入力してログインします。
- アクセスに成功すると、Zeppelinページの右上にある [login] ボタンの横にグリーンの点が表示されます。

Zeppelin Notebook を開始する

Zeppelin Notebookを作成し、データを入力して結果をグラフで確認できます。
このガイドは、Zeppelin Notebookでデフォルトとして提供している Zeppelin Tutorial(Basic Features)Notebookを参照して作成されました。

Notebook作成

Notebookを作成する方法は、次の通りです。

Zeppelin上部の [Notebook] > Create new noteをクリックします。
Notebookの名前と情報を設定し、 [Create] ボタンをクリックします。
- Default Interpreterは、ノート作成後にも変更できます。

テーブルにデータをロード

以下は、bank.csvのデータを bankテーブルにロードするサンプルコードです。

%spark.spark
import org.apache.commons.io.IOUtils
import java.net.URL
import java.nio.charset.Charset

// Zeppelin creates and injects sc (SparkContext) and sqlContext (HiveContext or SqlContext)
// So you don't need create them manually

// load bank data
val bankText = sc.parallelize(
IOUtils.toString(
new URL("https://raw.githubusercontent.com/selva86/datasets/refs/heads/master/bank-full.csv"),
Charset.forName("utf8")).split("\n"))

case class Bank(age: Integer, job: String, marital: String, education: String)

val bank = bankText.map(s => s.split(";")).filter(s => s(0) != "\"age\"").map(
s => Bank(s(0).toInt,
s(1).replaceAll("\"", ""),
s(2).replaceAll("\"", ""),
s(3).replaceAll("\"", "")
)
).toDF()
bank.registerTempTable("bank")

コードの実行と結果の照会

Zeppelin Notebookコードを実行して結果を確認する方法は、次の通りです。

[Shift] + [Enter] キーを押すか、をクリックしてコードを実行します。
- FINISHEDステータスと Took 4 secメッセージが表示されると、コードが正常に実行されたという意味です。
新しい段落でテーブルのデータを照会する Spark SQL構文を作成して [Shift] + [Enter] キーを押すか、をクリックしてコードを実行します。
- 照会の結果画面が表示されます。グラフボタンを利用し、SQLの結果を様々な種類のグラフで確認できます。
```
%spark.sql
select age, count(1) value
from bank
where age < 30
group by age
order by age
```

Zeppelin Notebookのバックアップ

Zeppelin Notebookは、クラスタのマスターノードの1番サーバに保存されます。そのため、クラスタを削除すると Notebookも一緒に削除されます。同じ Notebookを別のクラスタで使用するには、タスクの実行を完了した後、Notebookをエクスポートする必要があります。

Zeppelin Notebookをバックアップする方法は、次の通りです。

Notebook画面上段のボタンをクリックします。
ローカル PCにファイル名とパスを決めた後、保存します。
- エクスポートしたファイルは JSON形式で保存されます。

参考

Zeppelin Notebookのバックアップ時、Notebook単位で保存します。

参考

Zeppelinで jdbc interpreterをインストールするには、エッジサーバで/etc/zeppelin/conf/interpreter-listファイルの jdbcバージョン情報を変更してからインストールしてください。

変更前: jdbc org.apache.zeppelin:zeppelin-jdbc:0.11.0-SNAPSHOT Jdbc interpreter
変更後: jdbc org.apache.zeppelin:zeppelin-jdbc:0.10.1 Jdbc interpreter

詳細は、Mavenで jdbc interpreterのライブラリ依存関係(バージョン、ライブラリ名など)をご確認ください。

Zeppelin Notebookのパスワード変更

Insecure Hadoop

Insecure Hadoop状態の Zeppelin Notebookのパスワードは、Ambari Web UIを通じて変更できます。

[Zeppelin Notebook] > [CONFIGS] > [Advanced zeppelin-shiro-ini] で、users領域にあるパスワードを変更して Zeppelinを再起動します。

Secure Hadoop

Kerberosが有効になっている Secure Hadoopのすべてのアカウントとパスワードは、Kerberosおよび LDAPを通じて制御されます。
Zeppelin Notebookのパスワード変更も同じく、Kerberosや LDAPのコマンドを通じて作成、変更、削除を行うことができます。

Secure Hadoopのアカウント情報の制御については、Secure Hadoop のアカウント管理ガイドをご参照ください。