Trino を使用する

VPC環境で利用できます。

Trinoはビッグデータ分析のための分散型 SQLクエリエンジンです。PrestoSQLが Trinoに Rebrandingされ、PrestoSQLをベースに提供されていた Prestoアプリも Trinoアプリに名前が変更されました。Data Forestで提供している Prestoアプリと同様に、Trinoアプリでもユーザーごとに独立した Trinoサーバ環境を構成できます。

参考

Trinoの詳細な説明は、TRINOをご参照ください。
Data Forestでは、Trinoエンジンを Trino 437バージョンで提供します。ES connectorに含まれていた log4jが Trino 366バージョン以降から削除されているので、log4jの脆弱性( CVE-2021-44228)から安全に使用できます。詳細な説明は、公式ドキュメントをご確認ください。
Trinoアプリでは、Trinoサーバと Trino Cliおよび Supervisor機能を一緒に提供します。
Trinoアプリでカスタム configurationを設定する機能は現在準備中です。

Trinoアプリの詳細情報の確認

アプリの作成が完了すると、詳細情報を確認できます。アプリの詳細情報の Statusが Stableの場合、アプリが正常に起動されたことを意味します。

アプリの詳細情報を確認する方法は、次の通りです。

NAVERクラウドプラットフォームコンソールの VPC環境で、Menu > Services > Big Data & Analytics > Data Forestメニューを順にクリックします。
左側の Data Forest > Appsメニューをクリックします。
アプリを所有するアカウントを選択します。
詳細情報を確認するアプリをクリックします。
アプリの詳細情報を確認します。
- Quick links
  - Trino Coordinator: Trino Coordinator Web UIにアクセス可能。ユーザーアカウント名とパスワードでログイン
  - Trino Cli Web: ブラウザを通じて Webベースの Cliを使用可能。ユーザーアカウント名とパスワードでログイン
  - Supervisor: コンテナのアプリプロセスをモニタリングして管理できる supervisorを提供。Supervisor Web UIを通じてプロセス管理が可能
- コンポーネント: デフォルトで指定された値が推奨リソースです。
  - coordinator: coordinatorロールを実行するコンポーネント
  - worker: workerロールを実行するコンポーネント

例)

Trino Coordinator接続画面
Trino Cli Web接続画面
Supervisor接続画面

Catalog、Schema確認

このアプリで作成した Trinoサーバには Hive Connectorがデフォルトで設定されているため、Hive Warehouseにアクセスすることができます。

以下のように hive、system catalogが存在することが確認できます。system catalogはクラスタに関する情報と指標を提供します。

Password:
trino> show catalogs;
Catalog
---------
hive
system
(2 rows)

Query 20220208_050852_00000_4xb62, FINISHED, 3 nodes
Splits: 53 total, 53 done (100.00%)
1.23 [0 rows, 0B] [0 rows/s, 0B/s]

system catalogの下位に存在するテーブルと Prestoクラスタを構成するノード情報を確認できます。

trino> SHOW SCHEMAS FROM system;
Schema
--------------------
information_schema
jdbc
metadata
runtime
(4 rows)

Query 20220208_051532_00001_4xb62, FINISHED, 4 nodes
Splits: 53 total, 53 done (100.00%)
0.28 [4 rows, 57B] [14 rows/s, 201B/s]

trino> SHOW TABLES FROM system.runtime;
Table
----------------------
nodes
optimizer_rule_stats
queries
tasks
transactions
(5 rows)

Query 20220208_051549_00002_4xb62, FINISHED, 4 nodes
Splits: 53 total, 53 done (100.00%)
0.32 [5 rows, 134B] [15 rows/s, 425B/s]

trino> SELECT * FROM system.runtime.nodes;
node_id | http_uri | node_version | coordinator | state
-------------------------------------------------------------------+----------------------------+--------------+-------------+--------
test-01-worker-0-container_e814_1643186470613_0056_01_000003 | http://10.250.31.228:10292 | 367 | false | active
test-01-coordinator-0-container_e814_1643186470613_0056_01_000002 | http://10.250.31.224:10302 | 367 | true | active
test-01-worker-1-container_e814_1643186470613_0056_01_000004 | http://10.250.31.225:10292 | 367 | false | active
test-01-worker-2-container_e814_1643186470613_0056_01_000005 | http://10.250.31.227:10292 | 367 | false | active
(4 rows)

Query 20220208_051555_00003_4xb62, FINISHED, 2 nodes
Splits: 17 total, 17 done (100.00%)
0.23 [4 rows, 389B] [17 rows/s, 1.65KB/s]

trino>

hive catalogを確認できます。Trinoで Hive Metastoreの下位に保存されたデータを照会できます。

trino> SHOW SCHEMAS FROM hive;
Schema
--------------------------
default
df_test__db_foo
information_schema
(3 rows)

Query 20220208_054001_00004_4xb62, FINISHED, 4 nodes
Splits: 53 total, 53 done (100.00%)
0.92 [7 rows, 141B] [7 rows/s, 153B/s]

worker数の変更

アプリ使用中に worker数を変更できます。

worker数を変更する方法は、次の通りです。

NAVERクラウドプラットフォームコンソールの VPC環境で、Menu > Services > Big Data & Analytics > Data Forestメニューを順にクリックします。
左側の Data Forest > Appsメニューをクリックします。
アカウントを選択してアプリを選択し、 [Flex] ボタンをクリックします。
Flexの変更画面が表示されたら、worker数を変更して [変更] ボタンをクリックします。

参考

Flex機能を使用して worker数を減らすと、{{COMPONENT_ID}}が大きいものから停止します。workerが5つの場合、worker-4、worker-3、worker-2…の順に除外されます。

Documentation Index

Trino を使用する

Trinoアプリの詳細情報の確認

Catalog、Schema確認

worker数の変更