VPC環境で利用できます。
Data Flowを利用する全体のシナリオを学習する前に Data Flowに対する概念と使用例を説明します。
参考
Data Flowの概念の円滑な理解のために、用語をご参照ください。
ジョブとデータパイプライン
Data Flowで構成できるデータパイプラインは以下の構成図の通りです。

- データパイプラインはデータソース(ソースノード)、データ収集/変換(変換ノード)、データ保存場所(ターゲットノード)で構成されます。
- ジョブ(ETL Job)はデータソースからデータを抽出して変換した後、ターゲットノードに保存します。
- ワークフロー(Workflow)は複数のジョブを順次連結し 、ジョブスケジュールを予約してイベントを処理します。
- トリガー(Trigger)はジョブスケジュールを定義したファイルです。
- 複数のジョブと複数のワークフローを作成でき、Data Flowダッシュボードで実行状況をモニタリングできます。
- NAVERクラウドプラットフォームの Object Storage、Data Catalogをソースノードとターゲットノードとして使用できます。
- ジョブの実行スクリプトとジョブ履歴が Object Storageに保存されます。
- Data Catalogテーブルから読み取ったデータの詳細情報とスキーマを活用できます。
- Object Storageバケットにアップロードしたデータを一括変換して保存できます。
参考
2024年1月のリリースバージョンには以下のような制限事項があります。
- データソースとターゲットとして Object Storage、Cloud DB for MySQL、Data Catalogをサポートします。今後 NAVERクラウドプラットフォームの Cloud DBと顧客会社の On-premiseデータベースの連携をサポートする計画です。
- ワークフローは複数のトリガーと複数のジョブを組み合わせて構成するように設計されています。しかし今回のリリースではワークフロー1つにトリガー1つとジョブ1つのみ構成できます。今後のリリースで複数のトリガー/ジョブ構成およびイベントのノード構成を確認できます。
適用例
Data Flowの使用シナリオは様々な形で構成できます。このガイドで提供する使用シナリオの例は Data Flowの理解に役立つためのものです。
列の併合使用シナリオ
2つの jsonファイルを読み取り、列を併合した後に csvファイルで保存します。
- Object Storageで各 jsonファイルを盛り込むお互い違うバケット2つとターゲットデータを盛り込むバケット1つを作成
- バケット2つに各 jsonファイルをアップロード
- Data Flowで2つのデータの列の併合変換ジョブ(Job)を作成
- ソースノード2つを作成して2つの jsonファイルを指定
- 列の併合変換設定
- ターゲットノードにバケット設定およびデータ形式で csvを設定
- ジョブとトリガー(Trigger)を設定して実行ワークフロー(Workflow)を作成
- トリガーによってワークフローが実行されると Object Storageのバケットで保存された csvファイルを確認
プロパティ定義使用のシナリオ
データテーブルを読み取ってターゲットノードのスキーマを定義します。
- Data Catalogでデータテーブルを作成
- Object Storageでターゲットデータを盛り込むバケット1つを作成
- Data Flowで当該テーブルのプロパティ定義変換ジョブ(Job)を作成
- ソースノードにテーブルとスキーマバージョンを設定
- プロパティ定義の変換設定およびソースとターゲットノード間のスキーマをマッピング
- ターゲットノードにバケット設定およびデータ形式を設定
- ジョブとトリガー(Trigger)を設定して実行ワークフロー(Workflow)を作成
- トリガーによってワークフローが実行されると Object Storageのバケットで保存されたスキーマファイルを確認