Data flow とは

VPC環境で利用できます。

Data Flowを利用する全体のシナリオを学習する前に Data Flowに対する概念と使用例を説明します。

参考

Data Flowの概念の円滑な理解のために、用語をご参照ください。

ジョブとデータパイプライン

Data Flowで構成できるデータパイプラインは以下の構成図の通りです。

参考

2024年1月のリリースバージョンには以下のような制限事項があります。

データソースとターゲットとして Object Storage、Cloud DB for MySQL、Data Catalogをサポートします。今後 NAVERクラウドプラットフォームの Cloud DBと顧客会社の On-premiseデータベースの連携をサポートする計画です。
ワークフローは複数のトリガーと複数のジョブを組み合わせて構成するように設計されています。しかし今回のリリースではワークフロー1つにトリガー1つとジョブ1つのみ構成できます。今後のリリースで複数のトリガー/ジョブ構成およびイベントのノード構成を確認できます。

Data Flowの使用シナリオは様々な形で構成できます。このガイドで提供する使用シナリオの例は Data Flowの理解に役立つためのものです。

2つの jsonファイルを読み取り、列を併合した後に csvファイルで保存します。

Object Storageで各 jsonファイルを盛り込むお互い違うバケット2つとターゲットデータを盛り込むバケット1つを作成
バケット2つに各 jsonファイルをアップロード
Data Flowで2つのデータの列の併合変換ジョブ(Job)を作成
1. ソースノード2つを作成して2つの jsonファイルを指定
2. 列の併合変換設定
3. ターゲットノードにバケット設定およびデータ形式で csvを設定
ジョブとトリガー(Trigger)を設定して実行ワークフロー(Workflow)を作成
トリガーによってワークフローが実行されると Object Storageのバケットで保存された csvファイルを確認

データテーブルを読み取ってターゲットノードのスキーマを定義します。

Data Catalogでデータテーブルを作成
Object Storageでターゲットデータを盛り込むバケット1つを作成
Data Flowで当該テーブルのプロパティ定義変換ジョブ(Job)を作成
1. ソースノードにテーブルとスキーマバージョンを設定
2. プロパティ定義の変換設定およびソースとターゲットノード間のスキーマをマッピング
3. ターゲットノードにバケット設定およびデータ形式を設定
ジョブとトリガー(Trigger)を設定して実行ワークフロー(Workflow)を作成
トリガーによってワークフローが実行されると Object Storageのバケットで保存されたスキーマファイルを確認