Data flow とは

Prev Next

VPC環境で利用できます。

Data Flowを利用する全体のシナリオを学習する前に Data Flowに対する概念と使用例を説明します。

参考

Data Flowの概念の円滑な理解のために、用語をご参照ください。

ジョブとデータパイプライン

Data Flowで構成できるデータパイプラインは以下の構成図の通りです。
image

  • データパイプラインはデータソース(ソースノード)、データ収集/変換(変換ノード)、データ保存場所(ターゲットノード)で構成されます。
  • ジョブ(ETL Job)はデータソースからデータを抽出して変換した後、ターゲットノードに保存します。
  • ワークフロー(Workflow)は複数のジョブを順次連結し 、ジョブスケジュールを予約してイベントを処理します。
  • トリガー(Trigger)はジョブスケジュールを定義したファイルです。
  • 複数のジョブと複数のワークフローを作成でき、Data Flowダッシュボードで実行状況をモニタリングできます。
  • NAVERクラウドプラットフォームの Object Storage、Data Catalogをソースノードとターゲットノードとして使用できます。
  • ジョブの実行スクリプトとジョブ履歴が Object Storageに保存されます。
  • Data Catalogテーブルから読み取ったデータの詳細情報とスキーマを活用できます。
  • Object Storageバケットにアップロードしたデータを一括変換して保存できます。
参考

2024年1月のリリースバージョンには以下のような制限事項があります。

  • データソースとターゲットとして Object Storage、Cloud DB for MySQL、Data Catalogをサポートします。今後 NAVERクラウドプラットフォームの Cloud DBと顧客会社の On-premiseデータベースの連携をサポートする計画です。
  • ワークフローは複数のトリガーと複数のジョブを組み合わせて構成するように設計されています。しかし今回のリリースではワークフロー1つにトリガー1つとジョブ1つのみ構成できます。今後のリリースで複数のトリガー/ジョブ構成およびイベントのノード構成を確認できます。

適用例

Data Flowの使用シナリオは様々な形で構成できます。このガイドで提供する使用シナリオの例は Data Flowの理解に役立つためのものです。

列の併合使用シナリオ

2つの jsonファイルを読み取り、列を併合した後に csvファイルで保存します。

  1. Object Storageで各 jsonファイルを盛り込むお互い違うバケット2つとターゲットデータを盛り込むバケット1つを作成
  2. バケット2つに各 jsonファイルをアップロード
  3. Data Flowで2つのデータの列の併合変換ジョブ(Job)を作成
    1. ソースノード2つを作成して2つの jsonファイルを指定
    2. 列の併合変換設定
    3. ターゲットノードにバケット設定およびデータ形式で csvを設定
  4. ジョブとトリガー(Trigger)を設定して実行ワークフロー(Workflow)を作成
  5. トリガーによってワークフローが実行されると Object Storageのバケットで保存された csvファイルを確認

プロパティ定義使用のシナリオ

データテーブルを読み取ってターゲットノードのスキーマを定義します。

  1. Data Catalogでデータテーブルを作成
  2. Object Storageでターゲットデータを盛り込むバケット1つを作成
  3. Data Flowで当該テーブルのプロパティ定義変換ジョブ(Job)を作成
    1. ソースノードにテーブルとスキーマバージョンを設定
    2. プロパティ定義の変換設定およびソースとターゲットノード間のスキーマをマッピング
    3. ターゲットノードにバケット設定およびデータ形式を設定
  4. ジョブとトリガー(Trigger)を設定して実行ワークフロー(Workflow)を作成
  5. トリガーによってワークフローが実行されると Object Storageのバケットで保存されたスキーマファイルを確認