Scanner

Prev Next

VPC環境で利用できます。

スキャナー(Scanner)はソースデータのスキーマを推測し、分類子を活用してデータに合わせたテーブルを作成します。スキャナーの実行周期を設定すると、定期的にデータを収集してメタデータを最新ステータスに更新できます。Scannerメニューではスキャナーを作成し、実行・管理できます。

Scannerリスト画面

Data Catalog利用のための Scannerメニューの基本的な説明は、次の通りです。

datacatalog-scanner_screen_ko

領域 説明
① メニュー名 現在確認中のメニュー名、照会中のスキャナー数
② 基本機能 Scannerメニューに初回アクセスすると表示される機能
  • [スキャナー作成] ボタン: クリックしてスキャナーを作成(スキャナー作成を参照)
  • [サービスの詳細を見る] ボタン: クリックして Data Catalog紹介ページに移動
  • [更新] ボタン: クリックしてスキャナーリストを更新
③ スキャナー情報タブ 基本情報、ソースデータ、出力データ、実行周期タブを選択して詳細情報を照会
④ スキャナー情報領域 スキャナー情報タブで選択したタブの詳細情報を照会
⑤ 実行履歴 スキャナー実行履歴および詳細履歴を照会

Scanner詳細画面

Scanner詳細画面の基本的な説明は、次の通りです。

datacatalog-scanner_screen_ko

領域 説明
① スキャナー名 選択したスキャナーの名前
② 基本機能
  • [実行] ボタン: クリックして実行
  • [変更] ボタン: クリックしてスキャナー情報を変更
  • [削除] ボタン: クリックして該当するスキャナーを削除
  • [実行管理] ボタン: クリックして実行中のスキャナーを停止、実行周期を一時停止、実行周期を再開する機能を設定
  • [更新] ボタン: クリックしてスキャナーリストを更新
③ 作成後の機能 スキャナー作成後に有効になる機能
  • [実行] ボタン: クリックしてスキャナーを実行(スキャナー実行を参照)
  • [実行管理] ボタン: クリックしてスキャナーの周期実行管理メニューを表示
④ 検索ボックス スキャナー名または説明でスキャナーを検索
⑤ スキャナーリスト 照会中のスキャナーリストとして、クリックして詳細情報を確認

スキャナー作成

メタデータを収集するソースデータとスキャン実行オプション情報を設定してスキャナーを作成できます。スキャナーを作成する方法は、次の通りです。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、 i_menu > Services > Big Data & Analytics > Data Catalogメニューを順にクリックします。
  2. Scannerメニューをクリックします。
  3. [スキャナー作成] ボタンをクリックします。
  4. スキャンするソースデータの情報を入力します。
    • データタイプ: データソースを選択
    • コネクション: データソースに接続するためのコネクションを選択
      • [コネクション作成] ボタンをクリックし、コネクションを作成できます。詳細は、コネクション作成をご参照ください。
      • データタイプが Cloud DB類の場合、コネクションを選択すると [接続テスト] ボタンが表示されます。必ず [接続テスト] ボタンをクリックし、接続を確認します。
      • データタイプが Object Storage、Apache Icebergの場合、コネクションを選択しません。
    • パス: スキャンするソースデータのパスを入力
      • 入力したパスのサブパスに対してスキャンを実行します。
      • ソースデータタイプが Object Storage種類の場合、 [+設定] ボタンをクリックしてバケットやサブバケットの詳細パスを指定します。
      • ソースデータタイプが Cloud DB類の場合、スキャンするテーブル名を入力します。
        • %を入力すると、全データベースをスキャンしてテーブルごとにメタデータテーブルを作成します。
      • ソースデータタイプが Apache Icebergタイプの場合、メタデータの親フォルダまたはメタデータフォルダを指定します。
        • 例) icebergメタデータが /iceberg_table/metadata/の下位にある場合、スキャンするには /iceberg_table/または /iceberg_table/metadata/のパスを指定する必要があります。
        • Apache Icebergタイプは1つのスキャナー当たり1つのテーブルのみスキャンでき、format-versionは1、2バージョンまでサポートします
    • スキャン範囲: ソースデータタイプが Object Storageの場合、スキャンするファイル数を指定し、ファイル名順に読み取ります。
      • 1個から100個まで指定でき、入力しない場合はすべてのファイルをスキャンします。
      • 指定したパスの最下位フォルダ(leaf node)ごとに、指定した数だけスキャンします。
  5. 実行オプションを入力します。
    • 実行周期: スキャンを実行する周期を入力
      • オンデマンド: 実行周期なしで、コンソールでスキャナーを直接実行
      • 毎日/毎週/毎月: 設定した日時にスキャンを実行
      • クローン: 実行周期をクローン形式で入力
    • パターン: 特定データのメタデータ収集を包含/除外するように設定
      • Glob Pattern形式で入力します。
      • 除外設定が包含設定より優先して適用されます。
    • 分類子: データ形式に応じて分類子を選択し、 [追加] ボタンをクリックして分類子を追加
      • ソースデータタイプが Object Storageの場合に設定できます。
      • [分類子作成] ボタンをクリックし、分類子を作成できます。詳細は、分類子作成をご参照ください。
      • i-datacatalog-deleteをクリックして追加した分類子を削除できます。
    • パーティション設定: 希望する形式のパーティションの形式のみ認識してスキャン
      • ソースデータタイプが Object Storageの場合に設定できます。
      • [hiveパーティションニング形式のみ適用] をチェックしない場合、すべてのディレクトリパーティションニング形式をパーティションとして認識して判断します。
      • [hiveパーティショニング形式のみ適用] をチェックする場合、hiveパーティショニング形式のみをパーティションとして認識して判断するように設定します。
  6. [次へ] ボタンをクリックします。
  7. 出力データ情報とテーブル更新処理方式を入力します。
    • データベース: スキャナーを実行して作成するテーブルを接続するデータベースを選択
      • [データベース作成] ボタンをクリックし、データベースを作成できます。詳細は、データベース作成をご参照ください。
    • Prefix: 作成するテーブル名の前に追加する文字列を入力
      • 入力しない場合、テーブル名はソースデータ名をベースに自動作成されます。
    • スキーマ追加時: ソースデータのスキーマ変更履歴を検知した場合に行うテーブルアップデート方式を選択
      • テーブル定義更新: スキーマを新たに作成し、削除されたデータに対するメタデータを削除
      • 新しい列のみ追加: 新規スキーマを追加し、既存のスキーマは保持
      • 無視: 既存のスキーマを保持
    • テーブルマージ: 当該フォルダにファイルタイプとパーティション構造が同じである場合、ファイルのデータ構造に関係なくすべてのデータを1つのテーブルにマージして出力します。(structタイプのフィールドのサブフィールドのマージは提供しません。今後提供予定)。
    • テーブル数制限: スキャン後に出力されるテーブル数が設定した数より多い場合、テーブル作成を行わずにキャンセルします。
  8. [次へ] ボタンをクリックします。
  9. スキャナー名と説明を入力して設定項目を確認した後、 [保存] ボタンをクリックします。
参考

Object Storageデータタイプのスキャナーは最大30個まで作成できます。

Hiveでのパーティショニング(Partitioning)は、データベーステーブルを効率的に管理し、クエリの性能を向上させるための方法です。パーティショニングは、大きなデータセットを複数の小さなサブデータセットに分けて保存する手法です。この手法を使用すると、クエリが特定のパーティションだけをスキャンするようにすることで、不要なデータスキャンを減らすことができます。
通常 key=value形式でディレクトリを作成してデータを保存し、例えば 「month=01」、「day=01」のように日付別に分けたり、「type=A」、「type=B」のように特定の値で区分して保存できます。

スキャナー検索と情報確認

作成したスキャナーを検索して情報を確認する方法は、次の通りです。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、 i_menu > Services > Big Data & Analytics > Data Catalogメニューを順にクリックします。
  2. Scannerメニューをクリックします。
  3. 検索ボックスでスキャナー名または説明を入力した後、i-datacatalog-searchをクリックしてスキャナーを検索します。
  4. スキャナー名をクリックしてスキャナーの詳細画面に移動した後、以下の内容を確認します。項目ごとの詳細な説明は、スキャナー作成の内容をご参照ください。
    • 基本情報タブ
      • ステータス: スキャナーのステータス
      • 説明: スキャナーの説明
      • 直近の実行結果: 直近のスキャナー実行結果
      • 直近の実行日時: 直近のスキャナー実行日時
      • 作成日時: スキャナーの作成日時
      • 更新日時: スキャナー設定を変更した一番最近の日時
    • ソースデータタブ
      • データタイプ: スキャンデータタイプ
      • パターン: スキャン対象の含む/除外のパターン
      • パス: スキャンパス
      • 分類子: スキャン時に適用する分類子
      • パーティション設定: スキャンするパーティションの形式を設定
    • 出力データタブ
      • データベース: スキャン結果テーブルのデータベース
      • Prefix: スキャン結果テーブル名の prefix
      • スキーマ追加オプション: スキャン結果アップデートのオプション
      • テーブル数制限: スキャン時に出力する最大テーブル数
      • テーブル結合: スキャン時のテーブル1つへの結合有無
    • 実行周期タブ
      • 実行周期: 設定されたスキャナーの実行周期(設定停止中は取り消し線で表示されます)
    • [実行履歴] : 検索条件に応じて最近の10件のスキャナー実行履歴を確認
      • 開始日時/終了日時: スキャン実行の開始/終了日時
      • 実行時間: スキャン実行にかかった時間
      • 実行結果: スキャン実行の結果
      • 結果サマリー: スキャン実行で追加・変更されたテーブル数、スキャン失敗原因、スキャンキャンセル履歴などの情報を表示、クリックして実行詳細履歴のポップアップを照会
      • [詳細を見る] ボタン: スキャン実行の詳細ログを CLAサービスで確認できます

スキャナー実行

スキャナーをコンソールで手動で実行できます。

注意

パーティションキーは最初のスキャン時にのみ作成され、スキャンの間では追加されません。したがってパーティションキーを追加する場合、テーブルを削除した後にスキャンをもう一度お試しください。ただし、パーティション値はスキャンの間に何度も追加できます。
複数のファイルがまとまって圧縮されている*.zipファイルの場合、解凍後に任意のファイル1つのみスキャンします。

参考

実行周期を設定したスキャナーは設定に従って自動で実行され、いつでもコンソールで手動で実行できます。

スキャナーを実行する方法は、次の通りです。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、 i_menu > Services > Big Data & Analytics > Data Catalogメニューを順にクリックします。
  2. Scannerメニューをクリックします。
  3. 実行するスキャナーをクリックして選択し、 [実行] ボタンをクリックするか、スキャナーを選択して詳細情報を確認後、 [実行] ボタンをクリックします。
    • スキャナー詳細画面では、スキャナーの実行ステップ進捗率が表示されます。
      • Object Storageスキャナー実行ステップ: INIT(初期化)、SCAN_FILE(ファイルスキャン中)、CHECK_PARTITION(パーティション判定中)、MERGE_PARTITION(パーティション結合中)、UPDATE_RESULT(スキャン結果送信中)
      • Cloud DB/JDBC/Icebergスキャナー実行ステップ: INIT(初期化)、SCAN_FILE(テーブルスキャン中)、UPDATE_RESULT(スキャン結果送信中)
    • 実行が完了するとスキャナーのステータス実行待機最近の実行結果成功と表示されます。
    • 実行中のスキャナーをクリックして選択し、 [実行管理] > 実行停止を順にクリックしてスキャンを停止できます。

スキャナー実行周期の一時停止と再試行

定期的に自動実行するように設定したスキャナーの自動実行を一時停止するか、一時停止したスキャナーの自動実行を再試行するように設定できます。設定する方法は、次の通りです。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、 i_menu > Services > Big Data & Analytics > Data Catalogメニューを順にクリックします。
  2. Scannerメニューをクリックします。
  3. スキャナーを選択して [実行管理] ボタンをクリックするか、スキャナー名をクリックしてスキャナー詳細画面を表示した後、 [実行管理] ボタンをクリックします。
  4. 設定する内容に応じて実行周期の一時停止または実行周期の再試行をクリックします。
    • 実行周期の一時停止: 定期的に自動実行するように設定したスキャナーの自動実行を一時停止
    • 実行周期の再試行: 一時停止したスキャナーの自動実行を再試行

スキャナー変更

作成したスキャナー情報を変更する方法は、次の通りです。

参考

実行中のスキャナーは変更できません。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、 i_menu > Services > Big Data & Analytics > Data Catalogメニューを順にクリックします。
  2. Scannerメニューをクリックします。
  3. 変更するスキャナーの名前をクリックし、スキャナー詳細画面に移動します。
  4. [変更] ボタンをクリックします。
  5. スキャナー変更画面でスキャナー情報を変更します。
  6. 変更を完了したら、 [保存] ボタンをクリックします。

スキャナー削除

作成したスキャナーを削除する方法は、次の通りです。

注意

削除したスキャナーは復旧できません。

参考

実行中のスキャナーは削除できません。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、 i_menu > Services > Big Data & Analytics > Data Catalogメニューを順にクリックします。
  2. Scannerメニューをクリックします。
  3. 削除するスキャナーの名前をクリックし、スキャナー詳細画面に移動します。
  4. [削除] ボタンをクリックします。
  5. お知らせのポップアップが表示されたら、注意事項を確認して [削除] ボタンをクリックします。