データソースの追加と管理

Prev Next

VPC環境で利用できます。

クエリに使用するデータソースを追加して登録されたデータを管理する方法を説明します。

データソース追加

クエリに使用するデータソースはコネクションによって追加できます。
データソースを追加する方法は、次の通りです。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、Menu > Services > Big Data & Analytics > Data Queryメニューを順にクリックします。
  2. Query Editorメニューをクリックします。
  3. 画面上部の [データソース追加] ボタンをクリックします。
    • あるいは [データソース管理] ボタンをクリックし、ポップアップで [データソース追加] ボタンをクリックします。
  4. 登録するデータソースの情報を入力します。
    • 名前: 英字の大小文字、数字、アンダースコア「_」を使用して最大50文字まで入力可能。先頭には英文字を使用。
    • ソースタイプ: 単一サポートされる JDBCを選択(様々なソースタイプを追加サポートする予定)
    • コネクション: Data Catalogサービスに登録されたコネクションの中で使用するデータとして作成したコネクションを選択
  5. [作成] ボタンをクリックします。
    • 追加されたデータソースが、データソースドロップダウンメニューと [データソース管理] ボタンをクリックすると表示されるリストに追加されます。
    • データソースドロップダウンメニューで項目を選択すると、コネクションを通じて読み込んだデータをツリー形式で確認できます。
    • これで追加したデータソースのデータベースを活用してクエリを実行できます。クエリ実行方法に関する詳細は、クエリ実行と管理をご参照ください。
参考

データソースは、Data Catalogサービスのコネクション接続情報を参照して作成されます。データソースを追加した後、Data Catalogサービスのコネクション接続情報が変更された場合は、データソースを削除してから再度追加してください。

データソースの詳細情報

データソースの種類によって接続と使用方法が一部変わります。

Data Catalog

  • Data Queryは Data Catalogサービスで収集されたスキーマ情報を連携してクエリに直接使用できます。Data Catalogは別途のデータソース登録の手続きなしでご利用の申し込み時に自動で追加されます。
注意

Data Catalogで収集された以下のテーブルは、Data Queryでデータが照会されません。

  • テーブルの Locationが個別 Fileで指定されたテーブル
    • 以下のユースケースと一緒にテーブルの Locationが Fileに指定された場合、Data Queryでデータが照会されません。
      例)
      • データを照会できる Location: s3a://test-bucket/database-name/table-name/
      • データを照会できない Location: s3a://test-bucket/database-name/table-name/data.csv
        • Data Catalogで上のようにスキャンされるテーブルはほとんどが一つのディレクトリに複数の構造に別のデータが存在する構造で、Object Storageで当該データを別途のディレクトリに分離した後、Scannerを実行するとテーブルの Locationがディレクトリとして正常認識されます。
  • Locationがサービス内部パスに指定されたテーブル
    • CLOUD_DB_FOR_MYSQL
    • CLOUD_DB_FOR_MSSQL
    • CLOUD_DB_FOR_POSTGRESQL
    • CLOUD_DB_FOR_MONGODB
    • JDBC
    • Cloud Hadoopの HDFSで Locationが指定されたテーブル
    • 上の typeのテーブルの中で MySQL、MSSQL、PostgreSQLは JDBCデータソース作成と接続後のデータを照会できます(Data Catalogで public ipアドレスで JDBC Connectionを作成)。

Public Data

  • Data Queryサービスではクエリに使用できる公開データソースをデフォルトで提供します。
  • データソースリストの中で public_dataを選択すると確認できます。ソースに含まれた具体的なデータベースリストは変わる場合があります。
データベース名 テーブル名 データ説明
data_naver_cloud_service vpc_flowlog Naver Cloudサービス
incheon_airport passenger_flight_schedule_summer_arrival
passenger_flight_schedule_summer_departure
passenger_flight_schedule_winter_arrival
passenger_flight_schedule_winter_departure
仁川国際空港公社
incheon_airport cargo_flight_schedule_summer_arrival
cargo_flight_schedule_summer_departure
cargo_flight_schedule_winter_arrival
cargo_flight_schedule_winter_departure
仁川国際空港公社
korea_national_railway subway_busan
subway_seoul_capital_area
国家鉄道公団
korea_trade_insurance exchange_rate
guaranteed_exchange_rate
韓国貿易保険公社
ministry_economy_finance foreign_exchange_reserves 企画財政部
ministry_land_infra_transport public_land_value
nationwide_bus_stop_location
国土交通部
national_health_insurance_service health_screening
emergency_room_visits
giving_birth_business_size
国民健康保険公団
national_pension_service pension_enrolled_business_establishment 国民年金公団
national_tax_service business_status_age_group
business_status_gender
business_status_years_of_establishment
business_status_top_100_essential
国税庁

JDBC

  • Data Queryサービスは JDBC接続をサポートし、ユーザーが簡単にデータベースに接続できます。これを通じてデータ照会、変更、削除など、様々なデータベースタスクを実行できます。
  • Data Query JDBCによる接続がサポートされているデータベース
    • MySQL(Cloud DB for MySQL提供バージョン互換性サポート)
    • MSSQL(Cloud DB for MSSQL提供バージョン互換性サポート)
    • PostgreSQL(Cloud DB for PostgreSQL提供バージョン互換性サポート)
    • MongoDB(Cloud DB for MongoDB提供バージョン互換性サポート)
注意

JDBC接続のためにはユーザーのリレーショナルデータベースおよびネットワーク環境に以下の IPアドレスへのアクセス許可が必要です。

  • Data Queryアクセス IPアドレス: 223.130.128.167
    • Data Queryでユーザー DBのメタデータ、データアクセスのために、以下のような方法でアクセス許可を追加
    • ex) Server > ACG > ACG設定メニューで Inboundルールに [TCP, 223.130.128.167, 사용자 DB port 번호] を追加
    • ex) Cloud DB for MySQL > DB管理 > DB User管理メニューで DB User & アクセス IPアドレス(223.130.128.167)を追加
  • Data Catalogアクセス IPアドレス: 110.165.25.5
    • JDBC Connectionを作成する場合、Data Catalog Connection作成ガイドに従って 110.165.25.5 IPアドレスも追加する必要があります。
    • Data Catalogからユーザー DBへの接続を確認するためのアクセス許可を追加
    • 上記の Data Queryと同様に ACG、DB User & アクセス IPアドレスに 110.165.25.5 を追加
注意

JDBC MongoDB連携のためには READ_WRITE 権限が必要です。詳細は、Cloud DB for MongoDBガイドをご参照ください。

データソース削除

クエリにもう使わないデータソースは削除して連携を中止できます。
データソースを削除する方法は、次の通りです。

参考

データソースを削除すると連携が切れて Data Queryサービスでのみ使えなくなりますが、実際の元のデータと Data Catalogサービスは影響を受けません。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、Menu > Services > Big Data & Analytics > Data Queryメニューを順にクリックします。
  2. Query Editorメニューをクリックします。
  3. 画面上部の [データソース管理] ボタンをクリックします。
  4. データソースポップアップのリストから削除したい項目のチェックボックスをクリックして選択し、 [削除] ボタンをクリックします。
  5. 通知ポップアップが表示されたら、 [確認] ボタンをクリックします。
    • 連携が中止され、すべてのデータソースリストから削除されます。

テーブル管理

データソースを登録するとツリー形式で内部のテーブルフィールドまで確認できます。この時に各テーブルに提供される付加機能を使うと、簡単にテーブルを管理できます。提供される機能は、次の通りです。

  • テーブルプレビュー: テーブル内容を予め確認するクエリ文をクエリウィンドウに自動で入力
  • テーブル DDL作成: テーブルを分析してそのテーブルを作成する DDL文をクエリウィンドウに自動で入力。テーブルのコピーと変更時に活用可能。
  • テーブル削除: テーブルを削除するクエリ文をクエリウィンドウに自動で入力
  • カタログを見る: テーブルが登録された Data Catalogサービスのカタログに移動

テーブル管理用付加機能を実行する方法は、次の通りです。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、Menu > Services > Big Data & Analytics > Data Queryメニューを順にクリックします。
  2. Query Editorメニューをクリックします。
  3. データソースツリー領域から変更したいテーブル横のオプションメニューにマウスオーバーします。
    • テーブルは i-dataquery_table マークで区分されています。
      dataquery-source-vpc_tree_ko
  4. 実行したい機能を選択してクリックします。
    • クエリ文自動入力機能を選択した場合、 [実行] ボタンをクリックしてクエリを実行できます。
    • カタログを見るを選択した場合、Data Catalogサービスの Tableメニューページが新しいウィンドウで表示されます。

テーブルの直接追加

Data Queryでテーブル作成 SQL文を実行したり、Data Catalogのテーブル作成機能を利用して Dataファイルを Tableとして登録できます。テーブルの追加方法は、次の通りです。

  1. NAVERクラウドプラットフォームコンソールの VPC環境で、Menu > Services > Big Data & Analytics > Data Queryメニューを順にクリックします。
  2. Query Editorメニューをクリックします。
  3. データソース領域の検索ウィンドウの隣にあるプラスボタンをクリックします。
    • プラスボタンは i-dataquery_add マークが付いています。

SQL文でのテーブル作成

CREATE TABLE

  • スキーマを直接定義し、テーブルプロパティとデータ位置を直接指定して新しいテーブルを作成します。
  • テーブルを Icebergテーブル形式で作成するには、CREATE TABLE(ICEBERG) 構文をご参照ください。

CREATE TABLE AS SELECT

  • 既存のテーブルとデータを利用して新しいテーブルを作成します。
  • ソーステーブルのデータやスキーマと同じテーブルを作成したり、
  • SELECT構文で必要なカラムだけを選択したり、データを簡単に変換して新しいテーブルを作成することができます。
  • テーブルを Icebergテーブル形式で作成するには、CREATE TABLE AS SELECT(ICEBERG) 構文をご参照ください。

CREATE VIEW

  • ユーザーが入力した SELECTクエリに対する新しい VIEWを作成します。
  • 複雑な SELECTクエリを VIEWで作成して簡単に再参照できます。

Data Catalogでのテーブル作成

Object Storageパスの指定

Data Catalogの Scannerを利用して Dataファイルを直接 Tableに登録できます。スキャンに必要な情報を入力し、スキャナーを実行します。

  • データベース: スキャナーを実行して作成するテーブルを接続するデータベースを選択
  • データタイプ
    • Catalog Default: Data Catalogが提供するデフォルト Hive Tableタイプです。
    • Apache Iceberg: 膨大な分析データセットのためのオープンテーブル形式として、ACIDトランザクション、スキーマの進化、Time Travelクエリなどをサポートし、Spark、Trino、Hiveで同時に安全にタスクを実行できます。
  • パス: スキャンするソースデータのパスを入力
    • 入力したパスのサブパスに対してスキャンを実行します。
    • [+設定] ボタンをクリックして、バケットまたはバケット下位の詳細パスを指定します。
  • スキャン方法
    • スキャナー新規作成: 新しいスキャナーを作成し、当該スキャナーを実行
    • 既存スキャナーを選択: Data Catalogで既存に作成したスキャナーのうち、 [データタイプ][データベース][パス] が同じスキャナーを実行
  • スキャン範囲: Object Storageにあるスキャンするファイル数を指定し、ファイル名順に読み込みます。
    • 1個から100個まで指定可能であり、デフォルト値は10個です。
    • 指定したパスの最下位フォルダ(leaf node)ごとに、指定した数だけスキャンします。
    • [データタイプ] が Catalog Defaultの場合のみ設定可能です。
  • パターン: 特定データのメタデータ収集を包含/除外するように設定
    • Glob Pattern形式で入力します。
    • 除外設定が包含設定より優先して適用されます。
    • [データタイプ] が Catalog Defaultの場合のみ設定可能です。
参考

[Data Catalogでのテーブル作成 > Object Storageパス指定] 機能は、DATA_CATALOG データソースに対してのみ動作可能です。

Data Catalogでのテーブル作成

Data Catalogコンソールを通じてスキーマの手動定義テーブルを作成したり、Scanner詳細オプションを調整してテーブルを作成できます。
詳細は、Data Catalogのデータ作成をご参照ください。