Cloud Hadoop の概要

Prev Next

VPC環境で利用できます。

Cloud Hadoopは、Apache Hadoop、HBase、Spark、Hive、Prestoなどのオープンソースベースのフレームワークをユーザーが自由に使用して、ビッグデータを簡単かつ迅速に処理できる完全管理型クラウド分析サービスです。ターミナルを介するサーバへの直接アクセスを許可し、Ambariから提供される便利なクラスタ管理機能を使用してユーザーが直接管理できます。
NAVERクラウドプラットフォームの Cloud Hadoopサービスを用いると初期インフラを手軽に構成できます。2つのマスターノードを提供して必要に応じていつでもノードの拡張/縮小ができるため、サービスとジョブの安定性と柔軟な拡張性、可用性が確保できます。また、様々なフレームワークとサーバタイプをサポートしているため大規模なデータを分析でき、Web UIを通じて管理・モニタリングしてクラスタを制御できます。

Cloud Hadoopが提供する様々な機能

  • ユーザービリティ

    • Cloud Hadoopは自動でクラスタの作成をサポートするため、インフラ管理ジョブに対する負担を減らすことができます。
    • 様々なオープンソースフレームワークのインストールと構成、最適化過程によりいつでも分析可能なシステムを確保できます。
  • コストパフォーマンス

    • クラスタが開始された時点から終了する時点まで、ユーザーが使用した分だけ支払う効率的なサービスです。
    • データの保存場所として NAVERクラウドプラットフォームの Object Storageを使用し、リーズナブルなコストで大容量データを保存します。
  • 柔軟な拡張性と安定性

    • ユーザーが希望する時間にデータの分析に必要なインスタンスの数を手軽に減らしたり増やすことができます。
    • 2つのマスターノードを提供することで、サービスとジョブの安定性と可用性を高めることができます。
  • 様々なフレームワークをサポート

    • Hadoop: シンプルなプログラミングモデルを使用してコンピュータクラスタ全体に対し、大規模なデータセットを分散処理できるフレームワーク
    • HBase: 分散型で拡張可能な大容量データ保存場所
    • Spark: 大規模なデータ処理のための統合分析エンジン
    • Hive: SQLを使用して分散ストレージにある大規模なデータセットの読み取り、書き込み、管理を行えるデータウェアハウスソフトウェア
    • Presto: ビッグデータ用分散 SQLクエリエンジン
  • 管理とモニタリングのための Web UIを提供

    • Cloud Hadoopクラスタに関する情報やステータスを管理できる UIを提供します。
    • クラスタに対するルートアクセス権限を提供するため、クラスタを完璧に制御できます。また、フレームワークの設定値を確認・変更することもできます。

Cloud Hadoopご利用ガイドのご案内

  • Cloud Hadoop の概要: Cloud Hadoopの紹介とメリットのご案内、Cloud Hadoopの利用に役立つガイド、関連リソース、よくある質問とその回答のご案内
  • Cloud Hadoop の利用シナリオ: Cloud Hadoopについての全体利用シナリオのご案内
  • Cloud Hadoop の仕様: Cloud Hadoopを使用するためのサポート環境のご案内
  • Cloud Hadoop を開始する: NAVERクラウドプラットフォームコンソールで Cloud Hadoopを作成する方法のご案内
  • Cloud Hadoop を使用する: Cloud Hadoopの使用方法のご案内
  • Cloud Hadoop ecosystem の活用: Cloud Hadoopが提供するアプリケーション活用方法のご案内
  • Cloud Hadoop との連携: Cloud Hadoopと外部システムの連携方法のご案内
  • Cloud Hadoop のリソース管理: Cloud Hadoopリソース情報のご案内
  • Cloud Hadoop の権限管理: Cloud Hadoopの権限管理方法とポリシーのご案内
  • Cloud Hadoop のリリースノート: Cloud Hadoopのバージョンとガイドの更新履歴

Cloud Hadoop関連リソース

NAVERクラウドプラットフォームでは、Cloud Hadoopについて顧客の理解に役立つよう、ガイドの他にも様々な関連リソースを提供します。Cloud Hadoopを会社に導入しようと検討中の方や、データ関連ポリシーを策定する上で詳細情報を必要とする開発者、マーケターなどの方は以下のリソースを積極的に活用することをお勧めします。

よくある質問を先にご確認ください。

Q. Cloud Hadoopクラスタのノードタイプにはどのようなものがありますか?
A. Cloud Hadoopクラスタは、データを分散保存して分析するために構成されたクラスタ、ノードの集まりと言えます。クラスタ内のノードは、目的に応じて以下の3つのタイプが存在します。

  • エッジノード: 外部アクセスのためのゲートウェイ(Gateway)用ノード
  • マスターノード: ワーカーノードをモニタリングする管理者ノード。高可用性をサポートするため、2台のマスターノードが作成される。数は変更不可
  • ワーカーノード: マスターノードのコマンドを受けて実際のデータ分析などを行うノード。最初は最低2個から最大8個まで作成でき、その後は動的にノードを追加/削除可能

Q. Cloud Hadoopサービスはどのように構成されていますか?
A. Cloud Hadoopは、Hadoopクラスタを簡単かつ手軽に構築して管理できるサービスです。Hadoop、HBase、Spark、Prestoなどの構成要素を作って、大容量データを処理するためのシステムを構築して運用できます。クラスタには、大量のデータを処理できるオープンソースフレームワークである Apache Hadoop、HBase、Hive、Sparkをインストールできます。Cloud Hadoopサービスの構成については、以下の構成図(アーキテクチャ)をご参照ください。

chadoop-1_01_ko

Q. puttyで SSHに接続する過程で network error: connection timed out が発生します。
A. ACGで ssh接続(22番ポート)を許可しても、ssh接続エラーが発生した場合、Network ACL(NACL)で ssh接続(22番ポート)がブロックされている可能性があります。NACLで ssh接続(22番ポート)を許可してください。

Q. NCPサーバの Bandwidthはどのくらいですか?
A. NCPサーバの基本 Bandwidthは約1Gbps(1Gbits/sec)です。

Q. NCPサーバ使用中に、データを読み取る過程で全体的に多くのトラフィックが発生します。ネットワークトラフィックの使用量が多いときは、どのように使用するのが良いのでしょうか?
A.

  • 複数のワーカーノードを追加して、データとトラフィックを分散させることができます。
  • Storageリソースと Computingリソースを分離して Object Storageにデータを保存し、Cloud Hadoopの Computingリソースを利用して Object Storageのデータを読み取って保存すると、ネットワークトラフィック使用量を減らせます。

Q. Cloud Hadoop Ambari Metricサービスで通常動作している状態と maintenance modeで動作している状態で、機能にはどのような違いがありますか?
A. Ambari WebUIで提供する Maintenance Mode機能は、サービスまたはホスト単位で設定ができるようになっています。

  • Maintenance modeを設定すると、アラームが送信されません。
  • ホスト(サーバ)単位で Maintenance Modeを設定すると、サービス再起動などの一括処理を行う場合、一括処理から除外されます。

Q. Hueで show tablesを実行しても、Hiveインタプリタに Viewテーブルリストが表示されません。
A. show tablesを実行すると、一般テーブルリストのみ表示されます。show viewsを実行して Viewテーブルリストを確認できます。

Q. hive以外のアカウントで Hiveに接続した後、hive queryを実行すると Permission denied エラーが発生します。
A. 2つの解決策があります。

  • 当該アカウントを Yarn Queue ACLに追加する方法があります。Ambari WebUIログイン > Yarn Queue Manager選択 > default(yarn queue)選択後、Administer Queueの Usersと Submit Applicationsの Usersに当該アカウントを追加してください。
  • hiveアカウントを利用すると、別途アカウントを追加することなく使用できます。

Q. hadoop fsck / を実行してファイルシステムチェック時にエラーが発生します。
A. hdfsの fsckは hdfsアカウントで実行できます。sshuserでログイン後、sudo su - hdfsにアカウントを切り替えてから実行してください。

Q. Hiveを通じて Object Storage(S3)と連携する過程で S3との通信エラーが発生します。
A. Cloud Hadoopリージョン別の object storageアドレスをご確認ください。Public Subnet内のサーバでも、パブリック IPアドレスが割り当てられていないマスターサーバでは、Object Storageプライベートドメインでのみ通信できます。

参考

Object Storageドメインアドレスは次の通りです。
Public Subnet内のサーバ

  • パブリックドメインの kr.object.ncloudstorage.comを利用してインターネットベースの通信が行えます。
  • プライベートドメインの kr.object.private.ncloudstorage.comを利用してプライベート通信が行えます。

Private Subnet内のサーバ

  • 基本的にプライベートドメインの kr.object.private.ncloudstorage.comを利用して通信が行えます。
  • NAT Gatewayを利用すると、パブリックドメインの kr.object.ncloudstorage.comを利用して通信が行えます。

Q. Object Storageバケットを利用してデータマイグレーションを行いたいです。1つの Object Storageバケットに複数の Hadoop Clusterを接続できますか?
A. Cloud Hadoop作成時に指定した Object Storageバケットは、他の Cloud Hadoop作成時に選択することはできません。マイグレーションを行うためには、以下のような方法があります。

  1. Object Storageに新規バケットを作成し、データのアップロードを実行してください。
  2. 新規 Cloud Hadoop作成時、データをアップロードした新規バケットを選択して実行してください。

Q. 現在使用している Cloud Hadoopクラスタを削除した後、そのデータをそのまま使用したい場合はどうすればいいですか?
A. 2つの方法にて Cloud Hadoopクラスタは削除しても、データをそのまま使用できます。

Q. クラスタの作成時にクラスタ add-on(HBASE、Impala、Nifiなど)を選択しなくても、後でインストールして利用できますか?
A. クラスタを作成する場合、add-onを選択しなくても Ambari Web UIで [Add Service] ボタンをクリックしてサービスを追加できます。

Q. Apache Ambariから Hive Viewにアクセスできません。
A. Ambari 2.7.0からは Hive Viewをサポートしません。利用をご希望の場合、Hueを利用して Hiveにアクセスしてください。

Q. Cloud Hadoopクラスタ1.9バージョンを使用する場合、Presto 0.240バージョンが内蔵されていますが、Prestoを最新バージョンにマイグレーションできますか?
A. Presto(Trino)のバージョンアップはサポートしていません。Cloud Hadoop 2.0以降のバージョンは、Presto 0.240の上位バージョンである Trino 377をサポートしていますのでご参照ください。
Cloud Hadoopでサポートするバージョンの詳細は、クラスタバージョン別サポートアプリケーションで確認できます。

Q. Ambari Infra Solrサービスが停止した後、再起動ができません。
A. ログデータが多く蓄積され、Full GCにより Infra Solrサービスの稼働が停止する場合があります。

  • Infra Solrはログを保存するサービスであるため、長期間にわたって保存されたログの量によっては、Full GCなどでサービス稼働が困難になる場合があります。
  • サービス稼働が困難な場合は、以下のような措置を講じてください。
    • サービス稼働のために Infra Solrの Heapサイズを増やします。Heapサイズは Ambari Web UI > Infra Solr > Configs で調整できます。
    • サービスが正常に稼働すると、Infra Solrの hadoop_logsで一定期間以前のログデータを削除します。
      # 1か月前のデータ削除の例
      curl "http://{INFRA-SOLR-HOSTNAME}:8886/solr/hadoop_logs/update?commit=true" -H "Content-Type: text/xml" --data-binary "<delete><query>evtTime:[* TO  NOW-1MONTHS]</query></delete>"
      

Q. Hiveクエリ実行時に System times on machines may be out of sync エラーが発生します。
A. System timeと Hardware time間の同期化が必要です。Cloud Hadoop内のすべてのサーバで、以下のジョブを実行してください。

  1. 時間確認
    • System time確認: date
    • Hardware time確認: hwclock
  2. 時間同期化
    • Hardware timeを System timeに反映: hwclock --hctosys

Q. ntpstat 実行時に unsynchronisedが発生します。
A. 時間同期化の設定チェックを参照して Cloud Hadoopサーバ時間を同期してください。

Q. Trinoクエリログの保管周期を設定できますか?
A. オープンソースの Trinoでは、ログ保管周期の設定機能を提供しません。代わりに Trinoで提供するプロパティを活用してクエリ履歴を管理できます。

  • query.max-history: 最大保存可能なクエリ数を設定
  • query.min-expire-age: 履歴の有効期限にかかる最小時間の設定
    Trinoでのクエリ履歴は In-Memoryに保存されるため、query.max-historyをあまり大きい値に設定するとパフォーマンスに影響を与える場合があります。

Q. Trinoクエリ履歴をファイルとして保存できますか?
A. オープンソースの Trinoでは、クエリ履歴をファイルとして保存する機能を提供しません。代わりに Trino API(http://<TRONO_FQDN>:8285/ui/api/query)を活用してメモリにあるクエリ履歴を JSON形式で取得して活用できます。

Q. Hiveサービスで新規アカウントを追加したいです。
A. Apache Hiveは、OSのローカルアカウントを使用するので、クラスタ内で新規アカウントを作成します。以下のジョブを実行してください。

  1. Cloud Hadoopすべてのサーバに新規ローカルアカウント作成
    • useradd -u {uid} {new_user} -g hadoop
    • uidはすべてのサーバで同じ値に統一することを推奨
  2. HDFS上に新規アカウントのためのディレクトリ作成
    • hdfs dfs -mkdir /user/{new_user}
    • hdfs dfs -chown {new_user}:hadoop /user/{new_user}

Q. Impalaポートはどこで確認できますか?
A. Impalaポートは、 Ambari Web UI > Impala > Configs > Advanced impala-port > Hive Server2 port で確認してください。Impalaポートは、基本的に21050に設定されています。

Q. エッジノードの SSL証明書をインポートするにはどうすればいいですか?
A. scpコマンドを使用してエッジノードの証明書を現在のサーバにコピーしてインポートできます。
または、ウェブブラウザから証明書をダウンロードすることもできます。Application Web UIにアクセスし、 証明書ビューア > 詳細情報 > エクスポート をクリックして証明書をインポートできます。

Q. Application Web UIにアクセスできません。
A. クラスタの ACGルールでアクセスソースと許可ポートが正しく設定されているか確認してください。もし、SSL VPNを使用中の場合は Routing Tableに0.0.0.0/0値を目的地アドレスに使用しないようにご注意ください。詳細は、Web UIアクセスのための事前ジョブで確認してください。