Cloud Hadoop の概要

Prev Next

Classic環境で利用できます。

Cloud Hadoopは、Apache Hadoop、HBase、Spark、Hive、Prestoなどのオープンソースベースのフレームワークをユーザーが自由に使用して、ビッグデータを簡単かつ迅速に処理できる完全管理型クラウド分析サービスです。ターミナルを介するサーバへの直接アクセスを許可し、Ambariから提供される便利なクラスタ管理機能を使用してユーザーが直接管理できます。
NAVERクラウドプラットフォームの Cloud Hadoopサービスを用いると初期インフラを手軽に構成できます。2つのマスターノードを提供して必要に応じていつでもノードの拡張/縮小ができるため、サービスとジョブの安定性と柔軟な拡張性、可用性が確保できます。また、様々なフレームワークとサーバタイプをサポートしているため大規模なデータを分析でき、Web UIを通じて管理・モニタリングしてクラスタを制御できます。

Cloud Hadoopが提供する様々な機能

  • ユーザビリティ

    • Cloud Hadoopは自動でクラスタの作成をサポートするため、インフラ管理ジョブに対する負担を減らすことができます。
    • 様々なオープンソースフレームワークのインストールと構成、最適化過程によりいつでも分析可能なシステムを確保できます。
  • コストパフォーマンス

    • クラスタが開始された時点から終了する時点まで、ユーザーが使用した分だけ支払う効率的なサービスです。
    • データの保存場所として NAVERクラウドプラットフォームの Object Storageを使用し、リーズナブルなコストで大容量データを保存します。
  • 柔軟な拡張性と安定性

    • ユーザーが希望する時間にデータの分析に必要なインスタンスの数を手軽に減らしたり増やすことができます。
    • 2つのマスターノードを提供することで、サービスとジョブの安定性と可用性を高めることができます。
  • 様々なフレームワークをサポート

    • Hadoop: シンプルなプログラミングモデルを使用してコンピュータクラスタ全体に対し、大規模なデータセットを分散処理できるフレームワーク
    • Hbase: 分散型で拡張可能な大容量データ保存場所
    • Spark: 大規模なデータ処理のための統合分析エンジン
    • Hive: SQLを使用して分散ストレージにある大規模なデータセットの読み取り、書き込み、管理を行えるデータウェアハウスソフトウェア
    • Presto: ビッグデータ用分散 SQLクエリエンジン
  • 管理とモニタリングのための Web UIを提供

    • Cloud Hadoopクラスタに関する情報やステータスを管理できる UIを提供します。
    • クラスタに対するルートアクセス権限を提供するため、クラスタを完璧に制御できます。また、フレームワークの設定値を確認・変更することもできます。

Cloud Hadoopご利用ガイドのご案内

  • Cloud Hadoop の概要: Cloud Hadoopの紹介とメリットのご案内、Cloud Hadoopの利用に役立つガイド、関連リソース、よくある質問とその回答のご案内
  • Cloud Hadoop の利用シナリオ: Cloud Hadoopについての全体利用シナリオのご案内
  • Cloud Hadoop の仕様: Cloud Hadoopを使用するためのサポート環境のご案内
  • Cloud Hadoop を開始する: NAVERクラウドプラットフォームコンソールで Cloud Hadoopを作成する方法のご案内
  • Cloud Hadoop を使用する: Cloud Hadoopの使用方法のご案内
  • Cloud Hadoop ecosystem の活用: Cloud Hadoopが提供するアプリケーション活用方法のご案内
  • Cloud Hadoop との連携: Cloud Hadoopと外部システムの連携方法のご案内
  • Cloud Hadoop の権限管理: Cloud Hadoopの権限管理方法とポリシーのご案内
  • Cloud Hadoop のリリースノート: Cloud Hadoopのバージョンとガイドの更新履歴

Cloud Hadoop関連リソース

NAVERクラウドプラットフォームでは、Cloud Hadoopについて顧客の理解に役立つよう、ガイドの他にも様々な関連リソースを提供します。Cloud Hadoopを会社に導入しようと検討中の方や、データ関連ポリシーを策定する上で詳細情報を必要とする開発者、マーケターなどの方は以下のリソースを積極的に活用することをお勧めします。

よくある質問を先にご確認ください。

Q. Cloud Hadoopを使用するべき理由は何ですか?
A. Cloud Hadoopは、オープンソースコンポーネントが構築されたクラスタをユーザーが自由に使用できることが特徴です。ターミナルを介するサーバへの直接アクセスを許可し、Ambariから提供される便利なクラスタ管理機能により、ユーザーが直接管理するインストール型クラスタサービスです。

Q. Cloud Hadoopクラスタのノードタイプにはどのようなものがありますか?
A. Cloud Hadoopクラスタは、データを分散保存して分析するために構成されたクラスタ、ノードの集まりと言えます。クラスタ内のノードは、目的に応じて以下の3つのタイプが存在します。

  • エッジノード: 外部アクセスのためのゲートウェイ(Gateway)用ノード
  • マスターノード: ワーカーノードをモニタリングする管理者ノード。高可用性をサポートするため、2台のマスターノードが作成される。数は変更不可
  • ワーカーノード: マスターノードのコマンドを受けて実際のデータ分析などを行うノード。最初は最低2個から最大8個まで作成でき、その後は動的にノードを追加/削除可能

Q. Cloud Hadoopサービスはどのように構成されていますか?
A. Cloud Hadoopは、Hadoopクラスタを簡単かつ手軽に構築して管理できるサービスです。Hadoop、HBase、Spark、Prestoなどの構成要素を作って、大容量データを処理するためのシステムを構築して運用できます。クラスタには、大量のデータを処理できるオープンソースフレームワークである Apache Hadoop、HBase、Hive、Sparkをインストールできます。Cloud Hadoopサービスの構成については、以下の構成図(アーキテクチャ)をご参照ください。

chadoop-1_01_ko

Q. puttyで SSHに接続する過程で network error: connection timed out が発生します。
A. ACGで ssh接続(22番ポート)を許可しても、ssh接続エラーが発生した場合、Network ACL(NACL)で ssh接続(22番ポート)がブロックされている可能性があります。NACLで ssh接続(22番ポート)を許可してください。

Q. NCPサーバの Bandwidthはどのくらいですか?
A. NCPサーバの基本 Bandwidthは約1Gbps(1Gbits/sec)です。

Q. NCPサーバ使用中に、データを読み取る過程で全体的に多くのトラフィックが発生します。ネットワークトラフィックの使用量が多いときは、どのように使用するのが良いのでしょうか?
A.

  • 複数のワーカーノードを追加して、データとトラフィックを分散させることができます。
  • Storageリソースと Computingリソースを分離して Object Storageにデータを保存し、Cloud Hadoopの Computingリソースを利用して Object Storageのデータを読み取って保存すると、ネットワークトラフィック使用量を減らせます。

Q. Cloud Hadoop Ambari Metricサービスで通常動作しているステータスと maintenance modeで動作しているステータスで、機能にはどのような違いがありますか?
A. Ambari WebUIで提供する Maintenance Mode機能は、サービスまたはホスト単位で設定ができるようになっています。

  • Maintenance modeを設定すると、アラームが送信されません。
  • ホスト(サーバ)単位で Maintenance Modeを設定すると、サービス再起動などの一括処理を行う場合、一括処理から除外されます。

Q. Hueで show tablesを実行しても、Hiveインタプリタに Viewテーブルリストが表示されません。
A. show tablesを実行すると、一般テーブルリストのみ表示されます。show viewsを実行して Viewテーブルリストを確認できます。

Q. hive以外のアカウントで Hiveに接続した後、hive queryを実行すると Permission denied エラーが発生します。
A. 2つの解決策があります。

  • 当該アカウントを Yarn Queue ACLに追加する方法があります。Ambari WebUIログイン > Yarn Queue Manager選択 > default(yarn queue)選択後、Administer Queueの Usersと Submit Applicationsの Usersに当該アカウントを追加してください。
  • hiveアカウントを利用すると、別途アカウントを追加することなく使用できます。

Q. hadoop fsck / を実行してファイルシステムチェック時にエラーが発生します。
A. hdfsの fsckは hdfsアカウントで実行できます。sshuserでログイン後、sudo su - hdfsにアカウントを切り替えてから実行してください。

Q. Hiveを通じて Object Storage(S3)と連携する過程で S3との通信エラーが発生します。
A. Cloud Hadoopリージョン別の object storageアドレスをご確認ください。Public Subnet内のサーバでも、パブリック IPアドレスが割り当てられていないマスターサーバでは、Object Storageプライベートドメインでのみ通信できます。

参考

kr.object.ncloudstorage.com

Q. Object Storageバケットを利用してデータマイグレーションを行いたいです。1つの Object Storageバケットに複数の Hadoop Clusterを接続できますか?
A. Cloud Hadoop作成時に指定した Object Storageバケットは、他の Cloud Hadoop作成時に選択することはできません。マイグレーションを行うためには、以下のような方法があります。

  1. Object Storageに新規バケットを作成し、データのアップロードを実行してください。
  2. 新規 Cloud Hadoop作成時、データをアップロードした新規バケットを選択して実行してください。

Q. 現在使用している Cloud Hadoopクラスタを削除した後、そのデータをそのまま使用したい場合はどうすればいいですか?
A. 以下の方法で Cloud Hadoopクラスタは削除しても、データをそのまま使用できます。