Data Forest の概要

Prev Next

VPC環境で利用できます。

Data Forestは、Apache Hadoopベースの大容量マルチテナントビッグデータ処理クラスタです。Data Forestは、様々なビッグデータフレームワークをサポートし、データ保存、データ処理、サービングを簡単で手軽に行うことができます。セキュリティ技術が適用され、大容量データが分散ストレージに保存されるため、安全に使用できます。

df-overview_storage_vpc_ko

Data Forestが提供する様々な機能

  • 簡単かつ迅速な分析環境構成
    コンテナベースのサーバレス環境で簡単かつ迅速にアプリを立ち上げることができ、必要な Hadoopエコシステムをアプリベースで作成して分析環境を構成できます。大規模データと多くのユーザーを処理できるように設計されたマルチテナントベースの統合プラットフォームを提供します。分析目的に応じてバッチ分析タスクができ、マルチテナント環境で Long-Live分析タスクを実行できます。

  • 柔軟な拡張性
    アプリの作成後も、使用量に応じて必要なだけコンテナを拡張または縮小することでトラフィックに柔軟に対応できます。コンテナベースであるため、オンライン状態で動的に拡張でき、必要に応じて迅速に変更できます。

  • 強化されたセキュリティ
    Data Forestは、セキュリティが強化された Secure Hadoop Clusterで、Kerberos/LDAP認証をサポートします。ネットワークを介して他の認証情報が転送されないように、秘密キー暗号化を使用して強力なセキュリティ環境を提供します。

  • 高水準のネットワークおよびディスクパフォーマンスを保証
    Data Forestは、アプリケーションベースのコンピューティングノードと物理サーバのローカルディスクベースに HDFS(Hadoop Distribute File System)保存場所を使用し、ネットワークパフォーマンスとディスクパフォーマンスを保証します。

  • 様々なコンポーネント
    Data Forestは、データ保存、分析、可視化できるコンポーネントで構成されています。ユーザーは、用途に合ったコンポーネントを作成して使用できます。データ保存には HDFS、HBase、Kafka、OpenTSDBを提供し、データ分析および処理には Spark、Hive、Hive LLAP、Elasticsearch、Grafana、Hue、Trino、Phoenixを提供し、データ可視化には Kibana、Zeppelinを提供します。

Data Forestご利用ガイドのご案内

Data Forestは、韓国リージョンでサービスを提供します。Data Forestを円滑に利用するために、以下の目次と目次別内容をご確認ください。

Data Forest関連リソース

NAVERクラウドプラットフォームでは、Data Forestについて顧客の理解に役立つよう、ガイドの他にも様々な関連リソースを提供します。本サービスを導入しようと検討中であったり、データ関連ポリシーを策定する上で詳細情報を必要とする開発者、マーケターなどの方は、以下のリソースを積極的に活用することをお勧めします。

よくある質問を先にご確認ください。

よくある質問への回答をチェックすることで不明な点をすばやく解消できます。以下のよくある質問から答えが得られなかった場合、ご利用ガイドで必要な内容をご確認ください。

Q. Cloud Hadoopと Data Forestは類似する性質のサービスに見えますが、どのような違いがありますか?
A. 各サービスは、サーバ/サーバレスに基づくという違いがあります。

  • Cloud Hadoopは顧客専用リソースを基に Hadoopクラスタを構築して提供します。
    • 顧客が Hadoopを直接管理する self-managed型サービスです。
    • 直接管理できるオープンソースベースのウェブ管理ツール(Apache Ambari)を提供します。
  • Data Forestはサーバレス型のサービスであり、分析に必要な Job(DL Job)を提出して使用します。long-livedなタスクが必要な Hadoop Ecosystemは Appを作成して簡単に分析することができます。
    • 顧客が直接 Hadoopを管理するのではなく、サービスレベルで高可用性を保証する managed型サービスです。
    • Cloud Hadoopよりも多くの Appを提供しており、GPUベースの Deep Learning Jobも提出できます。

比較

Feature Cloud Hadoop Data Forest
拡張可能性 ユーザーが直接ハドゥープクラスタサイズを決定 サービスで管理
費用 ハドゥープクラスタ維持のための料金発生 ユーザーが実行中のタスク・ストレージに対する料金発生
維持管理 ユーザーが直接管理、ユーザー管理ツール(Apache Ambari)をサポート サービスで管理
特徴 ユーザーが自由に環境設定可能 様々な Appの提供。GPUベースの Deep Learningタスク提出可能

Q. リアルタイムデータを収集・処理したり、ETL環境を構成するための機能はどのように提供されますか?
A. Data Forestで直接リアルタイムデータの収集・処理を提供したりはしませんが、NAVER Cloud Platformの様々なサービスと Data Forestで提供する Appで構成された Hadoop Ecosystemを利用して環境を構成できます。専門的な ETL構成のためのサービスは、今後別途のサービスにてリリースする予定です。