VPC環境で利用できます。
Data Forestは、Apache Hadoopベースの大容量マルチテナントビッグデータ処理クラスタです。Data Forestは、様々なビッグデータフレームワークをサポートし、データ保存、データ処理、サービングを簡単で手軽に行うことができます。セキュリティ技術が適用され、大容量データが分散ストレージに保存されるため、安全に使用できます。

Data Forestが提供する様々な機能
-
簡単かつ迅速な分析環境構成
コンテナベースのサーバレス環境で簡単かつ迅速にアプリを立ち上げることができ、必要な Hadoopエコシステムをアプリベースで作成して分析環境を構成できます。大規模データと多くのユーザーを処理できるように設計されたマルチテナントベースの統合プラットフォームを提供します。分析目的に応じてバッチ分析タスクができ、マルチテナント環境で Long-Live分析タスクを実行できます。 -
柔軟な拡張性
アプリの作成後も、使用量に応じて必要なだけコンテナを拡張または縮小することでトラフィックに柔軟に対応できます。コンテナベースであるため、オンライン状態で動的に拡張でき、必要に応じて迅速に変更できます。 -
強化されたセキュリティ
Data Forestは、セキュリティが強化された Secure Hadoop Clusterで、Kerberos/LDAP認証をサポートします。ネットワークを介して他の認証情報が転送されないように、秘密キー暗号化を使用して強力なセキュリティ環境を提供します。 -
高水準のネットワークおよびディスクパフォーマンスを保証
Data Forestは、アプリケーションベースのコンピューティングノードと物理サーバのローカルディスクベースに HDFS(Hadoop Distribute File System)保存場所を使用し、ネットワークパフォーマンスとディスクパフォーマンスを保証します。 -
様々なコンポーネント
Data Forestは、データ保存、分析、可視化できるコンポーネントで構成されています。ユーザーは、用途に合ったコンポーネントを作成して使用できます。データ保存には HDFS、HBase、Kafka、OpenTSDBを提供し、データ分析および処理には Spark、Hive、Hive LLAP、Elasticsearch、Grafana、Hue、Trino、Phoenixを提供し、データ可視化には Kibana、Zeppelinを提供します。
Data Forestご利用ガイドのご案内
Data Forestは、韓国リージョンでサービスを提供します。Data Forestを円滑に利用するために、以下の目次と目次別内容をご確認ください。
- Data Forest の概要: Data Forestの紹介とメリットの案内、Data Forest関連リソース、よくある質問とその回答のご案内
- Data Forest の利用シナリオ: Data Forestについての全体利用シナリオのご案内
- Data Forest の仕様: Data Forestを利用するためのサポート環境のご案内
- Data Forest を開始する: Data Forestと Data Forestアプリにアクセスするためのクライアント環境設定方法のご案内
- Data Forest を使用する
- アカウントの作成と管理: Data Forestアカウントを作成・管理する方法とアカウントの認証方法のご案内
- アプリの作成と管理: Data Forestアプリを作成・管理する方法のご案内
- Data Forestアプリを使用する
- Quick linksにアクセス: Quick linkの種類と Quick linkにアクセスする方法のご案内
- Dev を使用する: Devアプリの詳細情報と活用方法のご案内
- Elasticsearch を使用する: Elasticsearchの詳細情報と注意事項のご案内
- Grafana を使用する: Grafanaの詳細情報とデータソースの追加方法、データベースのバックアップ方法のご案内
- HBase を使用する: HBaseの詳細情報と注意事項のご案内
- Hive を使用する: Hiveの詳細情報、アクセス方法、注意事項のご案内
- Hue を使用する: Hueの詳細情報のご案内
- Kafka を使用する: Kafkaの詳細情報、Kafka Managerの使用方法、使用時の注意事項のご案内
- Kibana を使用する: Kibanaの詳細情報のご案内
- OpenTSDB を使用する: OpenTSDBの詳細情報のご案内
- Phoenix を使用する: Phoenixの詳細情報のご案内
- Spark History Server を使用する: Spark History Serverの詳細情報とタスク照会方法のご案内
- Trino を使用する: Trinoの詳細情報のご案内
- Zepplin を使用する: Zepplinの詳細情報とインタープリタの設定、バックアップのご案内
- Zookeeper を使用する: Zookeeperの詳細情報、他のアプリとの連携方法、使用時の注意事項のご案内
- Data Forestアプリを使用する
- モニタリング: 提出したバッチタスクとアプリのモニタリング方法のご案内
- Data Forest ecosystem の活用
- HDFS を使用する: HDFSにファイルをアップロード・ダウンロードする方法のご案内
- 共用 Hive を使用する: Hiveデータソースとテーブルの作成方法のご案内
- Oozie を使用する: ワークフローの作成方法のご案内
- Spark を使用する: Spark Jobの提出方法のご案内
- Data Forest活用のユースケース
- Object Storageに HDFSデータをコピー: Object Storageに HDFSデータをコピーする方法のご案内
- Oozieスケジューラに Sparkバッチタスクを登録: Oozieスケジューラに Sparkバッチタスクを登録する方法のご案内
- Spark、Hiveでデータ処理: Zepplinアプリと Devアプリで Spark、Hiveデータを処理する方法のご案内
- Data Forest のリソース管理: Resource Managerサービスと Cloud Activity Tracerサービスを活用した Data Forestサービスリソースとリソースタイプ別タスク履歴のご案内
- Data Forest の権限管理: Data Forestの権限管理方法とポリシーのご案内
- Data Forest のトラブルシューティング: Data Forest使用時に発生し得る問題の解決方法のご案内
- Data Forest のリリースノート: Data Forestご利用ガイドのアップデート履歴
Data Forest関連リソース
NAVERクラウドプラットフォームでは、Data Forestについて顧客の理解に役立つよう、ガイドの他にも様々な関連リソースを提供します。本サービスを導入しようと検討中であったり、データ関連ポリシーを策定する上で詳細情報を必要とする開発者、マーケターなどの方は、以下のリソースを積極的に活用することをお勧めします。
- 料金の紹介、特徴、詳細機能: Data Forestの紹介と料金のご案内
- Data Forestかんたんスタートガイド
- Data Forestでのビッグデータ分析: Data Forestの基本的な使用方法
- Data Forestでのビッグデータ分析環境の構築: Notebookノードでビッグデータ分析に必要な開発環境を構築し、外部システムと簡単に連携する方法
- サービスのお知らせ: Data Forestに関するお知らせ
- よくある質問: Data Forestに関するよくあるご質問
- サポート: ご利用ガイドだけでは不明な点が解消されない場合、直接お問い合わせ
よくある質問を先にご確認ください。
よくある質問への回答をチェックすることで不明な点をすばやく解消できます。以下のよくある質問から答えが得られなかった場合、ご利用ガイドで必要な内容をご確認ください。
Q. Cloud Hadoopと Data Forestは類似する性質のサービスに見えますが、どのような違いがありますか?
A. 各サービスは、サーバ/サーバレスに基づくという違いがあります。
- Cloud Hadoopは顧客専用リソースを基に Hadoopクラスタを構築して提供します。
- 顧客が Hadoopを直接管理する self-managed型サービスです。
- 直接管理できるオープンソースベースのウェブ管理ツール(Apache Ambari)を提供します。
- Data Forestはサーバレス型のサービスであり、分析に必要な Job(DL Job)を提出して使用します。long-livedなタスクが必要な Hadoop Ecosystemは Appを作成して簡単に分析することができます。
- 顧客が直接 Hadoopを管理するのではなく、サービスレベルで高可用性を保証する managed型サービスです。
- Cloud Hadoopよりも多くの Appを提供しており、GPUベースの Deep Learning Jobも提出できます。
比較
| Feature | Cloud Hadoop | Data Forest |
|---|---|---|
| 拡張可能性 | ユーザーが直接ハドゥープクラスタサイズを決定 | サービスで管理 |
| 費用 | ハドゥープクラスタ維持のための料金発生 | ユーザーが実行中のタスク・ストレージに対する料金発生 |
| 維持管理 | ユーザーが直接管理、ユーザー管理ツール(Apache Ambari)をサポート | サービスで管理 |
| 特徴 | ユーザーが自由に環境設定可能 | 様々な Appの提供。GPUベースの Deep Learningタスク提出可能 |
Q. リアルタイムデータを収集・処理したり、ETL環境を構成するための機能はどのように提供されますか?
A. Data Forestで直接リアルタイムデータの収集・処理を提供したりはしませんが、NAVER Cloud Platformの様々なサービスと Data Forestで提供する Appで構成された Hadoop Ecosystemを利用して環境を構成できます。専門的な ETL構成のためのサービスは、今後別途のサービスにてリリースする予定です。