Data Forest の概要

印刷する
共有
PDF

記事の要約

この要約は役に立ちましたか?

ご意見ありがとうございます

最新のコンテンツが反映されていません。早急にアップデート内容をご提供できるよう努めております。最新のコンテンツ内容は韓国語ページをご参照ください。

VPC環境で利用できます。

Data Forestは、Apache Hadoopベースの大容量マルチテナントビッグデータ処理クラスタです。Data Forestは、様々なビッグデータフレームワークをサポートし、データ保存、データ処理、ディープラーニング分析、サービングを簡単で手軽に行うことができます。セキュリティ技術が適用され、大容量データが分散ストレージに保存されるため、安全に使用できます。

df-overview_storage_vpc_ko

Data Forestが提供する様々な機能

統合分析環境
Data Forestは、データ収集と処理、ディープラーニング分析、サービングまですべて可能な Apache Hadoopベースの統合分析プラットフォームです。YARNアプリケーション形態でサービスを実行し、ユーザーがアプリケーションを組み合わせてビッグデータエコシステムを作成できる環境を提供します。また、ユーザー別に GPUリソースの割り当てを動的に受け、Tensorflow、Pytorchなどのディープラーニング学習を行うことができます。
簡単かつ迅速な分析環境の構成
コンテナベースのサーバレス環境で簡単かつ迅速にアプリを立ち上げることができ、必要な Hadoopエコシステムをアプリベースで作成して分析環境を構成できます。大規模データと多くのユーザーを処理できるように設計されたマルチテナントベースの統合プラットフォームを提供します。分析目的に応じてバッチ分析ジョブができ、マルチテナント環境で Long-Live分析ジョブを行うことができます。
柔軟な拡張性
アプリの作成後も、使用量に応じて必要なだけコンテナを拡張または縮小することでトラフィックに柔軟に対応できます。コンテナベースであるため、オンライン状態で動的に拡張でき、必要に応じて迅速に変更できます。
強化されたセキュリティ
Data Forestは、セキュリティが強化された Secure Hadoop Clusterで、Kerberos/LDAP認証をサポートします。ネットワークを介して他の認証情報が転送されないように、秘密キー暗号化を使用して強力なセキュリティ環境を提供します。また、アプリケーションの権限管理において Apache Ranger認証によるセキュリティ機能を提供します。
高水準のネットワークおよびディスクパフォーマンスを保証
Data Forestは、アプリケーションベースのコンピューティングノードと物理サーバのローカルディスクベースに HDFS(Hadoop Distribute File System)保存場所を使用し、ネットワークパフォーマンスとディスクパフォーマンスを保証します。
様々なコンポーネント
Data Forestは、データ保存、分析、可視化できるコンポーネントで構成されています。ユーザーは、用途に合ったコンポーネントを作成して使用できます。データ保存には HDFS、HBase、Kafka、OpenTSDBを提供し、データ分析および処理には Spark、Hive、Hive LLAP、Elasticsearch、Grafana、Hue、Trino、Phoenixを提供し、データ可視化には Kibana、Zeppelinを提供します。
コンポーネントのアクセシビリティの強化およびウェブベースの開発環境を提供
VPC環境でより簡単にコンポーネントにアクセスするためにプロキシ機能とウェブベースの開発環境である Jupyter Notebookを提供します。作成したノートブックノードの JupyterLabウェブページにアクセスし、ビックデータ分析と機械学習に必要なクエリとコードを実行できます。Object Storageの連携を通じてデータを柔軟に再利用できます。

Data Forestご利用ガイドのご案内

Data Forestは、韓国リージョンでサービスを提供します。Data Forestを円滑に利用するために、以下の目次と目次別内容をご確認ください。

Data Forest の概要: Data Forestの紹介とメリットの案内、Data Forest関連リソース、よくある質問とその回答のご案内
Data Forest の利用シナリオ: Data Forestについての全体利用シナリオのご案内
Data Forest の仕様: Data Forestを利用するためのサポート環境のご案内
- VPC
  - Data Forest を開始する: Data Forestと Data Forestアプリにアクセスするためのクライアント環境設定方法のご案内
  - Data Forest を使用する
    - アカウントの作成と管理: Data Forestアカウントを作成・管理する方法とアカウントの認証方法のご案内
    - ノートブックの作成と管理: Data Forestノートブックを作成・管理する方法のご案内
    - アプリの作成と管理: Data Forestアプリを作成・管理する方法のご案内
      - Data Forestアプリを使用する
        Quick linksにアクセス: Quick linkの種類と Quick linkにアクセスする方法のご案内
        Dev を使用する: Devアプリの詳細情報と活用方法のご案内
        Elasticsearch を使用する: Elasticsearchの詳細情報と注意事項のご案内
        Grafana を使用する: Grafanaの詳細情報とデータソースの追加方法、データベースのバックアップ方法のご案内
        HBase を使用する: HBaseの詳細情報と注意事項のご案内
        Hive を使用する: Hiveの詳細情報、アクセス方法、注意事項のご案内
        Hue を使用する: Hueの詳細情報のご案内
        Kafka を使用する: Kafkaの詳細情報、Kafka Managerの使用方法、使用時の注意事項のご案内
        Kibana を使用する: Kibanaの詳細情報のご案内
        OpenTSDB を使用する: OpenTSDBの詳細情報のご案内
        Phoenix を使用する: Phoenixの詳細情報のご案内
        Spark History Server を使用する: Spark History Serverの詳細情報とジョブ照会方法のご案内
        Trino を使用する: Trinoの詳細情報のご案内
        Zepplin を使用する: Zepplinの詳細情報とインタープリタの設定、バックアップのご案内
        Zookeeper を使用する: Zookeeperの詳細情報、他のアプリとの連携方法、使用時の注意事項のご案内
    - モニタリング: 提出したバッチジョブとアプリのモニタリング方法のご案内
  - Data Forest ecosystem の活用
    - HDFS を使用する: HDFSにファイルをアップロード・ダウンロードする方法のご案内
    - 共用 Hive を使用する: Hiveデータソースとテーブルの作成方法のご案内
    - Oozie を使用する: ワークフローの作成方法のご案内
    - Ranger を使用する: Apache Rangerポリシー設定方法のご案内
    - Spark を使用する: Spark Jobの提出方法のご案内
  - Data Forest活用のユースケース
    - Object Storageに HDFSデータをコピー: Object Storageに HDFSデータをコピーする方法のご案内
    - Oozieスケジューラに Sparkバッチジョブを登録: Oozieスケジューラに Sparkバッチジョブを登録する方法のご案内
    - Spark、Hiveでデータ処理: Zepplinアプリと Devアプリで Spark、Hiveデータを処理する方法のご案内
  - AI Forest を使用する
    - AI Forest の概要: AI Forestについてのご案内
    - AI Forest の利用シナリオ: AI Forestのご利用シナリオのご案内
    - Workspace の作成と管理: ワークスペースの作成方法と管理方法のご案内
    - Workspace Browser を使用する: ワークスペースのソースファイルを管理・編集する方法のご案内
    - AI App 管理: AIアプリの詳細情報とログの確認方法、終了方法のご案内
    - AI Forest CLI を使用する: リナックス環境で AI Forest CLIを利用するためのシナリオのご案内
  - AI Forest活用のユースケース
    - Tensorflowで MNIST手書き画像を分類: Singlebatchで Jobを提出する方法のご案内
    - Pytorchで歩行者データセットでオブジェクトを検知: 歩行者オブジェクトを検知するプログラムを作成し、Singlebatch jobとして提出する方法のご案内
    - Container Registry の連携: Dockerイメージを使用するために Container Registryサービスと連携する方法のご案内
Data Forest の権限管理: Data Forestの権限管理方法とポリシーのご案内
Data Forest のリリースノート: Data Forestご利用ガイドのアップデート履歴

Data Forest関連リソース

NAVERクラウドプラットフォームでは、Data Forestについて顧客の理解に役立つよう、ガイドの他にも様々な関連リソースを提供します。Data Forestを会社に導入しようと検討中の方や、データ関連ポリシーを策定する上で詳細情報を必要とする開発者、マーケターなどの方は以下のリソースを積極的に活用することをお勧めします。

料金の紹介、特徴、詳細機能: Data Forestの紹介と料金のご案内
サービスのお知らせ: Data Forestに関するお知らせ
よくある質問: Data Forestに関するよくあるご質問
お問い合わせ: ご利用ガイドだけでは不明な点が解消されない場合、直接お問い合わせ

よくある質問を先にご確認ください。

ガイドを読む前に、よくある質問への回答をチェックすると不明な点をスピーディーに解消できます。以下のよくある質問から答えが得られなかった場合、ご利用ガイドで必要な内容をご確認ください。

Q. Cloud Hadoopと Data Forestは類似する性質のサービスに見えますが、どのような違いがありますか?
A. 2つのサービスは、サーバ/サーバレスに基づくという違いがあります。

Cloud Hadoopは顧客専用リソースを基にハドゥープクラスタを構築して提供します。
- 顧客がハドゥープを直接管理する self-managed型のサービスです。
- 直接管理できるオープンソースベースのウェブ管理ツール(Apache Ambari)を提供します。
Data Forestはサーバレス型のサービスであり、分析に必要な Job(DL Job)を提出して使用します。long-livedなジョブが必要な Hadoop Ecosystemは Appを作成して簡単に分析することができます。
- 顧客が直接ハドゥープを管理するのではなく、サービスレベルで高可用性を保証する managed型のサービスです。
- Cloud Hadoopよりも多くの Appを提供しており、GPUベースの Deep Learning Jobも提出できます。

比較

Feature	Cloud Hadoop	Data Forest
拡張性	ユーザーが Hadoopクラスタのサイズを直接決定	サービスで管理
コスト	Hadoopクラスタの維持料金発生	ユーザーが実行中のジョブ、ストレージに対する料金発生
メンテナンス	ユーザーが直接管理、ユーザー管理ツール(Apache Ambari)をサポート	サービスで管理
特徴	ユーザーが自由に環境を構成可能	様々な Appを提供。GPUベースの Deep Learningジョブを提出可能

Q. リアルタイムデータを収集・処理したり、ETL環境を構成するための機能はどのように提供されますか?
A. Data Forestで直接リアルタイムデータの収集・処理を提供したりはしませんが、NAVER Cloud Platformの様々なサービスと Data Forestで提供する Appで構成された Hadoop Ecosystemを利用して環境を構成できます。専門的な ETL構成のためのサービスは、今後別途のサービスにてリリースする予定です。

Q. Data Forestで提供する Quick linksにアクセスしたいです。どうやってアクセスしますか?
A. Quick linksにアクセスするためには Data Forestノートブックサーバが必要です。 Data Forest > Notebooks で作成できます。
詳細は、Quick linksにアクセスをご参照ください。

Q. ユーザー PCとノートブックの間に SSHトンネルを作成するために、ユーザー PCのターミナルで作成コマンドを入力すると、引き続きパスワードを入力するように求められます。
A. 認証キーで認証に失敗した場合、引き続きパスワードをリクエストします。SSHコマンド実行時に使用したキーがノートブック作成時に設定したログインキーと異なる場合に発生する可能性があります。もし認証キーを紛失した場合は、認証キー変更を行ってください。

Q. Notebookを使用する場合、カーネルによって動作方法に違いはありますか?
A. PySpark Kernelを使用する場合、Sparkmagicを介して共通クラスタの Livyに接続してジョブを行います。そのため、共通クラスタの Sparkバージョンを使用します。
一方、Python Kernelを使用する場合はジョブが standaloneで行われるため、ローカル環境の Sparkバージョンを使用します。

この記事は役に立ちましたか?

What's Next

Data Forest の利用シナリオ

Data Forestが提供する様々な機能
Data Forestご利用ガイドのご案内
Data Forest関連リソース
よくある質問を先にご確認ください。

タグ

Data Forest