VPC環境で利用できます。
Data Managerの画面構成について説明します。Data Managerでは、Workspace内のデータセットリストと詳細情報を照会できます。
- Data Managerにアップロードしたデータセットは、Workspace内の異なるプロジェクト間で参照できます。
- Data Managerの画面では、データセットリストと詳細情報の照会のみ行えます。
- Data Managerでデータセットアップロード、削除、Tagと Branchの作成などのタスクを行うには、ML expert Platformの SDKをご利用ください。
Data Managerリストの照会
ユーザーが保存したデータセットリストの情報は、次の通りです。

- Dataset Title: データセットアップロード時に設定した名前
- 作成日時: 初回作成日時
- Operation: [dataset detail] をクリックし、詳細情報照会画面へ移動
Data Manager詳細情報の照会
選択したデータセットの詳細情報を照会できます。各情報はタブで区切られています。
Overview
選択したデータセットのメタデータを照会します。
Files and Versions
選択したデータセットのディレクトリごとのファイルリストを照会できます。
Data Manager SDK を使用する
Data Manager SDKは Pythonベースの Huggingface Dataset Interfaceをサポートします。
SDKを通じてデータセットをアップロード・ダウンロードする方法は、次の通りです。
SDKインストール
SDKインストールは、以下のコマンドで行えます。
pip install "ncloud-mlx[data-manager]" # double quotes are required
使用準備
SDKを使用するには、API Key作成と MLX endpointが必要です。作成された API Keyを入力して、使用準備を完了します。環境変数の MLX_ENDPOINT_URLで endpoint urlを付与できます。
from mlx.sdk.data import login
login("{ API Key }") # MLXP API Key
login("{ API Key }", "{MLX endpoint}") # 環境変数ではなく、login時に endpoint urlを固定する方法
データセットの読み取り
データセットを学習ロジックで使用するには、データセットクラスで読み取る必要があります。Huggingface Python SDK公式ドキュメントをご参照ください。
ローカルに配置されたデータセットを読み取る方法は、次の通りです。
from mlx.sdk.data import load_dataset
ds = load_dataset(
"{ ローカルに配置されたデータのパス }" # ローカルデータのパス e.g. "path/to/folder/*"
)
管理されているデータセットを Data Managerに読み取る方法は、次の通りです。
from mlx.sdk.data import load_dataset
ds = load_dataset(
"{ Workspace名 }/{ データセット名 }" # データセットの位置 e.g. "workspaceA/datasetA"
)
データセットアップロード
データセットのアップロード方法は Huggingface Dataset Interfaceと同様にサポートしており、詳細は Huggingface Python SDK公式ドキュメントをご参照ください。
create_repoは Workspace Admin権限で実行できます。
代表的なアップロード方法は、次の通りです。
push_to_hub
...
ds.push_to_hub(
repo_id="{ Workspace名 }/{ データセット名 }"
)
...
upload_file
from huggingface_hub import create_repo, upload_file
path = "{ Workspace名 }/{ データセット名 }" # アップロードするデータセットの位置
create_repo(repo_id=path, repo_type="dataset")
upload_file(
repo_id=path,
path_or_fileobj="{ ローカルのファイルパス }", # アップロードするローカルファイルのパス
path_in_repo="path/to/folder/foo.csv", # データセット内のリモートファイルのパス
repo_type="dataset",
)
upload_folder
from huggingface_hub import create_repo, upload_folder
path = "{ Workspace名 }/{ データセット名 }" # アップロードするデータセットの位置
create_repo(repo_id=path, repo_type="dataset")
upload_folder(
repo_id=path,
folder_path="{ ローカルのディレクトリパス }", # アップロードするローカルディレクトリのパス
path_in_repo="path/to/folder", # データセット内のリモートディレクトリのパス
repo_type="dataset",
)
データセットダウンロード
データセットをローカルディスクにダウンロードするための方法は、次の通りです。
from huggingface_hub import snapshot_download
path = "{ Workspace名 }/{ データセット名 }" # アップロードするデータセットの位置
snapshot_download(
repo_id=path,
repo_type="dataset",
local_dir="path/to/folder", # ダウンロードするディレクトリのパス
local_dir_use_symlinks="auto" # cache_dirを利用した symlinkの使用有無
)
Tagと Branch作成
データセットを作成すると、固有の commit idが割り当てられます。この commit idを使用して特定の revisionのデータセットを読み取ることができ、追加情報のための tagを記録できます。
Tagを作成する方法は、次の通りです。
from huggingface_hub import create_tag
path = "{ Workspace名 }/{ データセット名 }"
create_tag(
repo_id=path,
repo_type="dataset",
tag="{ 作成する tag名 }",
revision="{ revision }", # デフォルトバージョン。デフォルト値は main
tag_message="{ tag message }"
)
tag messageのようなメタデータは immutableなため変更できませんが、削除後に再作成することはできます。tagを削除する方法は、次の通りです。
from huggingface_hub import delete_tag
path = "{ Workspace名 }/{ データセット名 }"
delete_tag(
repo_id=path,
repo_type="dataset",
tag="{ 削除する tag名 }"
)
Branchを作成する方法は、次の通りです。
from huggingface_hub import create_branch
path = "{ Workspace名 }/{ データセット名 }"
create_branch(
repo_id=path,
repo_type="dataset",
branch="{ 作成する branch名 }",
revision="{ revision }"
)
データセット削除
データセットは削除後に復旧できないため、十分にご注意ください。
from huggingface_hub import delete_repo
path = "{ Workspace名 }/{ データセット名 }" # 削除するデータセット
delete_repo(
repo_id=path,
repo_type="dataset"
)