データ準備

VPC環境で利用できます。

NCLUEサービスで提供する機能は、顧客企業のユーザーデータに基づいて使用できます。したがって、NCLUEサービスを利用する前に必要なデータの種類を確認し、データ準備ガイドに従ってデータセットを準備します。

参考

準備したデータセットを Object Storageバケットにアップロードします。(Object Storageご利用ガイドを参照)

データ種類

NCLUEサービス利用に必要なデータは、次の通りです。

シーケンスデータセット

シーケンスデータセットについての説明は、次の通りです。

Feature作成に使用されるユーザー行動が含まれたデータで、顧客企業のデータからユーザーごとに行動履歴のみを抽出してリストとして作成します。作成した Featureは Task Modelを作成するデータとして使用されます。
時系列で行動履歴を一覧表示した形式です。(シーケンスデータセットフォーマットを参照)
行動を予測しようとするすべてのユーザーに対してシーケンスデータセットが準備されている必要があります。
- 例) 300万人のユーザーに対して様々なタスクモデリングを行うには、300万人に対する行動シーケンスデータセットをすべて準備する必要があります。

正解データセット

正解データセットについての説明は、次の通りです。

Task作成に使用されるユーザー行動に対する正解が含まれたデータです。
「正解」とは、Task modelを通じて予測しようとするユーザーの行動や特性を意味します。
Feature作成に使用されたシーケンスデータセットのユーザーのうち、Taskに合った正解ラベルを1で、不正解ラベルを0でタグ付けした形式です(正解データセットフォーマットを参照)。
ユーザーの一部のデータだけでも Taskを作成できますが、正解データが多いほど精度が向上します。

データ準備

データ準備のために知っておくべきデータフォーマットと作成の説明をデータの種類別にご確認ください。

シーケンスデータセット

シーケンスデータセットのフォーマットと作成についての説明は、次の通りです。

シーケンスデータセットフォーマット

Feature作成に必要なシーケンスデータセットのフォーマットは、次の通りです。
tab区切りの .csv形式のファイルをご用意ください。

データフォーマット

# 区切り文字 tab
{user_id}\t{sequence}

{sequence}形式

{behavior}<|s|>{behavior}<|s|>{behavior}<|s|>......<|s|>{behavior}

最終データフォーマット

# format : {user_id}\t{behavior}<|s|>{behavior}<|s|>......<|s|>{behavior}

例)

u730023スターバックス板橋アベニューフラン店<|s|>MOMOS<|s|>ポケモン GO<|s|>ハンラボン<|s|>エアーポッズ<|s|>NIKEセール

シーケンスデータセット作成

シーケンスデータセット作成についての説明は、次の通りです。

ユーザー ID({user_id})
- ユーザー IDは重複することはできません。
- 数字、文字列、または数字と文字列の組み合わせを入力できます。
- 許容される最大長さは100文字です。
- 個人情報を含む識別子(住民登録番号、パスポート番号、運転免許証番号、クレジットカード番号、携帯電話番号、電子メールなど)は、ユーザー IDとして使用できません。
- 顧客企業システムで使用するユーザー IDの代わりに、NCLUEサービス利用のために別途ユーザー IDを作成して使用することをお勧めします。
行動({behavior})
- 「行動」(behavior)とは、ユーザーが顧客企業のサービスや商品を利用した際に区別される固有の行動を指します。
- 検索したキーワード、照会したサービス名、購入した商品名などが、入力可能な行動の例です。
- 様々な行動履歴を表現できる任意の文字列(単語、フレーズ、句、文章)を入力できます。
- NAVERサービスで発生しそうな行動(NAVER検索キーワード、ショッピング商品名、商号など)に似た文字列を入力することをお勧めします。
- {behavior}値は、人が見たときに理解できるようにスペースを含めて入力します。
- {behavior}には空白または記号を含めることができます。
シーケンス({sequence})
- シーケンスに入力された行動は、一覧表示された順序のみ考慮されます。1人に対する行動履歴を、時間情報を除き「<|s|>」で区分して時系列に一覧表示します。最も左側の行動が最も古い行動を意味し、右側に行くほど最新の行動を意味します。
- シーケンスの最大長さは、内部で使用する HyperCLOVAのトークン4096個に制限されます。1つのシーケンスには、行動文字列の長さによって最大で150~500個の行動を含められます。最大長さを超過した場合、超過した文字列の内容は入力されません。

参考

シーケンスデータセットに入力されたユーザー情報は、NCLUEサービス内で識別子としてのみ使用され、Feature作成や Task Model学習の入力値として使用されません。

正解データセット

正解データセットのフォーマットと作成についての説明は、次の通りです。

正解データセットフォーマット

Task作成に必要な正解データセットのフォーマットは、次の通りです。
tab区切りの .csv形式のファイルをご用意ください。

データフォーマット

# 区切り文字 tab
{user_id}\t{label}

最終データフォーマット

# format : {user_id}\t{label}

例)

正解データセット作成

正解データセット作成についての説明は、次の通りです。

{label}は1(正解の場合)と0(正解でない場合)で表記します。
正解データセットは0と1がそれぞれ100個ずつ、合計で200個以上準備する必要があり、データ量が多いほど性能が向上します。
Feature作成に使用したシーケンスデータセットのユーザー IDの一部を選択して正解セットデータを作成できます。
- 例) 特定の Task Aを把握するための正解データが100万人のうち2000人にある場合、2000人に対してのみ1で表示し、残りの一部は0で表示して正解データセットとして使用します。
Task Modelの目的に応じて正解データセットを作成できます。
- 例) 自社商品のうち Mという商品を購入しそうなユーザーを予測する Task Modelの場合、自社顧客のうち Mを購入した人を1で、購入しなかった人を0で正解データセットを作成できます。
ユーザー ID({user_id})には個人情報(住民登録番号、パスポート番号、運転免許証番号、クレジットカード番号、携帯電話番号、メールアドレスなど)を含めることはできません。

Documentation Index

データ準備

データ種類

シーケンスデータセット

正解データセット

データ準備

シーケンスデータセット

シーケンスデータセットフォーマット

シーケンスデータセット作成

正解データセット

正解データセットフォーマット

正解データセット作成