VPC環境で利用できます。
NCLUEサービスで提供する機能は、顧客会社のユーザーデータに基づいて使用できます。したがって、NCLUEサービスを利用する前に必要なデータの種類を確認し、データ準備ガイドに従ってデータセットを準備します。
参考
準備したデータセットを Object Storageバケットにアップロードします。(Object Storageご利用ガイドを参照)
データ種類
NCLUEサービス利用に必要なデータは、次の通りです。
シーケンスデータセット
シーケンスデータセットについての説明は、次の通りです。
- Feature作成に使用されるユーザー行動が含まれたデータで、顧客会社のデータからユーザーごとに行動履歴のみを抽出してリストとして作成します。作成した Featureは Task Modelを作成するデータとして使用されます。
- 時系列で行動履歴を一覧表示した形式です。(シーケンスデータセットフォーマットを参照)
- 行動を予測しようとするすべてのユーザーに対してシーケンスデータセットが準備されている必要があります。
- 例) 300万人のユーザーに対して様々なタスクモデリングを行うには、300万人に対する行動シーケンスデータセットをすべて準備する必要があります。
正解データセット
正解データセットについての説明は、次の通りです。
- Task作成に使用されるユーザー行動に対する正解が含まれたデータです。
- 「正解」とは、Task modelを通じて予測しようとするユーザーの行動や特性を意味します。
- Feature作成に使用されたシーケンスデータセットのユーザーのうち、Taskに合った正解ラベルを1で、不正解ラベルを0でタグ付けした形式です(正解データセットフォーマットを参照)。
- ユーザーの一部のデータだけでも Taskを作成できますが、正解データが多いほど精度が向上します。
データ準備
データ準備のために知っておくべきデータフォーマットと作成の説明をデータの種類別にご確認ください。
シーケンスデータセット
シーケンスデータセットのフォーマットと作成についての説明は、次の通りです。
シーケンスデータセットフォーマット
Feature作成に必要なシーケンスデータセットのフォーマットは、次の通りです。
tab区切り文字.csv形式のファイルをご用意ください。
- データフォーマット
# 区切り文字 tab
{user_id}\t{sequence}
- {sequence}形式
{behavior}->{behavior}->{behavior}->......->{behavior}
- 最終データフォーマット
# format : {user_id}\t{behavior}->{behavior}->......->{behavior}
- 例)
u730023 スターバックス板橋アベニューフラン店->モモス->ポケモン GO->ハンラボン->エアポッド->ナイキセール
シーケンスデータセット作成
シーケンスデータセット作成についての説明は、次の通りです。
-
ユーザー ID({user_id})
- ユーザー IDは重複することはできません。
- 数字、文字列、または数字と文字列の組み合わせを入力できます。
- 許容される最大長さは100文字です。
- 個人情報を含む識別子(住民登録番号、パスポート番号、運転免許証番号、クレジットカード番号、携帯電話番号、電子メールなど)は、ユーザー IDとして使用できません。
- 顧客会社システムで使用するユーザー IDの代わりに、NCLUEサービス利用のために別途ユーザー IDを作成して使用することをお勧めします。
-
行動({behavior})
- 「行動」(behavior)とは、ユーザーが顧客のサービスや商品を利用した際に区別される固有の行動を指します。
- 検索したキーワード、照会したサービス名、購入した商品名などが、入力できる行動の例になります。
- 様々な行動履歴を表現できる任意の文字列(単語、フレーズ、句、文章)を入力できます。
- NAVERサービスで発生しそうな行動(NAVER検索キーワード、ショッピング商品名、商号など)に似た文字列を入力することをお勧めします。
- {behavior}値は、人が見たときに理解できるようにスペースを含めて入力します。
- {behavior}には空白または記号を含めることができます。
-
シーケンス({sequence})
- シーケンスに入力された行動は、一覧表示された順序のみ考慮されます。1人に対する行動履歴を、」時間情報を除き「->」で区分して時系列に一覧表示します。最も左側の行動が最も古い行動を意味し、右側に行くほど最新の行動を意味します。
- シーケンスの最大長さは、内部で使用する HyperCLOVAのトークン2048個に制限されます。1つのシーケンスには、行動文字列の長さによって最大で150~500個の行動を含められます。最大長さを超過した場合、超過した文字列の内容は入力されません。
参考
- シーケンスデータセットに入力されたユーザー情報は、NCLUEサービス内で識別子としてのみ使用され、Feature作成や Task Model学習の入力値として使用されません。
正解データセット
正解データセットのフォーマットと作成についての説明は、次の通りです。
正解データセットフォーマット
Task作成に必要な正解データセットのフォーマットは、次の通りです。
tab区切り文字.csv形式のファイルをご用意ください。
- データフォーマット
# 区切り文字 tab
{user_id}\t{label}
- 最終データフォーマット
# format : {user_id}\t{label}
- 例)
u192873 0 u730023 1 u239376 0 u846712 1 u558145 1
正解データセット作成
正解データセット作成についての説明は、次の通りです。
- {label}は1(正解の場合)と0(正解でない場合)で表記します。
- 正解セットデータは0と1がそれぞれ100個ずつ、合計で200個以上準備する必要があり、データ量が多いほど性能が向上します。
- Feature作成に使用したシーケンスデータセットのユーザー IDの一部を選択して正解セットデータを作成できます。
- 例) 特定の Task Aを把握するための正解データが100万人のうち2000人にある場合、2000人に対してのみ1で表示し、残りの一部は0で表示して正解データセットとして使用します。
- Task Modelの目的に応じて正解データセットを作成できます。
- 例) 自社商品のうち Mという商品を購入しそうなユーザーを予測する Task Modelの場合、自社顧客のうち Mを購入した人を1で、購入しなかった人を0で正解セットデータを作成できます。
- ユーザー ID({uesr_id})には個人情報(住民登録番号、パスポート番号、運転免許証番号、クレジットカード番号、携帯電話番号、メールアドレスなど)を含めることはできません。