データ準備

Prev Next

VPC環境で利用できます。

NCLUEサービスで提供する機能は、顧客会社のユーザーデータに基づいて使用できます。したがって、NCLUEサービスを利用する前に必要なデータの種類を確認し、データ準備ガイドに従ってデータセットを準備します。

参考

準備したデータセットを Object Storageバケットにアップロードします。(Object Storageご利用ガイドを参照)

データ種類

NCLUEサービス利用に必要なデータは、次の通りです。

シーケンスデータセット

シーケンスデータセットについての説明は、次の通りです。

  • Feature作成に使用されるユーザー行動が含まれたデータで、顧客会社のデータからユーザーごとに行動履歴のみを抽出してリストとして作成します。作成した Featureは Task Modelを作成するデータとして使用されます。
  • 時系列で行動履歴を一覧表示した形式です。(シーケンスデータセットフォーマットを参照)
  • 行動を予測しようとするすべてのユーザーに対してシーケンスデータセットが準備されている必要があります。
    • 例) 300万人のユーザーに対して様々なタスクモデリングを行うには、300万人に対する行動シーケンスデータセットをすべて準備する必要があります。

正解データセット

正解データセットについての説明は、次の通りです。

  • Task作成に使用されるユーザー行動に対する正解が含まれたデータです。
  • 「正解」とは、Task modelを通じて予測しようとするユーザーの行動や特性を意味します。
  • Feature作成に使用されたシーケンスデータセットのユーザーのうち、Taskに合った正解ラベルを1で、不正解ラベルを0でタグ付けした形式です(正解データセットフォーマットを参照)。
  • ユーザーの一部のデータだけでも Taskを作成できますが、正解データが多いほど精度が向上します。

データ準備

データ準備のために知っておくべきデータフォーマットと作成の説明をデータの種類別にご確認ください。

シーケンスデータセット

シーケンスデータセットのフォーマットと作成についての説明は、次の通りです。

シーケンスデータセットフォーマット

Feature作成に必要なシーケンスデータセットのフォーマットは、次の通りです。
tab区切り文字.csv形式のファイルをご用意ください。

  • データフォーマット
# 区切り文字 tab
{user_id}\t{sequence}
  • {sequence}形式
{behavior}->{behavior}->{behavior}->......->{behavior}
  • 最終データフォーマット
# format : {user_id}\t{behavior}->{behavior}->......->{behavior}
  • 例)
    u730023 スターバックス板橋アベニューフラン店->モモス->ポケモン GO->ハンラボン->エアポッド->ナイキセール
    

シーケンスデータセット作成

シーケンスデータセット作成についての説明は、次の通りです。

  • ユーザー ID({user_id})

    • ユーザー IDは重複することはできません。
    • 数字、文字列、または数字と文字列の組み合わせを入力できます。
    • 許容される最大長さは100文字です。
    • 個人情報を含む識別子(住民登録番号、パスポート番号、運転免許証番号、クレジットカード番号、携帯電話番号、電子メールなど)は、ユーザー IDとして使用できません。
    • 顧客会社システムで使用するユーザー IDの代わりに、NCLUEサービス利用のために別途ユーザー IDを作成して使用することをお勧めします。
  • 行動({behavior})

    • 「行動」(behavior)とは、ユーザーが顧客のサービスや商品を利用した際に区別される固有の行動を指します。
    • 検索したキーワード、照会したサービス名、購入した商品名などが、入力できる行動の例になります。
    • 様々な行動履歴を表現できる任意の文字列(単語、フレーズ、句、文章)を入力できます。
    • NAVERサービスで発生しそうな行動(NAVER検索キーワード、ショッピング商品名、商号など)に似た文字列を入力することをお勧めします。
    • {behavior}値は、人が見たときに理解できるようにスペースを含めて入力します。
    • {behavior}には空白または記号を含めることができます。
  • シーケンス({sequence})

    • シーケンスに入力された行動は、一覧表示された順序のみ考慮されます。1人に対する行動履歴を、」時間情報を除き「->」で区分して時系列に一覧表示します。最も左側の行動が最も古い行動を意味し、右側に行くほど最新の行動を意味します。
    • シーケンスの最大長さは、内部で使用する HyperCLOVAのトークン2048個に制限されます。1つのシーケンスには、行動文字列の長さによって最大で150~500個の行動を含められます。最大長さを超過した場合、超過した文字列の内容は入力されません。
参考
  • シーケンスデータセットに入力されたユーザー情報は、NCLUEサービス内で識別子としてのみ使用され、Feature作成や Task Model学習の入力値として使用されません。

正解データセット

正解データセットのフォーマットと作成についての説明は、次の通りです。

正解データセットフォーマット

Task作成に必要な正解データセットのフォーマットは、次の通りです。
tab区切り文字.csv形式のファイルをご用意ください。

  • データフォーマット
# 区切り文字 tab
{user_id}\t{label}
  • 最終データフォーマット
# format : {user_id}\t{label}
  • 例)
    u192873 0
    u730023 1
    u239376 0
    u846712 1
    u558145 1
    

正解データセット作成

正解データセット作成についての説明は、次の通りです。

  • {label}は1(正解の場合)と0(正解でない場合)で表記します。
  • 正解セットデータは0と1がそれぞれ100個ずつ、合計で200個以上準備する必要があり、データ量が多いほど性能が向上します。
  • Feature作成に使用したシーケンスデータセットのユーザー IDの一部を選択して正解セットデータを作成できます。
    • 例) 特定の Task Aを把握するための正解データが100万人のうち2000人にある場合、2000人に対してのみ1で表示し、残りの一部は0で表示して正解データセットとして使用します。
  • Task Modelの目的に応じて正解データセットを作成できます。
    • 例) 自社商品のうち Mという商品を購入しそうなユーザーを予測する Task Modelの場合、自社顧客のうち Mを購入した人を1で、購入しなかった人を0で正解セットデータを作成できます。
  • ユーザー ID({uesr_id})には個人情報(住民登録番号、パスポート番号、運転免許証番号、クレジットカード番号、携帯電話番号、メールアドレスなど)を含めることはできません。