データセット準備
    • PDF

    データセット準備

    • PDF

    Article Summary

    Classic/VPC環境で利用できます。

    データセット準備では、データセットの規格やデータセットの作成方法、作成例について説明します。

    データセットは、言語モデルをユーザーが望むタスクに最適化された形で学習させるために使用するデータの集まりです。

    学習したいモデルによって準備するデータセットが異なります。

    • 既存モデルを学習させるには、データセットガイドに従ってデータセットを準備する必要があります。データセットをご参照ください。
    • HyperCLOVA X言語モデルに学習させるには、Instructionデータセットガイドに従ってデータセットを準備する必要があります。Instructionデータセットをご参照ください。
    注意

    個人情報を含むデータセットをアップロードすることで発生する問題や結果に対するすべての責任はユーザーにあります。

    データセット

    既存モデルを学習させる際に必要なデータセットを準備する方法について説明します。

    データセットのファイル形式

    データセットのファイル形式は、次の通りです。

    項目説明
    ファイルの拡張子*.csvまたは *.jsonl
    ファイルエンコードの形式UTF-8
    最小データ400行以上を推奨
    ファイルサイズ50MB以下、APIで学習する場合は100MB以下
    ファイルタイトル2~30文字以内

    データセットテンプレート

    データセットを構成するフィールドは、次の通りです。

    フィールド説明
    Text予想されるユーザーのすべての発話内容
    Completion予想される CLOVA Studioが答えるべきすべての発話内容
    参考
    • 1行(Text、Completionペア)のデータは、空白を含めて4,000文字以内で入力してください。4,000文字を超える場合、データセットの一部のみがアップロードされます。
    • 文書分類タスク用データセットの場合、各分類のカテゴリごとに最低200行以上のデータを入力してください。
      例) 肯定30%(300件)、否定30%(300件)、中立40%(400件)
    • 複数の分類タスク用データセットの場合、分類ラベルを最大15個まで入力できます。
    • 分類ラベルは1つの単語のみ使用することをお勧めします。スペースや記号は使用できません。

    データセットのファイル形式

    データセットは、CSV形式または JSON形式で作成します。ファイル形式が CSVファイルの場合は、必ずデータセットテンプレートをご利用ください。テンプレートに合わないファイルはアップロードできません。

    CSVファイル

    CSVファイルでデータセットを構成するには、必ず次の内容をご確認ください。

    • 最初の行には「Text」、「Completion」を正確に入力し、2つの列のみで構成されている必要があります。
    • 空行と列は必ず削除します。
    • 改行が必要な場合、「\n」で区切ります。

    JSONLファイル

    データセットを JSONLファイルで構成するには、必ず次の内容をご確認ください。

    • 各行は、{"Text": "入力値", "Completion": "目的の結果値"}で構成する必要があり、"入力値"と"目的の結果値"には少なくとも1文字以上を含める必要があります。
    • 二重引用符は、""で表記します。
    • 改行が必要な場合、「\n」で区切ります。

    データセットフィールド作成

    データセットの Text、Completionフィールドの作成方法は、データセットフィールド作成をご参照ください。

    参考

    会話タスクのためのデータセットは、以下のように作成してください。
    clovastudio-tuning_dataformat2_ja

    • Text列には3つ以上の発話文を、Completion列には1つ以上の発話文を入力します。
    • Completion列の発話主体は1人で統一します。
    • Text列と Completion列の発話内容が繋がるように構成することをお勧めします。
    • 発話主体(発話者)は2名に制限します。
    • 発話文の前に発話主体を明示します。例) 「顧客:」、「販売者:」

    Instructionデータセット

    Instructionデータセットは、HyperCLOVA Xが持つ能力を引き出すデータであり、データの量よりも質が重要です。長くて詳しく書くほど、希望する回答形式を具体的に書くほど、チューニングのパフォーマンスを向上させることができます。ユーザーのタスクによって必要なデータの量が異なる場合がありますが、チューニングのパフォーマンスを高めるためには1ターン(Text、Completionペア)基準で最低400件以上のデータが必要であり、HyperCLOVA Xがまだ学習していない分野である場合はより多くの量のデータが必要です。

    Instructionデータセットのファイル形式

    Instructionデータセットのファイル形式は、次の通りです。

    項目説明
    ファイルの拡張子*.csvまたは *.jsonl
    ファイルエンコードの形式UTF-8
    最小データ400行以上を推奨
    ファイルサイズ100MB以下

    Instructionデータセットテンプレート

    Instructionデータセットを構成するフィールドは、次の通りです。

    フィールド説明
    C_IDConversation ID. 同じテーマで構成された会話シナリオに付与する番号。0から始まり1ずつ増加
    T_IDTurn ID. 1つの会話シナリオ内で行われる質問(Text)、回答(Completion)ペアに付与する番号。0から始まり1ずつ増加
    Text予想されるユーザーのすべての発話内容
    Completion予想される CLOVA Studioが答えるべきすべての発話内容
    参考
    • 1行(Text、Completionペア)のデータは、空白を含めて8,000文字以内で入力してください。8,000文字を超える場合、データセットの一部のみがアップロードされます。
    • 文書分類タスク用データセットの場合、各分類カテゴリごとに最低200行以上のデータを入力してください。
      例) 肯定30%(300件)、否定30%(300件)、中立40%(400件)
    • 複数の分類タスク用データセットの場合、分類ラベルを最大15個まで入力できます。
    • 分類ラベルは1つの単語のみ使用することをお勧めします。スペースや記号は使用できません。

    Instructionデータセットのファイル形式

    Instructionデータセットは、CSV形式または JSON形式で作成します。ファイル形式が CSVファイルの場合は、必ず Instructionデータセットテンプレートをご利用ください。テンプレートに合わないファイルはアップロードできません。

    CSVファイル

    CSVファイルでデータセットを構成するには、必ず次の内容をご確認ください。

    • 最初の行には「C ID」、「T ID」、「Text」、「Completion」を正確に入力し、4つの列のみで構成されている必要があります。
    • 空行と列は必ず削除します。

    JSONLファイル

    JSONLファイルでデータセットを構成するには、必ず次の内容をご確認ください。

    • 各行は、{"C ID": 順序, "T ID": 順序, "Text": "入力値", "Completion": "目的の結果値"}で構成する必要があり、"入力値"と"目的の結果値"には少なくとも1文字以上を含める必要があります。
    • 二重引用符は、""で表記します。
    • 改行が必要な場合、「\n」で区切ります。

    会話シナリオの方式

    ユーザーの目的に応じてシングルターン会話シナリオまたはマルチターン会話シナリオでデータセットを構成できます。シングルターンは質問1つで答えを得る方式で、マルチターンは会話を交わしながら希望する結果を具体化する方式です。

    参考

    シングルターン

    シングルターンシナリオは、特定の C IDに対して1ターン(T ID=0)のみで構成します。1つの C IDが1つの T IDを持つので、T_IDの値はすべて「0」になります。

    clovastudio-dataset_singleturn_ko

    マルチターン

    マルチターンシナリオは、特定の C IDに対して2ターン以上(T ID=0)で構成します。1つの会話テーマで3ターン以上を構成することをお勧めします。

    clovastudio-dataset_multiturn_ko

    データセットフィールド作成

    データセットの各フィールドを作成する方法について説明します。

    C_ID

    C_IDは、同じテーマで構成された会話シナリオに付与する番号です。0から始まり1ずつ増加します。

    T_ID

    T_IDは、1つの会話シナリオ内で行われる質問(Text)、回答(Completion)ペアに付与する番号です。0から始まり1ずつ増加します。

    Text

    Textはユーザーの要件です。様々なテーマや言い回しで作成します。どんな内容でも構わず、タイプミスや碑文などが混ざっていても構いません。

    • 指示文のみで構成する場合

      今日は本当に退屈だな(泣)
      
      ワセリンは何でできていますか?
      
      俺今日めっちゃ具合悪いから、職場の上司に出勤遅れそうだとメッセージ送ってぇぇー
      
    • 指示文と付加情報を一緒に構成する場合

      次の段落をもう少し共感できる文章に書き直して。 
      {フォーマルな段落}
      
      次の文書を読んで、質問に正確に答えて。
      {文書}
      {質問}
      
      次のコードが果たすロールは何?
      {コード}
      

    Completion

    Completionはユーザーの要件に対するレスポンスです。長く、詳しく作成します。順序、点リスト、改行、マークダウン形式の表形式など、好きな回答形式を作成するほど良いです

    上着のネックラインには様々な種類があります。一般的に以下のような種類があります。 
    1. ラウンドネック(Round Neck)
    2. Vネック(V-neck)
    3. クルーネック(Crew Neck)
    4. スクエアネック(Square Neck)
    5. ボートネック(Boat Neck)
    
    上着のネックラインには様々な種類があります。以下のように表でまとめることができます。 
    | ネックラインの種類 | 説明 |
    | ラウンドネック(Round Neck) | 首をやさしく包み込む形 |
    | Vネック(V-neck) | 首元を深く掘り下げ、涼しげな印象を与える形 |
    | クルーネック(Crew Neck) | ラウンドネックより少し広めの形 |
    | スクエアネック(Square Neck) | 四角い形状で首を包み込む形 |
    | ボートネック(Boat Neck) | 横方向に広い形状でやさしい感じを与える |
    
    旅行に出かけるときは、次のようなことを用意する必要があります。
    - パスポートの日付と目的地の決定
    - パスポート、ビザ、予防接種など必要書類の準備 
    - 旅行保険加入
    - 旅行パッキング 
    - 旅行中に必要な持ち物の購入 
    - 航空会社、ホテル、交通手段の予約 
    - 旅行先情報の収集
    - 予期せぬ事態への備え 
    

    この記事は役に立ちましたか?

    Changing your password will log you out immediately. Use the new password to log back in.
    First name must have atleast 2 characters. Numbers and special characters are not allowed.
    Last name must have atleast 1 characters. Numbers and special characters are not allowed.
    Enter a valid email
    Enter a valid password
    Your profile has been successfully updated.