データセット準備

印刷する
共有
PDF

データセット準備

印刷する
共有
PDF

Article Summary

Share feedback

Thanks for sharing your feedback!

Classic/VPC環境で利用できます。

データセット準備では、データセットの規格やデータセットの作成方法、作成例について説明します。

データセットは、言語モデルをユーザーが望むタスクに最適化された形で学習させるために使用するデータの集まりです。

学習したいモデルによって準備するデータセットが異なります。

既存モデルを学習させるには、データセットガイドに従ってデータセットを準備する必要があります。データセットをご参照ください。
HyperCLOVA X言語モデルに学習させるには、Instructionデータセットガイドに従ってデータセットを準備する必要があります。Instructionデータセットをご参照ください。

注意

個人情報を含むデータセットをアップロードすることで発生する問題や結果に対するすべての責任はユーザーにあります。

データセット

既存モデルを学習させる際に必要なデータセットを準備する方法について説明します。

データセットのファイル形式

データセットのファイル形式は、次の通りです。

項目	説明
ファイルの拡張子	.csvまたは .jsonl
ファイルエンコードの形式	UTF-8
最小データ	400行以上を推奨
ファイルサイズ	50MB以下、APIで学習する場合は100MB以下
ファイルタイトル	2~30文字以内

データセットテンプレート

データセットを構成するフィールドは、次の通りです。

フィールド	説明
Text	予想されるユーザーのすべての発話内容
Completion	予想される CLOVA Studioが答えるべきすべての発話内容

参考

1行(Text、Completionペア)のデータは、空白を含めて4,000文字以内で入力してください。4,000文字を超える場合、データセットの一部のみがアップロードされます。
文書分類タスク用データセットの場合、各分類のカテゴリごとに最低200行以上のデータを入力してください。
例) 肯定30%(300件)、否定30%(300件)、中立40%(400件)
複数の分類タスク用データセットの場合、分類ラベルを最大15個まで入力できます。
分類ラベルは1つの単語のみ使用することをお勧めします。スペースや記号は使用できません。

データセットのファイル形式

データセットは、CSV形式または JSON形式で作成します。ファイル形式が CSVファイルの場合は、必ずデータセットテンプレートをご利用ください。テンプレートに合わないファイルはアップロードできません。

CSVファイル

CSVファイルでデータセットを構成するには、必ず次の内容をご確認ください。

最初の行には「Text」、「Completion」を正確に入力し、2つの列のみで構成されている必要があります。
空行と列は必ず削除します。
改行が必要な場合、「\n」で区切ります。

JSONLファイル

データセットを JSONLファイルで構成するには、必ず次の内容をご確認ください。

各行は、{"Text": "入力値", "Completion": "目的の結果値"}で構成する必要があり、"入力値"と"目的の結果値"には少なくとも1文字以上を含める必要があります。
二重引用符は、""で表記します。
改行が必要な場合、「\n」で区切ります。

データセットフィールド作成

データセットの Text、Completionフィールドの作成方法は、データセットフィールド作成をご参照ください。

参考

会話タスクのためのデータセットは、以下のように作成してください。
clovastudio-tuning_dataformat2_ja

Text列には3つ以上の発話文を、Completion列には1つ以上の発話文を入力します。
Completion列の発話主体は1人で統一します。
Text列と Completion列の発話内容が繋がるように構成することをお勧めします。
発話主体(発話者)は2名に制限します。
発話文の前に発話主体を明示します。例) 「顧客:」、「販売者:」

Instructionデータセット

Instructionデータセットは、HyperCLOVA Xが持つ能力を引き出すデータであり、データの量よりも質が重要です。長くて詳しく書くほど、希望する回答形式を具体的に書くほど、チューニングのパフォーマンスを向上させることができます。ユーザーのタスクによって必要なデータの量が異なる場合がありますが、チューニングのパフォーマンスを高めるためには1ターン(Text、Completionペア)基準で最低400件以上のデータが必要であり、HyperCLOVA Xがまだ学習していない分野である場合はより多くの量のデータが必要です。

Instructionデータセットのファイル形式

Instructionデータセットのファイル形式は、次の通りです。

項目	説明
ファイルの拡張子	.csvまたは .jsonl
ファイルエンコードの形式	UTF-8
最小データ	400行以上を推奨
ファイルサイズ	100MB以下

Instructionデータセットテンプレート

Instructionデータセットを構成するフィールドは、次の通りです。

フィールド	説明
C_ID	Conversation ID. 同じテーマで構成された会話シナリオに付与する番号。0から始まり1ずつ増加
T_ID	Turn ID. 1つの会話シナリオ内で行われる質問(Text)、回答(Completion)ペアに付与する番号。0から始まり1ずつ増加
Text	予想されるユーザーのすべての発話内容
Completion	予想される CLOVA Studioが答えるべきすべての発話内容

参考

1行(Text、Completionペア)のデータは、空白を含めて8,000文字以内で入力してください。8,000文字を超える場合、データセットの一部のみがアップロードされます。
文書分類タスク用データセットの場合、各分類カテゴリごとに最低200行以上のデータを入力してください。
例) 肯定30%(300件)、否定30%(300件)、中立40%(400件)
複数の分類タスク用データセットの場合、分類ラベルを最大15個まで入力できます。
分類ラベルは1つの単語のみ使用することをお勧めします。スペースや記号は使用できません。

Instructionデータセットのファイル形式

Instructionデータセットは、CSV形式または JSON形式で作成します。ファイル形式が CSVファイルの場合は、必ず Instructionデータセットテンプレートをご利用ください。テンプレートに合わないファイルはアップロードできません。

CSVファイル

CSVファイルでデータセットを構成するには、必ず次の内容をご確認ください。

最初の行には「C ID」、「T ID」、「Text」、「Completion」を正確に入力し、4つの列のみで構成されている必要があります。
空行と列は必ず削除します。

JSONLファイル

JSONLファイルでデータセットを構成するには、必ず次の内容をご確認ください。

各行は、{"C ID": 順序, "T ID": 順序, "Text": "入力値", "Completion": "目的の結果値"}で構成する必要があり、"入力値"と"目的の結果値"には少なくとも1文字以上を含める必要があります。
二重引用符は、""で表記します。
改行が必要な場合、「\n」で区切ります。

会話シナリオの方式

ユーザーの目的に応じてシングルターン会話シナリオまたはマルチターン会話シナリオでデータセットを構成できます。シングルターンは質問1つで答えを得る方式で、マルチターンは会話を交わしながら希望する結果を具体化する方式です。

参考

詳細なサンプルは、シングルターンサンプルファイル(.csv), マルチターンサンプルファイル(.csv)をご参照ください。

シングルターン

シングルターンシナリオは、特定の C IDに対して1ターン(T ID=0)のみで構成します。1つの C IDが1つの T IDを持つので、T_IDの値はすべて「0」になります。

clovastudio-dataset_singleturn_ko

マルチターン

マルチターンシナリオは、特定の C IDに対して2ターン以上(T ID=0)で構成します。1つの会話テーマで3ターン以上を構成することをお勧めします。

clovastudio-dataset_multiturn_ko

データセットフィールド作成

データセットの各フィールドを作成する方法について説明します。

C_ID

C_IDは、同じテーマで構成された会話シナリオに付与する番号です。0から始まり1ずつ増加します。

T_ID

T_IDは、1つの会話シナリオ内で行われる質問(Text)、回答(Completion)ペアに付与する番号です。0から始まり1ずつ増加します。

Text

Textはユーザーの要件です。様々なテーマや言い回しで作成します。どんな内容でも構わず、タイプミスや碑文などが混ざっていても構いません。

指示文のみで構成する場合

今日は本当に退屈だな(泣)

ワセリンは何でできていますか?

俺今日めっちゃ具合悪いから、職場の上司に出勤遅れそうだとメッセージ送ってぇぇー

指示文と付加情報を一緒に構成する場合

次の段落をもう少し共感できる文章に書き直して。 
{フォーマルな段落}

次の文書を読んで、質問に正確に答えて。
{文書}
{質問}

次のコードが果たすロールは何?
{コード}

Completion

Completionはユーザーの要件に対するレスポンスです。長く、詳しく作成します。順序、点リスト、改行、マークダウン形式の表形式など、好きな回答形式を作成するほど良いです

上着のネックラインには様々な種類があります。一般的に以下のような種類があります。 
1. ラウンドネック(Round Neck)
2. Vネック(V-neck)
3. クルーネック(Crew Neck)
4. スクエアネック(Square Neck)
5. ボートネック(Boat Neck)

上着のネックラインには様々な種類があります。以下のように表でまとめることができます。 
| ネックラインの種類 | 説明 |
| ラウンドネック(Round Neck) | 首をやさしく包み込む形 |
| Vネック(V-neck) | 首元を深く掘り下げ、涼しげな印象を与える形 |
| クルーネック(Crew Neck) | ラウンドネックより少し広めの形 |
| スクエアネック(Square Neck) | 四角い形状で首を包み込む形 |
| ボートネック(Boat Neck) | 横方向に広い形状でやさしい感じを与える |

旅行に出かけるときは、次のようなことを用意する必要があります。
- パスポートの日付と目的地の決定
- パスポート、ビザ、予防接種など必要書類の準備 
- 旅行保険加入
- 旅行パッキング 
- 旅行中に必要な持ち物の購入 
- 航空会社、ホテル、交通手段の予約 
- 旅行先情報の収集
- 予期せぬ事態への備え

この記事は役に立ちましたか?

What's Next

エクスプローラー画面

データセット
Instructionデータセット

タグ

CLOVA Studio