- 印刷する
- PDF
データセット準備
- 印刷する
- PDF
Classic/VPC環境で利用できます。
データセット準備では、データセットの規格やデータセットの作成方法、作成例について説明します。
データセットは、言語モデルをユーザーが望むタスクに最適化された形で学習させるために使用するデータの集まりです。
学習したいモデルによって準備するデータセットが異なります。
- 既存モデルを学習させるには、データセットガイドに従ってデータセットを準備する必要があります。データセットをご参照ください。
- HyperCLOVA X言語モデルに学習させるには、Instructionデータセットガイドに従ってデータセットを準備する必要があります。Instructionデータセットをご参照ください。
個人情報を含むデータセットをアップロードすることで発生する問題や結果に対するすべての責任はユーザーにあります。
データセット
既存モデルを学習させる際に必要なデータセットを準備する方法について説明します。
データセットのファイル形式
データセットのファイル形式は、次の通りです。
項目 | 説明 |
---|---|
ファイルの拡張子 | *.csvまたは *.jsonl |
ファイルエンコードの形式 | UTF-8 |
最小データ | 400行以上を推奨 |
ファイルサイズ | 50MB以下、APIで学習する場合は100MB以下 |
ファイルタイトル | 2~30文字以内 |
データセットテンプレート
データセットを構成するフィールドは、次の通りです。
フィールド | 説明 |
---|---|
Text | 予想されるユーザーのすべての発話内容 |
Completion | 予想される CLOVA Studioが答えるべきすべての発話内容 |
- 1行(Text、Completionペア)のデータは、空白を含めて4,000文字以内で入力してください。4,000文字を超える場合、データセットの一部のみがアップロードされます。
- 文書分類タスク用データセットの場合、各分類のカテゴリごとに最低200行以上のデータを入力してください。
例) 肯定30%(300件)、否定30%(300件)、中立40%(400件) - 複数の分類タスク用データセットの場合、分類ラベルを最大15個まで入力できます。
- 分類ラベルは1つの単語のみ使用することをお勧めします。スペースや記号は使用できません。
データセットのファイル形式
データセットは、CSV形式または JSON形式で作成します。ファイル形式が CSVファイルの場合は、必ずデータセットテンプレートをご利用ください。テンプレートに合わないファイルはアップロードできません。
CSVファイル
CSVファイルでデータセットを構成するには、必ず次の内容をご確認ください。
- 最初の行には「Text」、「Completion」を正確に入力し、2つの列のみで構成されている必要があります。
- 空行と列は必ず削除します。
- 改行が必要な場合、「\n」で区切ります。
JSONLファイル
データセットを JSONLファイルで構成するには、必ず次の内容をご確認ください。
- 各行は、{"Text": "入力値", "Completion": "目的の結果値"}で構成する必要があり、"入力値"と"目的の結果値"には少なくとも1文字以上を含める必要があります。
- 二重引用符は、""で表記します。
- 改行が必要な場合、「\n」で区切ります。
データセットフィールド作成
データセットの Text、Completionフィールドの作成方法は、データセットフィールド作成をご参照ください。
会話タスクのためのデータセットは、以下のように作成してください。
- Text列には3つ以上の発話文を、Completion列には1つ以上の発話文を入力します。
- Completion列の発話主体は1人で統一します。
- Text列と Completion列の発話内容が繋がるように構成することをお勧めします。
- 発話主体(発話者)は2名に制限します。
- 発話文の前に発話主体を明示します。例) 「顧客:」、「販売者:」
Instructionデータセット
Instructionデータセットは、HyperCLOVA Xが持つ能力を引き出すデータであり、データの量よりも質が重要です。長くて詳しく書くほど、希望する回答形式を具体的に書くほど、チューニングのパフォーマンスを向上させることができます。ユーザーのタスクによって必要なデータの量が異なる場合がありますが、チューニングのパフォーマンスを高めるためには1ターン(Text、Completionペア)基準で最低400件以上のデータが必要であり、HyperCLOVA Xがまだ学習していない分野である場合はより多くの量のデータが必要です。
Instructionデータセットのファイル形式
Instructionデータセットのファイル形式は、次の通りです。
項目 | 説明 |
---|---|
ファイルの拡張子 | *.csvまたは *.jsonl |
ファイルエンコードの形式 | UTF-8 |
最小データ | 400行以上を推奨 |
ファイルサイズ | 100MB以下 |
Instructionデータセットテンプレート
Instructionデータセットを構成するフィールドは、次の通りです。
フィールド | 説明 |
---|---|
C_ID | Conversation ID. 同じテーマで構成された会話シナリオに付与する番号。0から始まり1ずつ増加 |
T_ID | Turn ID. 1つの会話シナリオ内で行われる質問(Text)、回答(Completion)ペアに付与する番号。0から始まり1ずつ増加 |
Text | 予想されるユーザーのすべての発話内容 |
Completion | 予想される CLOVA Studioが答えるべきすべての発話内容 |
- 1行(Text、Completionペア)のデータは、空白を含めて8,000文字以内で入力してください。8,000文字を超える場合、データセットの一部のみがアップロードされます。
- 文書分類タスク用データセットの場合、各分類カテゴリごとに最低200行以上のデータを入力してください。
例) 肯定30%(300件)、否定30%(300件)、中立40%(400件) - 複数の分類タスク用データセットの場合、分類ラベルを最大15個まで入力できます。
- 分類ラベルは1つの単語のみ使用することをお勧めします。スペースや記号は使用できません。
Instructionデータセットのファイル形式
Instructionデータセットは、CSV形式または JSON形式で作成します。ファイル形式が CSVファイルの場合は、必ず Instructionデータセットテンプレートをご利用ください。テンプレートに合わないファイルはアップロードできません。
CSVファイル
CSVファイルでデータセットを構成するには、必ず次の内容をご確認ください。
- 最初の行には「C ID」、「T ID」、「Text」、「Completion」を正確に入力し、4つの列のみで構成されている必要があります。
- 空行と列は必ず削除します。
JSONLファイル
JSONLファイルでデータセットを構成するには、必ず次の内容をご確認ください。
- 各行は、{"C ID": 順序, "T ID": 順序, "Text": "入力値", "Completion": "目的の結果値"}で構成する必要があり、"入力値"と"目的の結果値"には少なくとも1文字以上を含める必要があります。
- 二重引用符は、""で表記します。
- 改行が必要な場合、「\n」で区切ります。
会話シナリオの方式
ユーザーの目的に応じてシングルターン会話シナリオまたはマルチターン会話シナリオでデータセットを構成できます。シングルターンは質問1つで答えを得る方式で、マルチターンは会話を交わしながら希望する結果を具体化する方式です。
詳細なサンプルは、シングルターンサンプルファイル(.csv), マルチターンサンプルファイル(.csv)をご参照ください。
シングルターン
シングルターンシナリオは、特定の C IDに対して1ターン(T ID=0)のみで構成します。1つの C IDが1つの T IDを持つので、T_IDの値はすべて「0」になります。
マルチターン
マルチターンシナリオは、特定の C IDに対して2ターン以上(T ID=0)で構成します。1つの会話テーマで3ターン以上を構成することをお勧めします。
データセットフィールド作成
データセットの各フィールドを作成する方法について説明します。
C_ID
C_IDは、同じテーマで構成された会話シナリオに付与する番号です。0から始まり1ずつ増加します。
T_ID
T_IDは、1つの会話シナリオ内で行われる質問(Text)、回答(Completion)ペアに付与する番号です。0から始まり1ずつ増加します。
Text
Textはユーザーの要件です。様々なテーマや言い回しで作成します。どんな内容でも構わず、タイプミスや碑文などが混ざっていても構いません。
指示文のみで構成する場合
今日は本当に退屈だな(泣)
ワセリンは何でできていますか?
俺今日めっちゃ具合悪いから、職場の上司に出勤遅れそうだとメッセージ送ってぇぇー
指示文と付加情報を一緒に構成する場合
次の段落をもう少し共感できる文章に書き直して。 {フォーマルな段落}
次の文書を読んで、質問に正確に答えて。 {文書} {質問}
次のコードが果たすロールは何? {コード}
Completion
Completionはユーザーの要件に対するレスポンスです。長く、詳しく作成します。順序、点リスト、改行、マークダウン形式の表形式など、好きな回答形式を作成するほど良いです
上着のネックラインには様々な種類があります。一般的に以下のような種類があります。
1. ラウンドネック(Round Neck)
2. Vネック(V-neck)
3. クルーネック(Crew Neck)
4. スクエアネック(Square Neck)
5. ボートネック(Boat Neck)
上着のネックラインには様々な種類があります。以下のように表でまとめることができます。
| ネックラインの種類 | 説明 |
| ラウンドネック(Round Neck) | 首をやさしく包み込む形 |
| Vネック(V-neck) | 首元を深く掘り下げ、涼しげな印象を与える形 |
| クルーネック(Crew Neck) | ラウンドネックより少し広めの形 |
| スクエアネック(Square Neck) | 四角い形状で首を包み込む形 |
| ボートネック(Boat Neck) | 横方向に広い形状でやさしい感じを与える |
旅行に出かけるときは、次のようなことを用意する必要があります。
- パスポートの日付と目的地の決定
- パスポート、ビザ、予防接種など必要書類の準備
- 旅行保険加入
- 旅行パッキング
- 旅行中に必要な持ち物の購入
- 航空会社、ホテル、交通手段の予約
- 旅行先情報の収集
- 予期せぬ事態への備え