- 印刷する
- PDF
ツール活用
- 印刷する
- PDF
Classic/VPC環境で利用できます。
ツール活用では、エクスプローラー メニューで提供される様々なツールの活用方法について説明します。CLOVA Studio JPでは現在、一括作成ツールとデータ拡張ツールを提供しています。
一括作成
一括作成は、ユーザーがアップロードした大量のタスクを一括処理し、成果物を管理するツールです。
使用方法
一括作成ツールの使用方法は、次の通りです。
- NAVERクラウドプラットフォームコンソールで Services > AI Services > CLOVA Studio JPメニューを順にクリックします。
- My Productメニューをクリックします。
- [CLOVA Studio JPに移動する] ボタンをクリックします。
- エクスプローラーメニューをクリックします。
- CLOVA Studio JPのホーム画面で機能紹介領域の [エクスプローラーの詳細を見る] ボタンをクリックしても構いません。
- ツールタブメニューをクリックし、一括作成の [開始する] ボタンをクリックします。
- ユーザーがアップロードしたデータを処理するために必要な基本学習モデルであるモデルエンジンを選択します。
- CLOVA Studio JPが提供する基本学習モデルを選択する場合
- パターン学習のためのプロンプトテンプレートの作成が必要
- プロンプトテンプレートは、プレイグラウンド作成要領に類似
- プロンプトテンプレートは、最小3セット以上の例で構成する必要があり、各例セットの間に
###
を入れてセットを区分 - プロンプトテンプレートは必ず
{text}
で終了すること
- チューニングを通じてユーザーが学習モデルを直接作成する場合
- 作成方法は、チューニングを参照
- CLOVA Studio JPが提供する基本学習モデルを選択する場合
- ユーザーが処理するデータセットであるシードデータセットをアップロードします。
- アップロードしたデータセットのパターンを分析し、類似タイプのデータセットに拡張
- シードデータセット拡張子は、csv、jsonlのみサポート
- シードデータは、最小10セット以上アップロードする必要があり、1セット当たり1,000文字以下で入力
- モデルエンジンでチューニングモデルを選択した場合、シードデータセットのタスクタイプがチューニングモデルのタスクタイプと一致すること
- [実行] ボタンをクリックします。
- [実行] ボタン: クリックするとタスク確認ポップアップの確認が可能
- [確認] ボタン: クリックするとタスクが開始され、タスク履歴を確認およびダウンロードできるマイタスクタブメニューに移動
- [中断] ボタン: クリックするとタスクが中断され、前の画面に戻る
- データ拡張タスクは、同時に1件のみ実行可能(アカウントごとに1件)
- 一括タスクは、データ1件作成ごとに10秒がかかり、システム環境によって異なることがあります。
- タスクが開始されると中断できず、サービス利用に対する課金が開始されるので、ご注意ください。
タスク成果物確認およびダウンロード
一括作成タスクの結果を確認し、成果物をダウンロードする方法は次の通りです。
- NAVERクラウドプラットフォームコンソールで Services > AI Services > CLOVA Studio JPメニューを順にクリックします。
- My Productメニューをクリックします。
- [CLOVA Studio JPに移動する] ボタンをクリックします。
- 場面右上のユーザーアカウントメニューをクリックします。
- マイタスクタブメニューをクリックしてからエクスプローラータブをクリックします。
- [一括作成] ボタンをクリックします。
- タスク結果を確認し、必要に応じて成果物をダウンロードします。
- ダウンロード: タスクが完了すると成果物のダウンロードが可能
- リクエスト中: タスク実行中
- 中断: タスク中断
- 期間満了: 成果物のダウンロード期間満了(タスク完了時点から7日)
データ拡張
データ拡張は、ユーザーがアップロードしたデータサンプルを希望する量だけ拡張および管理するツールです。
使用方法
データ拡張ツールの使用方法は、次の通りです。
- NAVERクラウドプラットフォームコンソールで Services > AI Services > CLOVA Studio JPメニューを順にクリックします。
- My Productメニューをクリックします。
- [CLOVA Studio JPに移動する] ボタンをクリックします。
- エクスプローラーメニューをクリックします。
- CLOVA Studio JPのホーム画面で機能紹介領域の [エクスプローラーの詳細を見る] ボタンをクリックしても構いません。
- ツールタブメニューをクリックし、データ拡張の [開始する] ボタンをクリックします。
- ユーザーがアップロードしたデータを拡張するために必要な基本学習モデルであるモデルエンジンを選択します。
- ユーザーに最終的に提供されるデータの総計数を入力します。
- 最小20列から最大50,000列まで入力可能(列=データセット個数)
- アップロードしたシードデータセットの数より高い値で入力
ユーザーが10個のデータセットをアップロードし、希望するデータ数に20を入力する場合、アップロードした10個のデータセットと新規に作成した10個のデータセットが提供されます。
- 拡張するデータセットのタイプを判読するための基本材料であるシードデータセットをアップロードします。
- アップロードしたデータセットのパターンを分析し、類似タイプのデータセットに拡張
- シードデータセット拡張子は、csv、jsonlのみサポート
- シードデータは、最小で10個の列(row)以上アップロードする必要があり、列当たり空白を含む1,000文字以下で入力
10個のキーワード別長所、短所の抽出データセットをアップロードし、希望するデータ数を20と入力すると、次のような結果が提供されます。
- [実行] ボタンをクリックします。
- [実行] ボタン: クリックするとタスク確認ポップアップの確認が可能
- [確認] ボタン: クリックするとタスクが開始され、タスク履歴を確認およびダウンロードできるマイタスクタブメニューに移動
- [中断] ボタン: クリックするとタスクが中断され、前の画面に戻る
- データ拡張タスクは、同時に1件のみ実行可能(アカウントごとに1件)
- 一括タスクは、データ1件作成ごとに10秒がかかり、システム環境によって異なることがあります。
- タスクが開始されると中断できず、サービス利用に対する課金が開始されるので、ご注意ください。
タスク成果物確認およびダウンロード
データ拡張タスクの成果物を確認してダウンロードする方法は、次の通りです。
NAVERクラウドプラットフォームコンソールで Services > AI Services > CLOVA Studio JPメニューを順にクリックします。
My Productメニューをクリックします。
[CLOVA Studio JPに移動する] ボタンをクリックします。
場面右上のユーザーアカウントメニューをクリックします。
マイタスクタブメニューをクリックしてからエクスプローラータブをクリックします。
[一括作成] ボタンをクリックします。
タスク結果を確認し、必要に応じて成果物をダウンロードします。
- ダウンロード: タスクが完了し成果物のダウンロードが可能
- リクエスト中: タスクをダウンロード中
- 中断: タスク中断
- 期間満了: 成果物のダウンロード期間が満了(タスク完了時点から7日)
データ拡張 & 一括作成活用チップ
データ拡張でチューニングするための学習データセットを作成してください
- 活用チップ
- チューニング学習を行うには、最小1千個以上のデータセットが必要です。
- ユーザーが1千個のデータセットをいちいち作成しなければならない煩わしさをデータ拡張により解決します。
- データ拡張は、Output(completion)が決まっている正解型タスクより、新しい文章を作成する創作型タスクに適しています。
- 活用例: ケアコール対話データセット拡張
- ユーザーがデータ拡張に使用するシードデータセットを確保します。ケアコール対話セットを作成するために対話ターン100個を作成しました。
- チューニングに必要な最小データ数である1千個に拡張します。(モデルエンジン: Choco)
- 100個の対話ターンが1千個に拡張され結果が出ます。
- データの有効性を(エラー)チェックし、チューニング学習のためのデータセット1千個を確保します。
- 例ファイルのダウンロード: ケアコール対話データセットの拡張
- 活用チップ
一括作成でチューニング学習したエンジンの性能をテストしてください
- 活用チップ
- データ拡張により確保した1千個のデータセットによりチューニング学習を進めます。
- チューニング学習がうまくいったか性能確認のために Inference Testを行います。
- Inference Testは Input(text)を1つずつ入れて1件の Output(completion)を受けなければならないが、一括作成により複数の Input(text)を入れて一度に回すことができます。
- 活用例: ケアコール対話データセットチューニング学習後の性能テスト
- 上で拡張した1千個の結果をチューニング学習させます。(対話チューニング, Choco_LoRA)
- 一括作成で学習したチューニングモデルをモデルエンジンに呼び出します。
- 性能テストのために Input(text)値のみを満たすシードデータセットを準備します。
- シードデータセットをアップロードし、一括作成を実行します。
- 与えられた Input(text)に適した Output(completion)が作成され、結果が出ます。
- 希望する結果が算出されたかどうかを有効性テストによりチューニングモデルの性能を点検します。
- 例ファイルのダウンロード: ケアコール会話データセットのチューニングおよび一括作成
2-1. Carecall_Tuning_dataset.csv
- 活用チップ
一括作成は反復的な Input(text)にて多様な Output(completion)を作成するのにより適しています。
- 活用チップ <一括作成によるデータ拡張(増強)>
- 少ない数の Input(text)で多様な Output(completion)を作成しデータを拡張します。
- 活用例: 状況に合わせたクリスマス文の作成
- 一括生成サービス画面で、状況別クリスマス文の作成プロンプトテンプレートを作成します。(プロンプトテンプレート作成チーム)
- シードデータセット構成のため5個の状況を(Input_text)付与しますが、それぞれの状況を20回ずつコピー+貼り付けし、合計100個のシードデータセットを作成します。
- 5個の Input(text)値に対してそれぞれ異なる Output(completion)を20回ずつ作成するため、計100個の新しいデータを確保することができます。
- 活用チップ <一括作成によるデータ拡張(増強)>
- 例ファイルのダウンロード: 一括作成によるクリスマス文の作成データセットの拡張
3-1. Christmas Greets_Create in bulk_seed.csv
3-2. Christmas Greets_Create in bulk_result.csv
一括作成: プロンプトテンプレート作成チップ
- データ拡張は、与えられたシードデータに基づいてプロンプトを構成し、プレイグラウンドで作成された結果値を返還します。
- データセットを多様にアップロードするほど、よりランダムにプロンプトを構成するため、シードデータセットは結果に大きな影響を与える場合があります。
- 結果がどのように出るかを予測するために、プレイグラウンドで様々なプロンプトを作成しテストしてみてください。