- 印刷する
- PDF
ツール活用
- 印刷する
- PDF
Classic/VPC環境で利用できます。
ツール活用では、 エクスプローラー メニューで提供される様々なツールの活用方法について説明します。CLOVA Studioでは現在、一括作成ツールとデータ拡張ツールを提供しています。
一括作成
一括作成は、ユーザーがアップロードした大量のタスクを一括処理し、成果物を管理するツールです。
一括作成ツールの使用方法は、次の通りです。
- NAVERクラウドプラットフォームコンソールで Services > AI Services > CLOVA Studio メニューを順にクリックします。
- My Product メニュー > [CLOVA Studioに移動する] ボタンをクリックします。
- エクスプローラー メニューをクリックします。
- ツール タブメニューをクリックし、一括作成 の [開始する] ボタンをクリックします。
- 一括作成画面が表示されたら、モデルエンジンを選択します。
- 基本モデルを選択した場合、プロンプトテンプレートを作成します。
- プロンプトテンプレートは、プレイグラウンド作成方法と似ています。
- プロンプトテンプレートは3件以上の例題セットで構成する必要があり、各例題セットの間に###を入力してセットを区別します。
- プロンプトテンプレートを終了するときは、必ず{text}を入力してください。
- チューニングでユーザーが直接学習モデルを作成する場合は、チューニングをご参照ください。
- 基本モデルを選択した場合、プロンプトテンプレートを作成します。
- シードデータセットをアップロードします。
- アップロードしたデータセットのパターンを分析し、類似タイプのデータセットに拡張します。
- シードデータセットの拡張子は CSV、JSONLのみサポートし、UTF-8形式でエンコードする必要があります。
- シードデータセットには10行以上のデータを作成する必要があり、1行当たり空白を含めて1,000文字以内で入力してください。
- モデルエンジンでチューニングモデルを選択した場合、シードデータセットのタスクタイプがチューニングモデルのタスクタイプと一致する必要があります。
- データセットの内容に「#」記号が含まれている場合、パフォーマンスが低下することがあります。
- [実行] ボタンをクリックします。
- タスク確認画面が表示されます。
- タスクを開始するには、 [確認] ボタンをクリックします。
- タスク履歴を確認してダウンロードできる [マイタスク] メニューに移動します。
- [中断] ボタン: クリックするとタスクが中断され、前の画面に戻ります。
- タスク結果を確認してダウンロードする方法は、タスク管理をご参照ください。
- 一括作成タスクは、アカウントごとに同時に1件のみ実行できます。
- 一括作成タスクは、データ1件を作成するのに10秒かかり、システム環境によって異なることがあります。
- タスク開始後にタスクを中断すると、タスクが行われた区間に合わせて課金されることがあるので、ご注意ください。
シードデータセットに基づいてデータを一括作成するため、シードデータセットのデータによって成果物が大きく異なることがあります。成果物を予測するために、プレイグラウンドで様々なプロンプトを作成してテストしてみてください。
例)
シードデータセットと成果物の例は、次の通りです。
データ拡張
データ拡張は、ユーザーがアップロードしたデータサンプルを希望する量だけ拡張できるツールです。ユーザーがシードデータセットをアップロードすると、言語モデルがシードデータセットのパターンを分析し、似たようなタイプのデータをユーザーが希望するだけ作成してくれます。
データ拡張ツールの使用方法は、次の通りです。
- NAVERクラウドプラットフォームコンソールで Services > AI Services > CLOVA Studio メニューを順にクリックします。
- My Product > [CLOVA Studioに移動する] ボタンをクリックします。
- エクスプローラー メニューをクリックします。
- ツール タブでデータ拡張 の [開始する] ボタンをクリックします。
- ユーザーがアップロードしたデータを拡張するために必要な基本学習モデルであるモデルエンジンを選択します。
- モデルエンジンを選択した後、取得したいデータの数を入力します。
- 最小20行、最大50,000行まで入力できます(行=データ数)。
- アップロードしたシードデータセットに作成されたデータ数より大きい値を入力する必要があります。
- シードデータセットをアップロードします。
- アップロードしたデータセットのパターンを分析し、類似タイプのデータセットに拡張します。
- シードデータセットの拡張子は CSV、JSONLのみサポートし、UTF-8形式でエンコードする必要があります。
- シードデータは最小10行以上アップロードする必要があり、1行当たり空白を含めて1,000文字以内で入力してください。
- データセットの内容に「#」記号が含まれている場合、パフォーマンスが低下することがあります。
- モデルエンジンを HCXに選択した場合、データセットは「User: (会話内容)、Assistant: (会話内容)」のフォーマットで作成する必要があります。
- [実行] ボタンをクリックします。
- タスク確認のポップアップが表示されます。
- タスクを開始するには、 [確認] ボタンをクリックします。
- タスク履歴を確認してダウンロードできる [マイタスク] メニューに移動します。
- [中断] ボタン: クリックするとタスクが中断され、前の画面に戻ります。
- タスク結果を確認してダウンロードする方法は、 [タスク管理] をご参照ください。
ユーザーが10個のデータセットをアップロードし、希望するデータ数に20を入力する場合、アップロードした10個のデータセットと新規作成した10個のデータセットが提供されます。
- データ拡張タスクは、アカウントごとに同時に1件のみ実行できます。
- データ拡張タスク時にデータ1件を作成するのに10秒かかり、システム環境によって異なることがあります。
- タスク開始後にタスクを中断すると、タスクが行われた区間に合わせて課金されます。
活用例
ケアコール会話データセットの拡張
データ拡張は、答え(completion)が決まっている正解型タスクより、新しい文章を作成する創作型タスクに適しています。例えば、チューニング学習を行うためには少なくとも千以上のデータを含むデータセットが必要ですが、データ拡張ツールを使用するとユーザーが数千のデータをいちいち作成する手間を省くことができます。
ケアコール会話データセットを拡張する方法は、次の通りです。
- ユーザーがデータ拡張に使用するシードデータセットを確保します。ケアコール対話セットを作成するために対話ターン100個を作成しました。
- チューニングに必要な最小データ数である1千個に拡張します。
- 100個の会話ターンが1千個に拡張されて成果物として出てきます。
- データの有効性を(エラー)チェックし、チューニング学習のためのデータセット1千個を確保します。
- サンプルファイル
ケアコールデータ拡張のシードデータ
ケアコールデータ拡張の成果物
- サンプルファイル
一括作成を活用したパフォーマンステスト
チューニングしたモデルエンジンのパフォーマンスを確認するためにテストする場合、1件の Output(Completion)を受け取るためには Input(Text)を1つずつ入力する必要があります。しかし、一括作成ツールを使用すると、複数の Inputを一度に入力して結果を受け取ることができます。
一括作成ツールでチューニング学習したエンジンのパフォーマンスをテストする方法は、次の通りです。
ケアコール対話データセットのチューニング学習後、パフォーマンスをテストする方法は、次の通りです。
- データを拡張した1千個の成果物をチューニング学習させます。
- 一括作成で学習したチューニングモデルをモデルエンジンに呼び出します。
- パフォーマンステストのために Input(text)値のみを満たすシードデータセットを準備します。
- シードデータセットをアップロードし、一括作成を実行します。
- 与えられた Input(text)に適した Output(completion)が作成され、成果物として表示されます。
- 目的の成果靴が算出されたか、検証テストを通じてチューニングモデルのパフォーマンスを点検します。
- サンプルファイルのダウンロード: ケアコール会話データセットのチューニングと一括作成
一括作成ツールを活用したデータ拡張
反復的な Input(text)を用いて様々な Output(completion)を作成するタスクに適しています。少ない数の Input(text)で様々な Output(completion)を作成してデータを拡張できます。
一括作成ツールを使用してデータを拡張する方法は、次の通りです。
状況に合ったクリスマスフレーズを作成する方法は、次の通りです。
- 一括作成サービス画面で、状況別クリスマス文の作成プロンプトテンプレートを作成します。
- シードデータセット構成のため5個の状況を(Input_text)付与しますが、それぞれの状況を20回ずつコピー+貼り付けし、計100個のシードデータセットを作成します。
- 結果を確認します。
- 5個の Input(text)値に対してそれぞれ異なる Output(completion)を20回ずつ作成するため、計100個の新しいデータを確保できます。
- サンプルファイル