ツール活用

Prev Next

Classic/VPC環境で利用できます。

ツール活用では、 エクスプローラー メニューで提供される様々なツールの活用方法について説明します。CLOVA Studioでは現在、一括作成ツールとデータ拡張ツールを提供します。

ご案内

一括作成ツールとデータ拡張ツールをサポートするモデルは、次の通りです。

  • HCX-003、HCX-DASH-001(チューニングモデルを含む)

データ拡張

データ拡張は、ユーザーがアップロードしたデータサンプルを目的の量だけ拡張できるツールです。ユーザーがシードデータセットをアップロードすると、言語モデルがシードデータセットのパターンを分析し、類似タイプのデータをユーザーの希望通りに作成してくれます。

データ拡張ツールの使用方法は、次の通りです。

  1. NAVERクラウドプラットフォームコンソールで、 i_menu > Services > AI Services > CLOVA Studio メニューを順にクリックします。
  2. My Product > [CLOVA Studioに移動する] ボタンをクリックします。
  3. エクスプローラー メニューをクリックします。
  4. ツール タブでデータ拡張[開始する] ボタンをクリックします。
  5. ユーザーがアップロードしたデータを拡張するために必要な基本学習モデルを選択します。
  6. モデルを選択し、取得したいデータの数を入力します。
    • 最小20行、最大50,000行まで入力できます(行=データ数)。
    • アップロードしたシードデータセットに作成されたデータ数より大きい値を入力する必要があります。
  7. シードデータセットをアップロードします。
    • アップロードしたデータセットのパターンを分析し、類似タイプのデータセットに拡張します。
    • シードデータセットの拡張子は CSV、JSONLのみサポートし、UTF-8形式でエンコードする必要があります。
    • シードデータは最小10行以上アップロードする必要があり、1行当たり空白を含めて1000文字以内で入力してください。
    • データセットの内容に「#」記号が含まれている場合、パフォーマンスが低下することがあります。
  8. [実行] ボタンをクリックします。
  • タスク確認のポップアップが表示されます。
  1. タスクを開始するには、 [確認] ボタンをクリックします。
    • タスク履歴を確認してダウンロードできる マイタスク メニューに移動します。
    • [停止] ボタン: クリックするとタスクが停止され、前の画面に戻ります。
    • タスク結果を確認してダウンロードする方法は、 [タスク管理] をご参照ください。
参考

ユーザーが10個のデータセットをアップロードして希望するデータ数に20を入力する場合、アップロードした10個のデータセットと新たに作成された10個のデータセットが提供されます。

注意
  • データ拡張タスクは、アカウントごとに同時に1件のみ実行できます。
  • データ拡張タスクは、データ1件の作成ごとに10秒がかかり、システム環境によって異なることがあります。
  • タスク開始後にタスクを停止すると、タスクが行われた区間に合わせて課金されます。

一括作成

一括作成は、ユーザーがアップロードした大量のタスクを一括処理し、結果を管理するツールです。

一括作成ツールの使用方法は、次の通りです。

  1. NAVERクラウドプラットフォームコンソールで、 i_menu > Services > AI Services > CLOVA Studio メニューを順にクリックします。
  2. My Product メニュー > [CLOVA Studioに移動する] ボタンをクリックします。
  3. エクスプローラー メニューをクリックします。
  4. ツール タブメニューをクリックした後、一括作成[開始する] ボタンをクリックします。
  5. 一括作成画面が表示されたら、モデルを選択します。
    • 基本モデルを選択した場合、プロンプトテンプレートを作成します。
      • プロンプトテンプレートは、プレイグラウンド作成方法と似ています。
      • プロンプトテンプレートは3件以上のサンプルセットで構成する必要があり、各サンプルセットの間に###を入力してセットを区別します。
      • プロンプトテンプレートを終了するときは、必ず{text}を入力してください。
    • チューニングでユーザーが直接学習モデルを作成する場合は、チューニングをご参照ください。
  6. シードデータセットをアップロードします。
    • アップロードしたデータセットのパターンを分析し、類似タイプのデータセットに拡張します。
    • シードデータセットの拡張子は CSV、JSONLのみサポートし、UTF-8形式でエンコードする必要があります。
    • シードデータセットには10行以上のデータを作成する必要があり、1行当たり空白を含めて1000文字以内で入力してください。
    • モデルでチューニングモデルを選択した場合、シードデータセットのタスクタイプがチューニングモデルのタスクタイプと一致する必要があります。
    • データセットの内容に「#」記号が含まれている場合、パフォーマンスが低下することがあります。
  7. [実行] ボタンをクリックします。
    • タスク確認画面が表示されます。
  8. タスクを開始するには、 [確認] ボタンをクリックします。
    • タスク履歴を確認してダウンロードできる [マイタスク] メニューに移動します。
    • [停止] ボタン: クリックするとタスクが停止され、前の画面に戻ります。
    • タスク結果を確認してダウンロードする方法は、タスク管理をご参照ください。
注意
  • 一括作成処理は、アカウントごとに同時に1件のみ実行できます。
  • 一括作成処理は、データ1件の作成ごとに10秒がかかり、システム環境によって異なることがあります。
  • タスク開始後にタスクを停止すると、タスクが行われた区間に合わせて課金されることがあるので、ご注意ください。
参考

シードデータセットに基づいてデータを一括作成するため、シードデータセットのデータによって結果が大きく異なることがあります。結果を予測するために、プレイグラウンドで様々なプロンプトを作成してテストすることをお勧めします。シードデータセットと結果の例は、次の通りです。
clovastudio-explorer_augbatch_seed01_ja.png

clovastudio-explorer_augbatch_seed02_ja.png

活用例

ケアコール対話データセットの拡張

データ拡張は、答え(completion)が決まっている正解型タスクより、新しい文章を作成する創作型タスクに適しています。例えば、チューニング学習を行うためには少なくとも千以上のデータを含むデータセットが必要ですが、データ拡張ツールを使用するとユーザーが数千のデータをいちいち作成する手間を省くことができます。

ケアコール対話データセットを拡張する方法は、次の通りです。

  1. ユーザーがデータ拡張に使用するシードデータセットを確保します。ケアコール対話セットを作成するために対話ターン100個を作成しました。
  2. チューニングに必要な最小データ数である1千個に拡張します。
  3. 100個の対話ターンが1千個に拡張されて結果として出てきます。
  4. データの有効性を(エラー)チェックし、チューニング学習のためのデータセット1千個を確保します。

一括作成を活用したパフォーマンステスト

チューニングしたモデルのパフォーマンスを確認するためにテストする場合、1件の Output(Completion)を受け取るためには Input(Text)を1つずつ入力する必要があります。しかし、一括作成ツールを使用すると、複数の Inputを一度に入力して結果を受け取ることができます。一括作成ツールでチューニング学習したモデルのパフォーマンスをテストする方法を説明します。

ケアコール対話データセットのチューニング学習後、パフォーマンスをテストする方法は、次の通りです。

  1. データ拡張した1千個の結果を学習させます。
  2. 一括作成で学習したチューニングモデルをモデルに呼び出します。
  3. パフォーマンステストのために Input(text)値のみを満たすシードデータセットを準備します。
  4. シードデータセットをアップロードし、一括作成を実行します。
    • 与えられた Input(text)に適した Output(completion)が作成され、結果として表示されます。
  5. 目的の結果が算出されたか、有効性テストを通じてチューニングモデルのパフォーマンスを点検します。

一括作成ツールを活用したデータ拡張

反復的な Input(Text)を用いて様々な Output(completion)を作成するタスクに適しています。少ない数の Input(text)で様々な Output(completion)を作成してデータを拡張できます。一括作成ツールを使用してデータを拡張する方法を説明します。

状況に合ったクリスマスフレーズを作成する方法は、次の通りです。

  1. 一括作成サービス画面で、状況別クリスマスフレーズの作成プロンプトテンプレートを作成します。
    clovastudio-explorer02_ex03-01.png
  2. シードデータセット構成のため5個の状況を(Input_text)付与しますが、各状況を20回ずつコピー+貼り付けし、計100個のシードデータセットを作成します。
    clovastudio-explorer_dataset2_ja.png
  3. 結果を確認します。