- 印刷する
- PDF
タスク管理
- 印刷する
- PDF
Classic/VPC環境で利用できます。
タスク管理では、チューニングメニューでタスクを作成および管理する方法と学習状況を確認する方法について説明します。また、学習が完了したタスクのパフォーマンスおよび精度をテストするための Inference Testの使用方法とテストアプリを作成する方法を紹介します。
新規タスク作成
新規タスクを作成し、事前に学習したモデルの一部をユーザーデータセットに合わせて再学習してテストできます。
チューニングタスクの作成のためにはアップロード条件に適したデータセットが必要であり、データ件数が多いほどチューニング成果物のパフォーマンスが向上します。データセットについての詳細は、データセットをご参照ください。
新規タスクを作成する方法は、次の通りです。
- NAVERクラウドプラットフォームコンソールで Services > AI Services > CLOVA Studio JPメニューを順にクリックします。
- My Productメニューをクリックします。
- [CLOVA Studio JPに移動する] ボタンをクリックします。
- チューニングメニューをクリックします。
- 作業する種類の [作成する] ボタンをクリックします。
- チューニングは計7つのタスク種類を提供しており、カードの形でタスク種類の説明と応用例を確認できます。
- ポップアップが表示されたらモデルエンジンを選択し、[作成] ボタンをクリックします。
- モデルエンジンは今後変更できません。
- モデルエンジンについての詳細は、Engineをご参照ください。
- タスク名を入力します。
- ファイルアップロード領域をクリックして、個人情報および有害情報の案内内容を確認し、データセットをアップロードします。注意
正常な学習進行およびパフォーマンス保障のためのデータセット規格を必ず遵守してデータセットファイルをアップロードしてください。詳細は、データセットをご参照ください。
- csvファイルの場合、フォーマットダウンロードをクリックしてデータセットフォーマットファイルをダウンロードできます。
- データセットのアップロードに成功した場合、ファイルのアップロード領域にデータセットのファイル名と容量が表示されます。
- データセットのアップロードに成功しても、最適なパフォーマンスのために改善が推奨される場合、注意事項の確認をクリックして注意事項を確認できます。
- データセットのアップロードに失敗した場合、ファイルアップロード領域にファイル名と失敗理由のメッセージが表示されます。詳細を見るをクリックして、具体的なエラー内容を確認できます。
- [次へ] ボタンをクリックします。
- トークン算定ポップアップで予想使用トークンを確認し、[学習] ボタンをクリックします。
- 学習待機中のポップアップ内容を確認し、[確認] ボタンをクリックします。
- [ユーザー名] > [マイタスク] > チューニングタブで学習状況を確認できます。
- ユーザーデータセット内のトークン数が多いほどチューニングにより多くの時間がかかり、より多くの費用が発生します。
- 学習を進める前に、学習のための GPUの確保およびデータ前処理のために、学習待機時間が最大6時間かかることがあります。
データセット
データセットファイルの規格および注意事項、例を確認して、データセットファイルを正しく作成します。
データセットファイルの規格および注意事項
データセットファイルの規格および注意事項は、次の通りです。
共通
- ファイルのタイトルは2文字~30文字で入力します。
- ファイル拡張子は、.csvと.jsonlのみサポートします。
- ファイルのエンコード形式は、UTF-8形式をサポートします。
- ファイル容量が50MB以下のファイルのみアップロードできます。
- 有効データを1,000件以上入力します。
- 文書分類タスクの場合、カテゴリ当たりのデータセット件数が均等である必要があり、最小200件以上のデータをお勧めします。また、分類ラベルは分かち書きと特殊文字を除いた単語1つで構成することを推奨します。
- 例) 肯定30%(300件)、否定30%(300件)、中立40%(400件)
- 改行が必要な場合、 「\n」で区切ります。
- 個人情報が含まれたデータセットをアップロードして発生するすべての問題は、ユーザーの責任です。
.csvファイル
- 1行目には「Text」、「Completion」を正確に含め、計2列でのみ構成します。
- 空行と列は必ず削除します。
- ファイルは1行(Text、Completionペア)ごとに空白を含め1000文字以下にします。超過した場合は、データセットの一部のみアップロードされます。
.jsonlファイル
- 各行は、{"Text": "入力値"、"Completion": "希望する結果値"}で構成する必要があり、"入力値"と"希望する結果値"には少なくとも1文字以上を含める必要があります。
- 二重引用符は、""で表記します。
データセットファイルの作成例
データセットファイルの作成例は、次の通りです。
- 会話: 会話タスクの場合、最適なパフォーマンスを保証するために次のようにデータセットを作成します。
- Text列には3つ以上の発話文を、Completion列には1つ以上の発話文を入力
- Completion列の発話主体は1人で統一
- Text列と Completion列の発話内容が繋がるように構成することを推奨
- 発話主体(発話者)は2名に制限
- 発話文の前に発話主体の明示が必要(例) 「顧客:」、「販売者:」)
学習状況確認
学習状況を確認する方法は、次の通りです。
- NAVERクラウドプラットフォームコンソールで Services > AI Services > CLOVA Studio JPメニューを順にクリックします。
- My Productメニューをクリックします。
- [CLOVA Studio JPに移動する] ボタンをクリックします。
- 右上の [ユーザー名] を選択し、[マイタスク] > チューニングをクリックします。
- 新規タスクを作成する: クリックすると [新規タスク] タブに移動
- /: クリックしてソート方式を変更
- 学習待機中: 学習待機中の状態であり、クリックすると学習待機中にポップアップが表示される
- 学習中: 学習中の状態であり、クリックして予想所要時間を確認可能
- 学習完了: 学習を完了した状態であり、クリックしてタスク情報確認およびテスト可能
- 学習中断: 学習を中断した状態
学習完了タスクの情報確認
学習完了したタスクをクリックすると、タスク情報を確認できます。
- 作成日時: 新規タスクの作成日時
- 学習完了日時: 学習を完了した日時
- Workflow ID: 学習中のタスクを識別する ID
- Problem Type: タスクタイプ
- Model Engine: 学習した言語モデルのタイプ
- Dataset: 学習に使用したデータセットファイル名
- Train Loss: モデルがデータセットにどれほど適しているかを示す数値であり、Train Lossが低いほど正解との誤差が小さい
- Tokens Used: 実際使用されたトークン数
学習中断
学習を中断する方法は、次の通りです。
- 学習中のタスクの学習を中断する場合、学習の進行率に応じて使用されたトークンの利用料金が発生することがあります。
- 中断した学習は、再開できません。
学習待機中または学習進行中のタスクのみ中断できます。
- NAVERクラウドプラットフォームコンソールで Services > AI Services > CLOVA Studio JPメニューを順にクリックします。
- My Productメニューをクリックします。
- [CLOVA Studio JPに移動する] ボタンをクリックします。
- 右上の [ユーザー名] を選択し、[マイタスク] > チューニングをクリックします。
- 学習を中断するタスクをクリックします。
- [中断] ボタンをクリックします。
- 学習中断のポップアップ内容を確認し、[中断] ボタンをクリックします。
- 待機中の学習を中断する場合、既存にアップロードしたデータセットのファイルがすべて失われます。
- 進行中の学習を中断した場合、既存にアップロードしたデータセットファイルおよびタスクが失われ、タスク作成時に告知したトークンが使用されます。
学習完了タスクの活用
学習完了したタスクのテストアプリを作成する前に、パフォーマンスおよび精度をテストできる Inference Test機能を提供します。テストを完了した後、テストアプリを作成でき、共有 URLを通じてタスクを共有することもできます。
Inference Test
Inference Test機能にてテストする方法は以下のとおりです。
- NAVERクラウドプラットフォームコンソールで Services > AI Services > CLOVA Studio JPメニューを順にクリックします。
- My Productメニューをクリックします。
- [CLOVA Studio JPに移動する] ボタンをクリックします。
- 右上の [ユーザー名] を選択し、[マイタスク] > チューニングをクリックします。
- 学習完了状態のタスクのうち、テストするタスクをクリックします。
- Input領域に入力値を入力し、 [実行] ボタンをクリックします。
空白を含め、最大2,000文字まで入力できます。
Output領域に学習を通じて作成された結果値が出力されます。
十分なテストを通じて、パフォーマンスと精度を検証してください。
入力値は、当該タスクに使用されたデータセットの「Text」と類似した長さと形式で入力することをお勧めします。
対話 Inference Test時、以下のように発話文を入力します。
データセットの「Text」内の発話文と同じ個数、同じパターンで発話文を入力します。
例) 「Text」内の発話文の数が3つの場合、Input領域に3つの発話文を入力Input Output 正しい例: 顧客: いつ発送しますか? 販売者: お客様、昨日ご注文された件でございますね? 顧客: はい、そうです。 販売者: 明日発送予定でございます。 間違った例: 顧客: いつ発送しますか? 販売者: 明日発送予定でございます。 販売者: もう少しお待ちください。 発話主体を含め、データセットの「Text」内の発話文と類似した形式で発話文を入力します。
例)Input Output 正しい例: 顧客: いつ発送しますか? 販売者: 明日発送予定でございます。 間違った例: いつ配送されますか? 明日配送予定です。
アップロードしたデータセットの一部はチューニングされたモデルのパフォーマンス検証に使用されるため、Inference Test結果がユーザーデータセット内容と一致しないことがあります。
テストアプリ作成
テストアプリを作成する方法は、次の通りです。
- NAVERクラウドプラットフォームコンソールで Services > AI Services > CLOVA Studio JPメニューを順にクリックします。
- My Productメニューをクリックします。
- [CLOVA Studio JPに移動する] ボタンをクリックします。
- 右上の [ユーザー名] を選択し、[マイタスク] > チューニングをクリックします。
- テストアプリを作成するタスクをクリックします。
- [テストアプリ作成] ボタンをクリックします。
- テストアプリ名を入力し、[作成] ボタンをクリックします。
テストアプリが作成され、テストアプリのポップアップが表示されます。
- テストアプリの API情報を確認することができ、AI Filterの使用有無を設定できます。(APIについての詳細は、CLOVA Studio JP APIガイドを参照)
- コードタイプは、curlと pythonが提供されます。
- [コピー] ボタンをクリックすると、API情報をクリップボードにコピーできます。
- [再発行] ボタンをクリックすると、API Gateway Keyを再発行できます。
- ガイドを見るをクリックすると、AI Filterガイドを確認できます。
- テストアプリを作成して使用に問題ないことを確認した後、サービスアプリを申し込みできます。サービスアプリを申し込むには、サービスアプリ申し込み様式を作成してください。サービスアプリを申し込みの詳細は、サービスアプリ申し込みをご参照ください。
- アプリの申込状況を確認するには、アプリの申込状況確認をご参照ください。