VPC環境で利用できます。
データ検索サービスの精度を検証し、評価モデルを活用して評価を行うことができます。
評価の進行手順は、次の通りです。
1. 評価セット作成
評価セットを作成する方法は、次の通りです。
評価セットタイプが自動作成の場合
- Evaluationsメニューから評価リストの 進捗状況 を確認します。
- 評価作成時、 1. 評価設定 > 評価メトリックとデータセット > データセット設定項目 で 自動 を選択した場合、自動的に評価セットが作成され、 評価セット作成中 のステータスが表示されます。
- 評価セットの作成が完了すると、リストの 進捗状況 項目に [評価セット作成完了] ボタンが表示されます。
- [評価セット作成完了] ボタンをクリックします。
- 自動作成された評価セットをダウンロードします。
注意
評価セットタイプを自動作成する場合は追加料金が発生します。
評価セットタイプが手動作成の場合
- Evaluationsメニューから評価リストの 進捗状況 を確認します。
- 評価作成時、 1. 評価設定 > 評価メトリックとデータセット > データセット設定項目 で 手動 を選択した場合、 アップロード待ち のステータスが表示されます。
- リストの 評価セット 項目の [アップロード] ボタンをクリックします。
- 評価データアップロード からテンプレートダウンロード をクリックします。
- テンプレートダウンロード: 評価セットのサンプルデータが入力されたテンプレートファイルをダウンロード
- サポート形式: csv、xlsx
- ファイルサイズ: 最大200MB
- テンプレートファイルを参照し、直接評価セットファイルを作成します。
- query: 評価対象質問を入力
- llm_answer: LLMで作成した回答領域
- contexts: 検索結果領域
参考
自動評価セットタイプの場合、評価セット作成完了後に [アップロード] ボタンを通じて評価セットファイルを直接アップロードできます。
評価セット作成停止
評価セットファイルを自動的に作成する場合、評価セットの作成を停止できます。評価セット作成を停止する方法は、次の通りです。
- Evaluationsメニューで [評価作成] ボタンをクリックします。
- 評価作成時、 データセット設定項目 で 自動 を選択します。
- 評価作成を完了します。
- 評価リスト 進捗状況 で 評価セット作成中 のステータスが表示されていることを確認します。
- 評価セット作成を停止する評価の
ボタンをクリックします。 - 評価情報のうち、 進捗状況 で [停止] ボタンをクリックします。
- 評価停止 で [適用] ボタンをクリックします。
- 進捗状況 がデータセット作成停止 に変更され、評価セット作成が停止します。
注意
- 評価セット作成を停止した場合、進行した分まで課金が発生することがあります。
- 停止した評価セット作成を再開することはできません。評価を再作成してください。
2. 評価セットアップロード
評価セットファイルをアップロードする方法は、次の通りです。
- Evaluationsメニューから評価リストの 評価セット を確認します。
- [アップロード] ボタンをクリックします。
- 評価データアップロード に評価セットファイルをアップロードします。
- テンプレートダウンロード: 評価セットのサンプルデータが入力されたテンプレートファイルをダウンロード
- サポート形式: csv、xlsx
- ファイルサイズ: 最大200MB
- [適用] ボタンをクリックします。
評価進行停止
評価セットファイルの評価進行を停止する方法は、次の通りです。
- Evaluationsメニューから評価リストの 評価セット に評価セットファイルをアップロードします。
- 進捗状況 が評価中 に変更されます。
- 評価リストから、評価進行を停止する評価の
ボタンをクリックします。 - 評価情報のうち、 進捗状況 で [停止] ボタンをクリックします。
- 評価停止 で [適用] ボタンをクリックします。
- 進捗状況 が停止 に変更され、評価進行が停止します。
注意
- 評価進行を停止した場合、進行した分まで課金が発生することがあります。
- 停止した評価進行を再開することはできません。評価を再作成してください。
3. 評価結果確認
評価を進めるには、モデルが正解とみなせるデータを必ず一緒にアップロードする必要があります。自動的に作成したり、手動でユーザーが作成した質問(Query)を RAGシステムを通じて LLMが作成した回答と一緒に追加情報を含むドキュメントを収集します。収集した情報を基に、LLMの回答がどれほど正確であるかを数値化して確認できます。
評価結果を確認する方法は、次の通りです。
- Evaluationsメニューから評価リストの 進捗状況 を確認します。
- 評価セットファイルをアップロードした直後に 評価中 のステータスが表示されることを確認します。
- 評価進行が完了すると、 進捗状況 が 評価完了 のステータスで表示されます。
- 評価リストのうち、 評価結果 の [ダウンロード] ボタンをクリックします。
- csv形式で評価結果をダウンロードします。
- query: 評価対象質問
- llm_answer: LLMで作成した回答
- retrieval_context: 収集した検索結果
- result: 評価結果(評価基準を参照)
- success: 結果に対する TRUE/FALSE判定
参考
進捗状況 のステータスが一定時間経っても変化しない場合は、ブラウザの更新を実行してください。
評価基準
RAGサービスは以下の基準で評価を行います。
- Groundedness: 作成された回答が検索結果にどれだけ基づいているかを評価します。収集したドキュメントを参照せずに回答し、不適切な情報が追加された場合、groundednessスコアが低くなります。goundedness基準は回答の整合性を測定するものではなく、インデックスされたデータにエラーがあって間違った回答を作成しても、収集されたデータに基づいて回答を構成した場合、groundednessスコアは高くなります。
- スコア範囲: 0.0~1.0
- Context Relevancy: 検索した文と質問との関連性を評価するために judgeモデルを使用します。検索した文章が短くて質問の核心と合致するほど高いスコアを獲得し、検索した文章が長かったり質問との関連性が低いほど低いスコアを獲得します。
- スコア範囲: 0.0~1.0