VPC 환경에서 이용 가능합니다.
데이터 검색 서비스의 정확도를 검증하고, 평가 모델을 활용하여 평가를 진행할 수 있습니다.
평가 진행 순서는 다음과 같습니다.
1. 평가셋 생성
평가셋을 생성하는 방법은 다음과 같습니다.
평가셋 타입이 자동 생성의 경우
- Evaluations 메뉴에서 평가 목록 중 진행 단계를 확인해 주십시오.
- 평가 생성 시 1. 평가 설정 > 평가 매트릭 및 데이터셋 > 데이터셋 설정 항목에서 자동을 선택한 경우, 자동으로 평가셋이 생성되어 평가셋 생성중 상태로 표시됩니다.
- 평가셋이 생성 완료되면, 목록의 진행 단계 항목에 [평가셋 생성 완료] 버튼이 표시됩니다.
- [평가셋 생성 완료] 버튼을 클릭해 주십시오.
- 자동 생성된 평가셋을 다운로드해 주십시오.
주의
평가셋 타입을 자동으로 생성하는 경우 추가 요금이 발생합니다.
평가셋 타입이 수동 생성의 경우
- Evaluations 메뉴에서 평가 목록 중 진행 단계를 확인해 주십시오.
- 평가 생성 시 1. 평가 설정 > 평가 매트릭 및 데이터셋 > 데이터셋 설정 항목에서 수동을 선택한 경우, 업로드 대기 상태로 표시됩니다.
- 목록의 평가셋 항목의 [업로드] 버튼을 클릭해 주십시오.
- 평가 데이터 업로드에서 템플릿 다운로드를 클릭해 주십시오.
- 템플릿 다운로드: 평가셋의 샘플 데이터가 입력된 템플릿 파일 다운로드
- 지원 형식: csv, xlsx
- 파일 크기: 최대 200MB
- 템플릿 파일을 참조하여 직접 평가셋 파일을 작성해 주십시오.
- query: 평가 대상 질문 입력
- llm_answer: LLM으로 생성한 답변 영역
- contexts: 검색 결과 영역
참고
자동 평가셋 타입의 경우, 평가셋 생성 완료 후 [업로드] 버튼을 통하여 평가셋 파일을 직접 업로드할 수 있습니다.
평가셋 생성 중지
평가셋 파일을 자동으로 생성하는 경우, 평가셋 생성을 중지할 수 있습니다. 평가셋 생성을 중지하는 방법은 다음과 같습니다.
- Evaluations 메뉴에서 [평가 생성] 버튼을 클릭해 주십시오.
- 평가 생성 시 데이터셋 설정 항목에서 자동을 선택해주십시오.
- 평가 생성을 완료해 주십시오.
- 평가 목록의 진행 단계에서 평가셋 생성중 상태로 표시됨을 확인해 주십시오.
- 평가셋 생성을 중지할 평가의
버튼을 클릭해 주십시오. - 평가 정보 중 진행 단계에서 [중지] 버튼을 클릭해 주십시오.
- 평가 중지에서 [적용] 버튼을 클릭해 주십시오.
- 진행 단계가 데이터셋 생성 중지로 변경되며 평가셋 생성이 중지됩니다.
주의
- 평가셋 생성을 중지할 경우, 진행된 부분까지는 과금이 발생할 수 있습니다.
- 중지된 평가셋 생성은 다시 시작할 수 없습니다. 평가를 다시 생성해 주십시오.
2. 평가셋 업로드
평가셋 파일을 업로드하는 방법은 다음과 같습니다.
- Evaluations 메뉴에서 평가 목록 중 평가셋를 확인해 주십시오.
- [업로드] 버튼을 클릭해 주십시오.
- 평가 데이터 업로드에 평가셋 파일을 업로드해 주십시오.
- 템플릿 다운로드: 평가셋의 샘플 데이터가 입력된 템플릿 파일 다운로드
- 지원 형식: csv, xlsx
- 파일 크기: 최대 200MB
- [적용] 버튼을 클릭해 주십시오.
평가 진행 중지
평가셋 파일의 평가 진행을 중지하는 방법은 다음과 같습니다.
- Evaluations 메뉴에서 평가 목록 중 평가셋에 평가셋 파일을 업로드해 주십시오.
- 진행 단계가 평가 진행중으로 변경됩니다.
- 평가 목록에서 평가 진행을 중지할 평가의
버튼을 클릭해 주십시오. - 평가 정보 중 진행 단계에서 [중지] 버튼을 클릭해 주십시오.
- 평가 중지에서 [적용] 버튼을 클릭해 주십시오.
- 진행 단계가 중지됨으로 변경되며 평가 진행이 중지됩니다.
주의
- 평가 진행을 중지할 경우, 진행된 부분까지는 과금이 발생할 수 있습니다.
- 중지된 평가 진행은 다시 시작할 수 없습니다. 평가를 다시 생성해 주십시오.
3. 평가 결과 확인
평가를 진행하려면 모델이 정답으로 간주할 수 있는 데이터를 반드시 함께 업로드해야 합니다. 자동으로 생성하거나 수동으로 사용자가 작성한 질문(Query)을 RAG 시스템을 통해 LLM이 생성한 답변과 함께 추가 정보가 포함된 문서를 수집합니다. 수집한 정보를 기준으로 LLM의 답변이 얼마나 정확한지 수치화하여 확인할 수 있습니다.
평가 결과를 확인하는 방법은 다음과 같습니다.
- Evaluations 메뉴에서 평가 목록 중 진행 단계를 확인해 주십시오.
- 평가셋 파일을 업로드 직후 평가 진행중 상태로 표시됨을 확인해 주십시오.
- 평가 진행이 완료되면 진행 단계가 평가 완료 상태로 표시됩니다.
- 평가 목록 중 평가 결과의 [다운로드] 버튼을 클릭해 주십시오.
- csv형식으로 평가 결과를 다운로드합니다.
- query: 평가 대상 질문
- llm_answer: LLM으로 생성한 답변
- retrieval_context: 수집한 검색 결과
- result: 평가 결괏값 (평가 기준 참조)
- success: 결과에 대한 TRUE/FALSE 판정
참고
진행 단계의 상태가 일정 시간 이후에도 바뀌지 않는 경우, 브라우저의 새로고침을 실행해 주십시오.
평가 기준
RAG 서비스는 다음의 기준으로 평가를 진행합니다.
- Groundedness: 생성된 답변이 검색 결과에 얼마나 기반했는지 평가합니다. 수집한 문서를 참고하지 않고 답변하여 부적절한 정보가 추가될 경우, groundedness 점수가 낮아집니다. goundedness 기준은 답변의 정합도를 측정하지 않으며, 색인된 데이터에 오류가 있어 잘못된 답변을 생성하더라도 수집된 데이터를 기반으로 답변을 구성했다면 groundedness 점수는 높게 나옵니다.
- 점수 범위: 0.0 ~ 1.0
- Context Relevancy: 검색된 문장과 질문과의 연관성을 평가하기 위해 judge 모델을 사용합니다. 검색된 문장이 짧고 질문의 핵심과 적합할수록 높은 점수를 받으며, 검색된 문장이 길거나 질문과의 연관성이 낮을수록 낮은 점수를 받습니다.
- 점수 범위: 0.0 ~ 1.0