VPC 환경에서 이용 가능합니다.
NCLUE 서비스에서 제공하는 기능은 고객사의 사용자 데이터를 기반으로 사용할 수 있습니다. 따라서 NCLUE 서비스를 이용하기 전에 필요한 데이터의 종류를 확인한 후 데이터 준비 가이드에 따라 데이터셋을 준비해 주십시오.
참고
준비된 데이터셋은 Object Storage 버킷에 업로드해 주십시오.(Object Storage 사용 가이드 참조)
데이터 종류
NCLUE 서비스 이용에 필요한 데이터는 다음과 같습니다.
시퀀스 데이터셋
시퀀스 데이터셋에 대한 설명은 다음과 같습니다.
- Feature 생성에 사용되는 사용자 행동이 담긴 데이터로, 고객사의 데이터에서 사용자별로 행동 이력만 추출하여 목록으로 생성합니다. 생성한 Feature는 Task Model을 생성하는 데이터로 사용됩니다.
- 시간순으로 행동 이력을 나열한 형태입니다.(시퀀스 데이터셋 포맷 참조)
- 행동을 예측하려는 모든 사용자에 대해 시퀀스 데이터셋이 준비되어야 합니다.
- <예시> 300만 명의 사용자에 대해 다양한 태스크 모델링을 수행하려면, 300만 명에 대한 행동 시퀀스 데이터셋을 모두 준비해야 합니다.
정답 데이터셋
정답 데이터셋에 대한 설명은 다음과 같습니다.
- Task 생성에 사용되는 사용자 행동에 대한 정답이 담긴 데이터입니다.
- '정답'은 Task model을 통해 예측하고자 하는 사용자의 행동이나 특성을 의미합니다.
- Feature 생성에 사용된 시퀀스 데이터셋의 사용자 중에서 Task에 맞는 정답 레이블을 1로, 정답이 아닌 레이블을 0으로 태깅한 형태입니다.(정답 데이터셋 포맷 참조)
- 사용자 중 일부에 대한 데이터만 있어도 Task를 생성할 수 있으나, 정답 데이터가 많을수록 정확도가 향상됩니다.
데이터 준비
데이터를 준비하기 위해 알아야 할 데이터 포맷과 작성에 대한 설명을 데이터 종류별로 확인해 주십시오.
시퀀스 데이터셋
시퀀스 데이터셋의 포맷과 작성에 대한 설명은 다음과 같습니다.
시퀀스 데이터셋 포맷
Feature 생성에 필요한 시퀀스 데이터셋의 포맷은 다음과 같습니다.
tab 구분자 .csv 형태 파일로 준비하여 주십시오.
-
데이터 포맷
# 구분자 tab {user_id}\t{sequence} -
{sequence} 형태
{behavior}->{behavior}->{behavior}->......->{behavior} -
최종 데이터 포맷
# format : {user_id}\t{behavior}->{behavior}->......->{behavior}- <예시>
u730023 스타벅스 판교아브뉴프랑점->모모스->포켓몬 GO->한라봉->에어팟->나이키 세일
- <예시>
시퀀스 데이터셋 작성
시퀀스 데이터셋 작성에 대한 설명은 다음과 같습니다.
-
사용자 아이디({user_id})
- 사용자 아이디는 중복될 수 없습니다.
- 숫자, 문자열, 또는 숫자와 문자열의 조합을 입력할 수 있습니다.
- 최대 허용 길이는 100자입니다.
- 개인 정보가 포함된 식별자(주민 등록 번호, 여권 번호, 운전면허 번호, 신용 카드 번호, 휴대폰 번호, 이메일 등)는 사용자 아이디로 사용할 수 없습니다.
- 고객사 시스템에서 사용하는 사용자의 아이디 대신 NCLUE 서비스 사용을 위해 별도의 사용자 아이디를 생성하여 사용하는 것을 권장합니다.
-
행동 ({behavior})
- '행동'(behavior)이란 사용자가 고객사의 서비스 및 상품을 이용했을 때, 구분이 되는 고유한 행동을 말합니다.
- 검색한 키워드, 조회한 서비스명, 구매한 상품명 등이 입력할 수 있는 행동의 예시가 될 수 있습니다.
- 다양한 행동 이력을 표현할 수 있는 모든 문자열(단어, 어구, 구절, 문장)을 입력할 수 있습니다.
- 네이버 서비스에서 발생할 만한 행동 (네이버 검색어, 쇼핑 상품명, 상호명 등)과 유사한 문자열을 입력하는 것을 권장합니다.
- {behavior} 값은 사람이 봤을 때 이해할 수 있도록 띄어쓰기를 포함하여 입력해 주십시오.
- {behavior}는 공백 또는 특수문자를 포함할 수 있습니다.
-
시퀀스({sequence})
- 시퀀스에 입력된 행동들은 나열된 순서만 고려됩니다. 한 사람에 대한 행동 이력을 시간 정보를 제외하고 '->'로 구분하여 시간순으로 나열해 주십시오. 가장 왼쪽의 행동이 가장 오래된 행동을 의미하며, 오른쪽으로 갈수록 최신 행동을 의미합니다.
- 시퀀스의 최대 길이는 내부에서 사용하는 HyperCLOVA의 토큰 2048개로 제한됩니다. 하나의 시퀀스에는 행동 문자열의 길이에 따라 최대 150~500개의 행동을 포함할 수 있습니다. 최대 길이를 초과할 경우, 초과한 문자열에 대한 내용은 입력되지 않습니다.
참고
- 시퀀스 데이터셋에 입력된 사용자 정보는 NCLUE 서비스 내에서 구분자로만 사용되며, Feature 생성이나 Task Model 학습의 입력값으로 사용되지 않습니다.
정답 데이터셋
정답 데이터셋 포맷과 작성에 대한 설명은 다음과 같습니다.
정답 데이터셋 포맷
Task 생성에 필요한 정답 데이터셋의 포맷은 다음과 같습니다.
tab 구분자 .csv 형태 파일로 준비하여 주십시오.
-
데이터 포맷
# 구분자 tab {user_id}\t{label} -
최종 데이터 포맷
# format : {user_id}\t{label}- <예시>
u192873 0 u730023 1 u239376 0 u846712 1 u558145 1
- <예시>
정답 데이터셋 작성
정답 데이터셋 작성에 대한 설명은 다음과 같습니다.
- {label}은 1(정답인 경우)과 0(정답이 아닌 경우)으로 표기합니다.
- 정답셋 데이터는 0과 1 각각 100개씩, 총 200개 이상을 준비해야 하며, 데이터 양이 많을수록 성능이 향상됩니다.
- Feature 생성에 사용한 시퀀스 데이터셋의 사용자 아이디 중 일부를 선택하여 정답셋 데이터를 작성할 수 있습니다.
- <예시> 특정 Task A를 알아내기 위한 정답 데이터가 100만 명 중 2000명에게 있다면, 2000명에 대해서만 1로 표시하고 나머지 일부는 0으로 표시하여 정답 데이터셋으로 사용합니다.
- Task Model 목적에 따라 정답 데이터셋을 작성할 수 있습니다.
- <예시> 자사 상품 중 M이라는 상품을 살 것 같은 사용자를 예측하는 Task Model이라면 자사 고객 중 M을 구입한 사람을 1로, 구입하지 않은 사람을 0으로 정답셋 데이터를 작성할 수 있습니다.
- 사용자 아이디({uesr_id})에는 개인 정보(주민등록번호, 여권 번호, 운전면허 번호, 신용카드 번호, 휴대폰 번호, 이메일 등)가 포함될 수 없습니다.