release/20250320
- release/20250320
- release/20250116
Korean

Scanner

인쇄
공유
PDF

Scanner

인쇄
공유
PDF

기사 요약

이 요약이 도움이 되었나요?

의견을 보내 주셔서 감사합니다.

VPC 환경에서 이용 가능합니다.

스캐너(Scanner)는 소스 데이터의 스키마를 추론하고, 분류자를 활용하여 데이터에 맞는 테이블을 생성합니다. 스캐너의 실행 주기를 설정하면 주기적으로 데이터를 수집하고 메타데이터를 최신 상태로 업데이트할 수 있습니다. Scanner 메뉴에서는 스캐너를 생성하고 실행 및 관리할 수 있습니다.

Scanner 화면

Data Catalog 이용을 위한 Scanner 메뉴의 기본적인 설명은 다음과 같습니다.

datacatalog-scanner_screen_ko

영역	설명
① 메뉴명	현재 확인 중인 메뉴명, 조회 중인 스캐너 수
② 기본 기능	Scanner 메뉴 최초 진입 시 표시되는 기능 [스캐너 생성] 버튼: 클릭하여 스캐너 생성(스캐너 생성 참조) [상품 더 알아보기] 버튼: 클릭하여 Data Catalog 소개 페이지로 이동 [새로 고침] 버튼: 클릭하여 스캐너 목록 새로 고침
③ 생성 후 기능	스캐너 생성 후 활성화되는 기능 [실행] 버튼: 클릭하여 스캐너 실행(스캐너 실행 참조) [수정] 버튼: 클릭하여 스캐너 설정 수정(스캐너 수정 참조) [삭제] 버튼: 클릭하여 스캐너 삭제(스캐너 삭제 참조) [실행 관리] 버튼: 클릭하여 스캐너 실행 관리 메뉴 표시
④ 검색창	스캐너 이름 또는 설명으로 스캐너 검색
⑤ 스캐너 목록	조회 중인 스캐너 목록으로, 클릭하여 상세 정보 확인
⑥ 정보 탭	각 탭을 클릭하여 확인할 스캐너 정보 선택

스캐너 생성

메타데이터를 수집할 소스 데이터와 스캔 실행 옵션 정보를 설정하여 스캐너를 생성할 수 있습니다. 스캐너를 생성하는 방법은 다음과 같습니다.

네이버 클라우드 플랫폼 콘솔에서 Services > Big Data & Analytics > Data Catalog 메뉴를 차례대로 클릭해 주십시오.
Scanner 메뉴를 클릭해 주십시오.
[스캐너 생성] 버튼을 클릭해 주십시오.
스캔할 소스 데이터의 정보를 입력해 주십시오.
- 데이터 유형: 데이터 소스 선택
- 커넥션: 데이터 소스에 연결하기 위한 커넥션 선택
  - [커넥션 생성] 버튼을 클릭하여 커넥션을 생성할 수 있습니다. 자세한 내용은 커넥션 생성을 참조해 주십시오.
  - 데이터 유형이 Cloud DB 종류인 경우, 커넥션을 선택하면 [연결 테스트] 버튼이 나타납니다. 반드시 [연결 테스트] 버튼을 클릭하여 연결을 확인해 주십시오.
  - 데이터 유형이 Object Storage 종류인 경우 커넥션을 선택하지 않습니다.
- 경로: 스캔할 소스 데이터의 경로 입력
  - 입력한 경로의 하위 경로에 대해 스캔을 실행합니다.
  - 소스 데이터 유형이 Object Storage 종류인 경우, [+설정] 버튼을 클릭하여 버킷이나 버킷하위 상세 경로를 지정해 주십시오.
  - 소스 데이터 유형이 Cloud DB 종류인 경우, 스캔할 테이블 이름을 입력해 주십시오.
    - %를 입력하면, 데이터베이스 전체를 스캔하여 테이블마다 메타데이터 테이블을 생성합니다.
- 스캔할 파일 수 : 소스 데이터 유형이 Object Storage 종류인 경우 스캔할 파일 갯수를 지정하며, 파일 이름 순서대로 읽습니다.
  - 1개부터 100개 까지 지정 가능하며, 입력하지 않을 경우 모든 파일을 스캔합니다.
  - 지정한 경로의 최하위 폴더(leaf node)별로 지정한 갯수 만큼 스캔합니다.
실행 옵션을 입력해 주십시오.
- 실행 주기: 스캔을 실행할 주기 입력
  - 온디멘드: 실행 주기 없이, 콘솔에서 스캐너 직접 실행
  - 매일/매주/매월: 설정한 일시에 스캔 실행
  - 크론: 실행 주기를 크론 형식으로 입력
- 패턴: 특정 데이터의 메타데이터 수집을 포함/제외하도록 설정
  - Glob Pattern 형식으로 입력해 주십시오.
  - 제외 설정이 포함 설정보다 우선적으로 적용됩니다.
- 분류자: 데이터 형식에 따라 분류자를 선택하고 [추가] 버튼을 클릭하여 분류자 추가
  - 소스 데이터 유형이 Object Storage인 경우 설정할 수 있습니다.
  - [분류자 생성] 버튼을 클릭하여 분류자를 생성할 수 있습니다. 자세한 내용은 분류자 생성을 참조해 주십시오.
  - 을 클릭하여 추가한 분류자를 삭제할 수 있습니다.
- 파티션 설정 : 원하는 형태의 파티셔닝 형태만 인식하여 스캔
  - 소스 데이터 유형이 Object Storage인 경우 설정할 수 있습니다.
  - [hive 파티셔닝 형태만 적용] 을 체크하지 않으면, 모든 디렉토리 파티셔닝 형태를 파티션으로 인식하여 판단합니다.
  - [hive 파티셔닝 형태만 적용] 을 체크하면, hive 파티셔닝 형태만 파티션으로 인식하여 판단하도록 설정합니다.
[다음] 버튼을 클릭해 주십시오.
출력 데이터 정보와 테이블 업데이트 처리 방식을 입력해 주십시오.
- 데이터베이스: 스캐너 실행으로 생성할 테이블을 연결할 데이터베이스 선택
  - [데이터베이스 생성] 버튼을 클릭하여 데이터베이스를 생성할 수 있습니다. 자세한 내용은 데이터베이스 생성을 참조해 주십시오.
- Prefix: 생성할 테이블 이름 앞에 추가할 문자열 입력
  - 입력하지 않을 경우, 테이블 이름은 소스 데이터의 이름을 바탕으로 자동 생성됩니다.
- 스키마 추가 시: 소스 데이터의 스키마 변경 내역을 감지했을 경우에 행할 테이블 업데이트 방식을 선택
  - 테이블 정의 업데이트: 스키마를 새로 생성하며 삭제된 데이터에 대한 메타데이터 삭제
  - 새 열만 추가: 새 스키마를 추가하지만, 기존 스키마는 유지
  - 무시: 기존 스키마 유지
[다음] 버튼을 클릭해 주십시오.
스캐너 이름과 설명을 입력하고 설정 항목을 확인한 후 [저장] 버튼을 클릭해 주십시오.

참고

Object Storage 데이터 타입 스캐너는 최대 30개 까지 생성할 수 있습니다.

Hive에서의 파티셔닝(Partitioning)은 데이터베이스 테이블을 효율적으로 관리하고 쿼리 성능을 향상시키기 위한 방법입니다. 파티셔닝은 큰 데이터 세트를 여러 작은 하위 데이터 세트로 나누어 저장하는 기법입니다. 이 기법을 사용하면 쿼리가 특정 파티션만을 스캔하도록 하여 불필요한 데이터 스캔을 줄일 수 있습니다.
보통 key=value 형식으로 디렉토리를 생성하여 데이터를 저장하며 예를들어 'month=01', 'day=01' 처럼 일자별로 나누거나 'type=A', 'type=B' 처럼 특정 값으로 구분하여 저장할 수 있습니다.

스캐너 검색 및 정보 확인

생성한 스캐너를 검색하고 정보를 확인하는 방법은 다음과 같습니다.

네이버 클라우드 플랫폼 콘솔에서 Services > Big Data & Analytics > Data Catalog 메뉴를 차례대로 클릭해 주십시오.
Scanner 메뉴를 클릭해 주십시오.
검색창에서 스캐너 이름 또는 설명을 입력한 후 을 클릭하여 스캐너를 검색해 주십시오.
스캐너를 클릭하여 정보를 확인해 주십시오.
- 이름: 스캐너 이름
- 상태: 스캐너 상태
- 최근 실행 결과: 가장 최근의 스캐너 실행 결과
- 최근 실행 일시: 가장 최근의 스캐너 실행 일시
- 실행 주기: 설정된 스캐너 실행 주기
- 업데이트 일시: 스캐너 설정을 수정한 가장 최근 일시
- [설정 정보] 탭: 클릭하여 스캐너 설정 정보 확인
  - 각 설정 항목에 대한 자세한 내용은 스캐너 생성을 참조해 주십시오.
- [실행 내역] 탭: 클릭하여 최근 10개의 스캐너 실행 내역 확인
  - 시작 일시/종료 일시: 스캔 실행 시작/종료 일시
  - 실행 시간: 스캔 실행에 소요된 시간
  - 실행 결과: 스캔 실행 결과
  - 결과 요약: 스캔 실행으로 추가 및 변경된 테이블 수, 스캔 실패 원인, 스캔 취소 내역 등의 정보 표시
  - [더 보기] 버튼: 클릭하여 실행 내역 더 보기 팝업 창 표시
    - 최근 1년간의 실행 내역을 확인하거나 실행 일시를 지정하여 실행 내역 조회 가능
  - [상세보기] 버튼: 스캔 실행 상세 내용을 CLA 서비스에서 확인할 수 있습니다

스캐너 실행

스캐너를 콘솔에서 수동으로 실행할 수 있습니다.

주의

파티션 키는 처음 스캔할 때만 생성되고 이후 스캔 간에는 추가되지 않습니다. 따라서 파티션 키가 추가되는 경우, 테이블 삭제 후 스캔을 다시 진행해야 합니다. 단, 파티션 값은 스캔 간에 계속 추가할 수 있습니다.
여러 개의 파일이 묶여져 압축되어 있는 *.zip 파일의 경우, 압축 해제 후 임의 파일 1개만 스캔합니다.

참고

실행 주기를 설정한 스캐너는 설정에 따라 자동으로 실행되며, 언제든지 콘솔에서 수동으로 실행할 수 있습니다.
스캔을 통한 IcebeRg 테이블 생성은 현재 지원하지 않습니다.

스캐너를 실행하는 방법은 다음과 같습니다.

네이버 클라우드 플랫폼 콘솔에서 Services > Big Data & Analytics > Data Catalog 메뉴를 차례대로 클릭해 주십시오.
Scanner 메뉴를 클릭해 주십시오.
실행할 스캐너를 클릭해 선택하고 [실행] 버튼을 클릭해 주십시오.
- 실행이 완료되면 스캐너의 상태가 실행 대기, 최근 실행 결과가 성공으로 표시됩니다.
- 실행 중인 스캐너를 클릭해 선택하고 [실행 관리] > 실행 중지를 차례대로 클릭하여 스캔을 중지할 수 있습니다.

스캐너 실행 주기 일시 중지 및 다시 시작

주기적으로 자동 실행하도록 설정한 스캐너의 자동 실행을 일시 중지하거나, 일시 중지한 스캐너의 자동 실행을 다시 시작하도록 설정할 수 있습니다. 설정 방법은 다음과 같습니다.

네이버 클라우드 플랫폼 콘솔에서 Services > Big Data & Analytics > Data Catalog 메뉴를 차례대로 클릭해 주십시오.
Scanner 메뉴를 클릭해 주십시오.
[실행 관리] 버튼을 클릭해 주십시오.
설정할 내용에 따라 실행 주기 일시 중지 또는 실행 주기 다시 시작을 클릭해 주십시오.
- 실행 주기 일시 중지: 주기적으로 자동 실행되도록 설정한 스캐너의 자동 실행을 일시 중지
- 실행 주기 다시 시작: 일시 중지한 스캐너의 자동 실행을 다시 시작

스캐너 수정

생성한 스캐너의 정보를 수정하는 방법은 다음과 같습니다.

참고

실행 중인 스캐너는 수정할 수 없습니다.

네이버 클라우드 플랫폼 콘솔에서 Services > Big Data & Analytics > Data Catalog 메뉴를 차례대로 클릭해 주십시오.
Scanner 메뉴를 클릭해 주십시오.
수정할 스캐너를 클릭하여 선택한 후 [수정] 버튼을 클릭해 주십시오.
스캐너 수정 화면에서 스캐너의 정보를 수정해 주십시오.
- 각 항목에 대한 자세한 내용은 스캐너 생성을 참조해 주십시오.
수정을 완료한 후 [저장] 버튼을 클릭해 주십시오.

스캐너 삭제

생성한 스캐너를 삭제하는 방법은 다음과 같습니다.

주의

삭제한 스캐너는 복구할 수 없습니다.

참고

실행 중인 스캐너는 삭제할 수 없습니다.

네이버 클라우드 플랫폼 콘솔에서 Services > Big Data & Analytics > Data Catalog 메뉴를 차례대로 클릭해 주십시오.
Scanner 메뉴를 클릭해 주십시오.
삭제할 스캐너를 클릭하여 선택한 후 [삭제] 버튼을 클릭해 주십시오.
알림 팝업 창이 나타나면 주의 사항을 확인한 후 [삭제] 버튼을 클릭해 주십시오.

이 문서가 도움이 되었습니까?

What's Next

Object Storage Scanner 사용 예시

Scanner 화면
스캐너 생성
스캐너 검색 및 정보 확인
스캐너 실행
스캐너 수정
스캐너 삭제

태그

Data Catalog