Documentation Index

Fetch the complete documentation index at: https://guide.ncloud-docs.com/llms.txt

Use this file to discover all available pages before exploring further.

Scanner

Prev Next

VPC 환경에서 이용 가능합니다.

스캐너(Scanner)는 소스 데이터의 스키마를 추론하고, 분류자를 활용하여 데이터에 맞는 테이블을 생성합니다. 스캐너의 실행 주기를 설정하면 주기적으로 데이터를 수집하고 메타데이터를 최신 상태로 업데이트할 수 있습니다. Scanner 메뉴에서는 스캐너를 생성하고 실행 및 관리할 수 있습니다.

Scanner 목록 화면

Data Catalog 이용을 위한 Scanner 메뉴의 기본적인 설명은 다음과 같습니다.

datacatalog-scanner_screen_ko

영역 설명
① 메뉴명 현재 확인 중인 메뉴명, 조회 중인 스캐너 수
② 기본 기능 Scanner 메뉴 최초 진입 시 표시되는 기능
  • [스캐너 생성] 버튼: 클릭하여 스캐너 생성(스캐너 생성 참조)
  • [상품 더 알아보기] 버튼: 클릭하여 Data Catalog 소개 페이지로 이동
  • [새로 고침] 버튼: 클릭하여 스캐너 목록 새로 고침
③ 스캐너 정보 탭 기본 정보, 소스 데이터, 출력 데이터, 실행 주기 탭을 선택하여 상세 정보 조회
④ 스캐너 정보 영역 스캐너 정보 탭 에서 선택한 탭의 상세 정보 조회
⑤ 실행 내역 스캐너 실행 내역 및 상세 히스토리 조회

Scanner 상세 화면

Scanner 상세 화면 의 기본적인 설명은 다음과 같습니다.

datacatalog-scanner_screen_ko

영역 설명
① 스캐너 이름 선택한 스캐너 이름
② 기본 기능
  • [실행] 버튼: 클릭하여 실행
  • [수정] 버튼: 클릭하여 스캐너 정보 수정
  • [삭제] 버튼: 클릭하여 스캐너 해당 스캐너 삭제
  • [실행관리] 버튼: 클릭하여 실행중인 스캐너 중지, 실행주기 일시중지, 실행주기 다시시작 기을 설정
  • [새로 고침] 버튼: 클릭하여 스캐너 목록 새로 고침
③ 생성 후 기능 스캐너 생성 후 활성화되는 기능
  • [실행] 버튼: 클릭하여 스캐너 실행(스캐너 실행 참조)
  • [실행 관리] 버튼: 클릭하여 스캐너 주기적 실행 관리 메뉴 표시
④ 검색창 스캐너 이름 또는 설명으로 스캐너 검색
⑤ 스캐너 목록 조회 중인 스캐너 목록으로, 클릭하여 상세 정보 확인

스캐너 생성

메타데이터를 수집할 소스 데이터와 스캔 실행 옵션 정보를 설정하여 스캐너를 생성할 수 있습니다. 스캐너를 생성하는 방법은 다음과 같습니다.

  1. 네이버 클라우드 플랫폼 콘솔의 VPC 환경에서 Menu > Services > Big Data & Analytics > Data Catalog 메뉴를 차례대로 클릭해 주십시오.
  2. Scanner 메뉴를 클릭해 주십시오.
  3. [스캐너 생성] 버튼을 클릭해 주십시오.
  4. 스캔할 소스 데이터의 정보를 입력해 주십시오.
    • 데이터 유형: 데이터 소스 선택
    • 커넥션: 데이터 소스에 연결하기 위한 커넥션 선택
      • [커넥션 생성] 버튼을 클릭하여 커넥션을 생성할 수 있습니다. 자세한 내용은 커넥션 생성을 참조해 주십시오.
      • 데이터 유형이 Cloud DB 종류인 경우, 커넥션을 선택하면 [연결 테스트] 버튼이 나타납니다. 반드시 [연결 테스트] 버튼을 클릭하여 연결을 확인해 주십시오.
      • 데이터 유형이 Object Storage, Apache Iceberg 종류인 경우 커넥션을 선택하지 않습니다.
    • 경로: 스캔할 소스 데이터의 경로 입력
      • 입력한 경로의 하위 경로에 대해 스캔을 실행합니다.
      • 소스 데이터 유형이 Object Storage 종류인 경우, [+설정] 버튼을 클릭하여 버킷이나 버킷하위 상세 경로를 지정해 주십시오.
      • 소스 데이터 유형이 Cloud DB 종류인 경우, 스캔할 테이블 이름을 입력해 주십시오.
        • %를 입력하면, 데이터베이스 전체를 스캔하여 테이블마다 메타데이터 테이블을 생성합니다.
      • 소스 데이터 유형이 Apache Iceberg 종류인 경우, 메타데이터의 상위 폴더나 메타데이터 폴더를 지정해주십시오.
        • <예시> iceberg 메타 데이터가 /iceberg_table/metadata/ 하위에 위치한 경우, /iceberg_table/ 혹은 /iceberg_table/metadata/ 경로를 지정해야만 스캔이 가능합니다.
        • Apache Iceberg 유형은 한 개의 스캐너당 한 개의 테이블만 스캔할 수 있으며, format-version은 1, 2 버전까지 지원 합니다
    • 스캔 범위 : 소스 데이터 유형이 Object Storage 종류인 경우 스캔할 파일 개수를 지정하며, 파일 이름 순서대로 읽습니다.
      • 1개부터 100개 까지 지정 가능하며, 입력하지 않을 경우 모든 파일을 스캔합니다.
      • 지정한 경로의 최하위 폴더(leaf node)별로 지정한 개수만큼 스캔합니다.
  5. 실행 옵션을 입력해 주십시오.
    • 실행 주기: 스캔을 실행할 주기 입력
      • 온디멘드: 실행 주기 없이, 콘솔에서 스캐너 직접 실행
      • 매일/매주/매월: 설정한 일시에 스캔 실행
      • 크론: 실행 주기를 크론 형식으로 입력
    • 패턴: 특정 데이터의 메타데이터 수집을 포함/제외하도록 설정
      • Glob Pattern 형식으로 입력해 주십시오.
      • 제외 설정이 포함 설정보다 우선적으로 적용됩니다.
    • 분류자: 데이터 형식에 따라 분류자를 선택하고 [추가] 버튼을 클릭하여 분류자 추가
      • 소스 데이터 유형이 Object Storage인 경우 설정할 수 있습니다.
      • [분류자 생성] 버튼을 클릭하여 분류자를 생성할 수 있습니다. 자세한 내용은 분류자 생성을 참조해 주십시오.
      • i-datacatalog-delete을 클릭하여 추가한 분류자를 삭제할 수 있습니다.
    • 파티션 설정 : 원하는 형태의 파티셔닝 형태만 인식하여 스캔
      • 소스 데이터 유형이 Object Storage인 경우 설정할 수 있습니다.
      • [hive 파티셔닝 형태만 적용] 을 체크하지 않으면, 모든 디렉토리 파티셔닝 형태를 파티션으로 인식하여 판단합니다.
      • [hive 파티셔닝 형태만 적용] 을 체크하면, hive 파티셔닝 형태만 파티션으로 인식하여 판단하도록 설정합니다.
  6. [다음] 버튼을 클릭해 주십시오.
  7. 출력 데이터 정보와 테이블 업데이트 처리 방식을 입력해 주십시오.
    • 데이터베이스: 스캐너 실행으로 생성할 테이블을 연결할 데이터베이스 선택
      • [데이터베이스 생성] 버튼을 클릭하여 데이터베이스를 생성할 수 있습니다. 자세한 내용은 데이터베이스 생성을 참조해 주십시오.
    • Prefix: 생성할 테이블 이름 앞에 추가할 문자열 입력
      • 입력하지 않을 경우, 테이블 이름은 소스 데이터의 이름을 바탕으로 자동 생성됩니다.
    • 스키마 추가 시: 소스 데이터의 스키마 변경 내역을 감지했을 경우에 행할 테이블 업데이트 방식을 선택
      • 테이블 정의 업데이트: 스키마를 새로 생성하며 삭제된 데이터에 대한 메타데이터 삭제
      • 새 열만 추가: 새 스키마를 추가하지만, 기존 스키마는 유지
      • 무시: 기존 스키마 유지
    • 테이블 병합: 해당 폴더에 파일 타입과 파티션 구조가 같다면 파일의 데이터 구조와 상관없이 모든 데이터를 하나의 테이블로 병합하여 출력합니다. (struct 타입의 필드의 하위 필드 병합은 제공하지 않습니다. 추후 제공 예정)
    • 테이블 수 제한: 스캔 후 출력되는 테이블 수가 설정한 갯수보다 많을 경우 테이블 생성을 하지 않고 취소합니다.
  8. [다음] 버튼을 클릭해 주십시오.
  9. 스캐너 이름과 설명을 입력하고 설정 항목을 확인한 후 [저장] 버튼을 클릭해 주십시오.
참고

Object Storage 데이터 타입 스캐너는 최대 30개 까지 생성할 수 있습니다.

Hive에서의 파티셔닝(Partitioning)은 데이터베이스 테이블을 효율적으로 관리하고 쿼리 성능을 향상시키기 위한 방법입니다. 파티셔닝은 큰 데이터 세트를 여러 작은 하위 데이터 세트로 나누어 저장하는 기법입니다. 이 기법을 사용하면 쿼리가 특정 파티션만을 스캔하도록 하여 불필요한 데이터 스캔을 줄일 수 있습니다.
보통 key=value 형식으로 디렉토리를 생성하여 데이터를 저장하며 예를들어 'month=01', 'day=01' 처럼 일자별로 나누거나 'type=A', 'type=B' 처럼 특정 값으로 구분하여 저장할 수 있습니다.

스캐너 검색 및 정보 확인

생성한 스캐너를 검색하고 정보를 확인하는 방법은 다음과 같습니다.

  1. 네이버 클라우드 플랫폼 콘솔의 VPC 환경에서 Menu > Services > Big Data & Analytics > Data Catalog 메뉴를 차례대로 클릭해 주십시오.
  2. Scanner 메뉴를 클릭해 주십시오.
  3. 검색창에서 스캐너 이름 또는 설명을 입력한 후 i-datacatalog-search을 클릭하여 스캐너를 검색해 주십시오.
  4. 스캐너 이름을 클릭하여 스캐너 상세 화면으로 이동한 후 다음 내용을 확인해 주십시오. 항목별 자세한 설명은 스캐너생성 내용을 참조해 주십시오.
    • 기본정보 탭
      • 상태: 스캐너 상태
      • 설명 : 스캐너 설명
      • 최근 실행 결과: 가장 최근의 스캐너 실행 결과
      • 최근 실행 일시: 가장 최근의 스캐너 실행 일시
      • 생성 일시 : 스캐너 생성 일시
      • 업데이트 일시: 스캐너 설정을 수정한 가장 최근 일시
    • 소스 데이터 탭
      • 데이터 유형: 스캔 데이터 유형
      • 패턴: 스캔 대상 포함/제외 패턴
      • 경로: 스캔 경로
      • 분류자: 스캔시 적용할 분류자
      • 파티션 설정 : 스캔할 파티션 형태 설정
    • 출력 데이터 탭
      • 데이터베이스: 스캔 결과 테이블의 데이터베이스
      • Prefix : 스캔 결과 테이블 이름의 prefix
      • 스키마 추가 옵션 : 스캔 결과 업데이트 옵션
      • 테이블 수 제한 : 스캔시 출력할 최대 테이블 수
      • 테이블 병합: 스캔시 테이블 하나로 병합 여부
    • 실행 주기 탭
      • 실행 주기: 설정된 스캐너 실행 주기 (설정 중지중이면 취소선으로 표시 됩니다)
    • [실행 내역] : 검색 조건에 따라 최근 10개의 스캐너 실행 내역 확인
      • 시작 일시/종료 일시: 스캔 실행 시작/종료 일시
      • 실행 시간: 스캔 실행에 소요된 시간
      • 실행 결과: 스캔 실행 결과
      • 결과 요약: 스캔 실행으로 추가 및 변경된 테이블 수, 스캔 실패 원인, 스캔 취소 내역 등의 정보 표시, 클릭하여 실행 상세 내역 팝업 조회
      • [상세보기] 버튼: 스캔 실행 상세 로그를 CLA 서비스에서 확인할 수 있습니다

스캐너 실행

스캐너를 콘솔에서 수동으로 실행할 수 있습니다.

주의

파티션 키는 처음 스캔할 때만 생성되고 이후 스캔 간에는 추가되지 않습니다. 따라서 파티션 키가 추가되는 경우, 테이블 삭제 후 스캔을 다시 진행해야 합니다. 단, 파티션 값은 스캔 간에 계속 추가할 수 있습니다.
여러 개의 파일이 묶여져 압축되어 있는 *.zip 파일의 경우, 압축 해제 후 임의 파일 1개만 스캔합니다.

참고

실행 주기를 설정한 스캐너는 설정에 따라 자동으로 실행되며, 언제든지 콘솔에서 수동으로 실행할 수 있습니다.

스캐너를 실행하는 방법은 다음과 같습니다.

  1. 네이버 클라우드 플랫폼 콘솔의 VPC 환경에서 Menu > Services > Big Data & Analytics > Data Catalog 메뉴를 차례대로 클릭해 주십시오.
  2. Scanner 메뉴를 클릭해 주십시오.
  3. 실행할 스캐너를 클릭해 선택하고 [실행] 버튼을 클릭해 하거나, 스캐너를 선택해 상세 정보 조회 후 [실행] 버튼을 클릭해 주십시오.
    • 스캐너 상세 화면에서는 스캐너 실행 단계진행률이 표기 됩니다.
      • Object Storage 스캐너 실행단계 : INIT(초기화), SCAN_FILE(파일 스캔중), CHECK_PARTITON(파티션 판단중), MERGE_PARTITON(파티션 병합중), UPDATE_RESULT(스캔 결과 전송중)
      • Cloud DB / JDBC / Iceberg 스캐너 실행단계 : INIT(초기화), SCAN_FILE(테이블 스캔중), UPDATE_RESULT(스캔 결과 전송중)
    • 실행이 완료되면 스캐너의 상태실행 대기, 최근 실행 결과성공으로 표시됩니다.
    • 실행 중인 스캐너를 클릭해 선택하고 [실행 관리] > 실행 중지를 차례대로 클릭하여 스캔을 중지할 수 있습니다.

스캐너 실행 주기 일시 중지 및 다시 시작

주기적으로 자동 실행하도록 설정한 스캐너의 자동 실행을 일시 중지하거나, 일시 중지한 스캐너의 자동 실행을 다시 시작하도록 설정할 수 있습니다. 설정 방법은 다음과 같습니다.

  1. 네이버 클라우드 플랫폼 콘솔의 VPC 환경에서 Menu > Services > Big Data & Analytics > Data Catalog 메뉴를 차례대로 클릭해 주십시오.
  2. Scanner 메뉴를 클릭해 주십시오.
  3. 스캐너를 선택하여 [실행 관리] 버튼을 클릭하거나, 스캐너 이름을 클릭하여 스캐너 상세 화면 조회후 [실행 관리] 버튼을 클릭해 주십시오.
  4. 설정할 내용에 따라 실행 주기 일시 중지 또는 실행 주기 다시 시작을 클릭해 주십시오.
    • 실행 주기 일시 중지: 주기적으로 자동 실행되도록 설정한 스캐너의 자동 실행을 일시 중지
    • 실행 주기 다시 시작: 일시 중지한 스캐너의 자동 실행을 다시 시작

스캐너 수정

생성한 스캐너의 정보를 수정하는 방법은 다음과 같습니다.

참고

실행 중인 스캐너는 수정할 수 없습니다.

  1. 네이버 클라우드 플랫폼 콘솔의 VPC 환경에서 Menu > Services > Big Data & Analytics > Data Catalog 메뉴를 차례대로 클릭해 주십시오.
  2. Scanner 메뉴를 클릭해 주십시오.
  3. 수정할 스캐너의 이름을 클릭하여 스캐너 상세 화면으로 이동합니다.
    4.[수정] 버튼을 클릭해 주십시오.
  4. 스캐너 수정 화면에서 스캐너의 정보를 수정해 주십시오.
    • 각 항목에 대한 자세한 내용은 스캐너 생성을 참조해 주십시오.
  5. 수정을 완료한 후 [저장] 버튼을 클릭해 주십시오.

스캐너 삭제

생성한 스캐너를 삭제하는 방법은 다음과 같습니다.

주의

삭제한 스캐너는 복구할 수 없습니다.

참고

실행 중인 스캐너는 삭제할 수 없습니다.

  1. 네이버 클라우드 플랫폼 콘솔의 VPC 환경에서 Menu > Services > Big Data & Analytics > Data Catalog 메뉴를 차례대로 클릭해 주십시오.
  2. Scanner 메뉴를 클릭해 주십시오.
  3. 삭제할 스캐너 이름을 클릭하여 스캐너 상세 화면으로 이동해 주십시오.
  4. [삭제] 버튼을 클릭해 주십시오.
  5. 알림 팝업 창이 나타나면 주의 사항을 확인한 후 [삭제] 버튼을 클릭해 주십시오.