Job

인쇄
공유
PDF

Job

인쇄
공유
PDF

Article Summary

Share feedback

Thanks for sharing your feedback!

VPC 환경에서 이용 가능합니다.

Job 메뉴 화면 구성과 작업 편집기 화면 구성, 작업 생성 절차와 작업 실행 옵션 설정 절차를 설명합니다.

작업이란 대규모 데이터를 추출, 변환, 적재하는 데이터 처리 작업입니다.
Data Flow가 지원하는 데이터 변환에는 속성 정의, 속성 선택, 열 병합, 필터, 행 병합, 집계, 속성 이름 변경, 중복 제거, 빈값 채우기가 있습니다.
소스 노드와 타깃 노드로는 네이버 클라우드 플랫폼의 Object Storage와 Data Catalog를 지정할 수 있습니다. 향후 네이버 클라우드 플랫폼의 Cloud DB와 고객사 On-premise 데이터베이스 연동을 지원할 계획입니다.
작업 편집기는 코드 작성 없이 ETL 작업을 구성할 수 있는 GUI 인터페이스입니다. 소스 노드, 변환 노드, 타깃 노드를 다이어그램으로 구성합니다.

Job 화면

Job 화면은 다음과 같이 구성되어 있습니다.
dataflow-job-vpc_screen_ko

영역	설명
① 메뉴명	현재 확인 중인 메뉴명
② 기본 기능	Job 메뉴 최초 진입 시 표시되는 기능 [Job 생성] 버튼: 클릭하여 작업 생성 [상품 더 알아보기] 버튼: 클릭하여 Data Flow 소개 페이지로 이동 [새로 고침] 버튼: 클릭하여 페이지 새로 고침
③ 생성 후 기능	작업 생성 후 제공되는 기능 [실행] 버튼: 선택한 작업에 대해 온디맨드 실행. 실행 전에 작업 실행 옵션 설정 기능 제공. [삭제] 버튼: 선택한 작업 삭제
④ Job 목록	생성된 Job 목록. Job별 [상세보기] 버튼을 클릭하면 작업 편집기 화면으로 이동.
⑤ 검색창	작업 이름에 따라 생성된 작업 검색

작업 정보 확인

생성된 작업의 정보를 확인하는 방법은 다음과 같습니다.

네이버 클라우드 플랫폼 콘솔의 Region 메뉴와 Platform 메뉴에서 이용 중인 환경을 클릭해 주십시오.
Services > Big Data & Analytics > Data Flow 메뉴를 차례대로 클릭해 주십시오.
Jobs 메뉴를 클릭해 주십시오.
작업 목록이 나타나면 요약 정보를 확인해 주십시오.
- 작업 이름: Job 생성 시 사용자가 입력한 Job 고유의 이름
- 최근 실행 일시: 최근 Job 실행 일시. 트리거에 의해 예약 실행되거나 온디맨드 실행된 최근 일시.
- 상태: Job 실행 상태
  - 완료: Job 실행 완료 상태
  - 실행중: Job 실행 진행 중인 상태
  - 임시저장: Job 편집이 완료되지 않은 상태. 편집기 화면에서 [임시저장] 버튼을 클릭하면 임시 저장됨.
- 업데이트 일시: 최근 Job 업데이트 일시. 작업 편집기에서 작업 구성을 수정한 최근 일시.
- [상세보기] 버튼: Job 상세 정보 조회
작업 구성에 대한 상세 정보를 조회하려면 [상세보기] 버튼을 클릭해 주십시오.
- 작업 편집기 화면 구성으로 이동하여 해당 작업에 대한 노드 구성 및 설정 사항을 확인할 수 있습니다.

작업 생성

소스 노드, 변환 노드, 타깃 노드를 추가 및 설정함으로써 작업을 구성할 수 있습니다.

참고

소스 노드와 타깃 노드를 지정하려면 Data Catalog와 Object Storage를 이용 중인 상태여야 합니다. Data Catalog와 Object Storage를 이용하지 않을 경우에는 해당 서비스에 대한 신청을 먼저 진행해 주십시오.

신규 작업을 생성하는 방법은 다음과 같습니다.

네이버 클라우드 플랫폼 콘솔의 Region 메뉴와 Platform 메뉴에서 이용 중인 환경을 클릭해 주십시오.
Services > Big Data & Analytics > Data Flow 메뉴를 차례대로 클릭해 주십시오.
Jobs 메뉴를 클릭해 주십시오.
[작업 생성] 버튼을 클릭해 주십시오.
작업 편집기 화면이 나타나면 [작업 구성] 탭에서 소스 노드, 변환 노드, 타깃 노드를 추가하여 작업 내용을 설정해 주십시오.
- 편집기 화면 구성에 대해서는 작업 편집기 화면 구성을 참고해 주십시오.
작업 편집기 화면에서 [소스] 버튼을 클릭하여 나타나는 메뉴에서 Object Storage 또는 Data Catalog를 선택해 주십시오.
- Object Storage: 네이버 클라우드 플랫폼 Object Storage 버킷을 데이터 소스로 지정
- Data Catalog: 네이버 클라우드 플랫폼 Data Catalog를 데이터 소스로 지정
- Cloud DB for MySQL: 네이버 클라우드 플랫폼 Cloud DB for MySQL을 데이터 소스로 지정
6.에서 추가된 소스 노드를 선택한 후, 오른쪽 화면에서 소스 노드의 속성 정보와 상세 설정을 입력해 주십시오.
- 입력 항목에 대한 자세한 설명은 소스 노드 구성을 참고해 주십시오.
- 추가할 수 있는 소스 노드의 개수는 변환 노드의 작업의 종류에 따라 다릅니다. 자세한 사항은 변환 노드 구성을 참고해 주십시오.
작업 편집기 화면에서 [변환] 버튼을 클릭하여 나타나는 메뉴에서 변환 작업을 선택해 주십시오.
- 속성 정의: 소스 데이터를 사용하여 타깃 데이터의 스키마를 정의합니다. 설정 항목에 대한 자세한 설명은 속성 정의를 참고해 주십시오.
- 속성 선택: 소스 데이터 집합의 속성 키 중에서 타깃 데이터 구성 속성을 선택합니다. 설정 항목에 대한 자세한 설명은 속성 선택을 참고해 주십시오.
- 열 병합: 두 개의 데이터 집합을 병합합니다. 설정 항목에 대한 자세한 설명은 열 병합을 참고해 주십시오.
- 필터: 입력 데이터 집합을 필터링하여 새 데이터 집합을 생성합니다. 설정 항목에 대한 자세한 설명은 필터를 참고해 주십시오.
- 행 병합: 스키마가 동일한 둘 이상의 데이터 집합의 행을 병합합니다. 설정 항목에 대한 자세한 설명은 행 병합을 참고해 주십시오.
- 집계: 선택된 필드와 행에서 계산(평균, 합계, 최대, 최소)을 수행하고 결괏값으로 새 필드를 생성합니다. 설정 항목에 대한 자세한 설명은 집계를 참고해 주십시오.
- 속성 이름 변경: 데이터에서 특정 속성 키의 이름을 바꿉니다. 설정 항목에 대한 자세한 설명은 속성 이름 변경을 참고해 주십시오.
- 중복 제거: 데이터 소스에서 중복된 데이터 행을 제거합니다. 설정 항목에 대한 자세한 설명은 중복 제거를 참고해 주십시오.
- 빈값 채우기: 데이터에서 누락된 열의 값을 설정한 값으로 채워 넣습니다. 설정 항목에 대한 자세한 설명은 빈값 채우기를 참고해 주십시오.
8.에서 추가된 변환 노드를 선택한 후, 오른쪽 화면에서 변환 노드의 속성 정보와 상세 설정을 입력해 주십시오.
- 입력 항목에 대한 자세한 설명은 변환 노드 구성을 참고해 주십시오.
- 추가할 수 있는 변환 노드의 개수는 작업당 한 개입니다.
작업 편집기 화면에서 [타깃] 버튼을 클릭하여 나타나는 메뉴에서 Object Storage 또는 Data Catalog를 선택해 주십시오.
- Object Storage: 네이버 클라우드 플랫폼 Object Storage 버킷을 데이터 저장소로 지정
- Data Catalog: 네이버 클라우드 플랫폼 Data Catalog를 데이터 저장소로 지정
- Cloud DB for MySQL: 네이버 클라우드 플랫폼 Cloud DB for MySQL을 데이터 저장소로 지정
10.에서 추가된 타깃 노드를 선택한 후, 오른쪽 화면에서 타깃 노드의 속성 정보를 입력해 주십시오.
- 입력 항목에 대한 자세한 설명은 타깃 노드 구성을 참고해 주십시오.
- 컬럼 미리보기에서 설정된 스키마를 확인해 주십시오.
작업 편집기 화면에서 [완료] 버튼을 클릭해 주십시오.
- 작업 생성이 완료되어 작업 목록 화면으로 전환됩니다.
- 작업 목록에 위에서 생성한 작업이 추가됩니다.
- 생성된 작업은 네이버 클라우드 플랫폼의 리소스로 등록됩니다. 자세한 사항은 Resource Manager 개념을 참조해 주십시오.

참고

작업 목록에서 작업을 선택한 후 [실행] 버튼을 클릭하거나, [상세보기] > [실행] 버튼을 클릭하면 작업을 온디맨드로 실행할 수 있습니다.
작업을 예약 실행하려면 워크플로를 생성하여 트리거와 연결시켜야 합니다. 워크플로 생성에 대한 자세한 정보는 워크플로 생성을 참고해 주십시오.
작업을 생성하면 Object Storage에 버킷이 자동 생성됩니다. 이 버킷에는 해당 작업의 실행 스크립트 파일과 실행 로그 파일이 저장됩니다.

작업 편집기 화면 구성

작업 편집기 화면은 다음과 같이 구성되어 있습니다.
작업 편집기 화면은 [작업 생성] 버튼을 클릭하거나 작업 목록에서 [상세보기] 버튼을 클릭하면 나타납니다.
dataflow-job-vpc_editor_ko

영역	설명
① 기본 정보	작업 이름 입력
② 기능 탭	사용할 기능을 선택 [작업 구성] 탭: 워크플로 편집기 화면 [실행 목록] 탭: 작업 실행 이력 조회
③ 노드 표시 영역	소스 노드, 변환 노드, 타깃 노드 추가. 각 노드는 상자로 표현되며, 상자를 잇는 연결선으로 상위 노드와 하위 노드를 표현.
④ 설정 영역	각 노드의 속성 설정. 필요 시 상세 설정. 노드별 설정 항목에 대한 자세한 설명은 소스 노드 구성, 변환 노드 구성, 타깃 노드 구성 참고.
⑤ 토글 버튼	편집 상태에 따라 [임시 저장] 버튼과 [실행] 버튼 사이에 토글 [임시 저장] 버튼: 편집 중인 작업을 임시 저장 [실행] 버튼: 편집 완료된 작업을 온디맨드로 실행

작업 편집기 [작업 구성] 탭의 노드 표시 영역(③번 영역)에서 작업의 구성 요소(소스/변환/타깃) 노드를 추가한 후, 작업 편집기 [작업 구성] 탭의 설정 영역(④번 영역)에서 작업 구성 요소의 속성과 상세 설정을 입력합니다.
소스 노드, 변환 노드, 타깃 노드를 한 개 이상 추가해야 [완료] 버튼이 활성화됩니다. 추가할 수 있는 소스 노드의 개수는 변환 노드의 작업의 종류에 따라 다릅니다.

소스 노드 구성

소스 노드 구성을 통해 변환할 데이터의 원본 노드를 지정합니다.
작업 편집기에서 [소스] 노드를 추가한 후에 오른쪽 화면에서 속성 정보와 상세 설정을 입력합니다.

참고

선택할 수 있는 소스 노드로는 Object Storage와 Data Catalog, Cloud DB for MySQL이 있습니다. (2024년 01월 기준)
향후 네이버 클라우드 플랫폼의 Cloud DB와 고객사 On-premise 데이터베이스 연동을 지원할 계획입니다.

소스 노드 속성 정보

소스 노드의 종류에 따라 속성 정보 입력 항목이 다릅니다.

소스 노드가 Object Storage일 경우
- 이름: 소스 노드의 이름을 입력합니다.
- 데이터 스토어: Object Storage가 선택되어 있습니다. 변경 시 입력 항목이 변경됩니다.
- 버킷: Object Storage 중 작업할 원본 데이터가 포함된 버킷을 선택합니다.
- Prefix: Object Storage 버킷의 특정 경로를 지정합니다. 지정한 경로 하위의 데이터를 기준으로 데이터가 추출되며, 입력하지 않을 경우 버킷 하위의 모든 경로에 있는 데이터가 추출됩니다.
- 데이터 형식: 원본 데이터의 포맷을 입력합니다. JSON, CSV, Parquet 중에 선택합니다.
소스 노드가 Data Catalog일 경우
- 이름: 소스 노드의 이름을 입력합니다.
- 데이터 스토어: Data Catalog가 선택되어 있습니다.
- 데이터베이스: 데이터베이스를 선택합니다. 데이터베이스는 메타데이터를 정의한 테이블의 집합압니다.
- 테이블 선택: 테이블을 선택합니다. 테이블은 데이터의 스키마를 정의한 메타데이터를 제공합니다.
- 스키마 버전: 스키마 버전을 선택합니다.
타깃 노드가 Cloud DB for MySQL 일 경우
- 이름: 소스 노드의 이름 입력합니다.
- 데이터 스토어: Cloud DB for MySQL이 선택되어 있습니다. 변경 시 입력 항목이 변경됩니다.
- 커넥션: Data Catalog 중 Connection 을 선택 합니다.
- 테이블: DB의 테이블명을 입력합니다.

소스 노드 상세 설정

소스 노드의 종류에 따라 상세 설정 사항이 다릅니다.

소스 노드가 Object Storage일 경우: 소스 데이터로 사용할 스키마 테이블을 구성합니다.
- [추가] 버튼을 눌러 필드를 추가하고, 필드명과 데이터 유형을 지정해 주십시오.
- 데이터 유형에 대한 자세한 설명은 스키마 데이터 유형을 참고해 주십시오.
소스 노드가 Data Catalog일 경우: Data Catalog에서 읽어온 스키마 테이블을 보여줍니다.
- 스키마 테이블 구성 필드를 추가하거나 수정할 수 없습니다. 특정 속성 키를 삭제할 수 있습니다.
소스 노드가 Cloud DB for MySQL일 경우: 소스 데이터로 사용할 스키마 테이블을 구성합니다.
- [추가] 버튼을 눌러 필드를 추가하고, 필드명과 데이터 유형을 지정해 주십시오.
- 데이터 유형에 대한 자세한 설명은 스키마 데이터 유형을 참고해 주십시오.

변환 노드 구성

작업 편집기에서 [변환] 노드를 추가한 후에 오른쪽 화면에서 속성 정보와 상세 설정을 입력하여 데이터 변환 작업을 정의합니다.
변환 작업의 종류에 따라 변환 설정 항목이 달라집니다. 작업 종류별 설정 항목을 설명합니다.

속성 정의

소스 데이터를 사용하여 타깃 데이터의 스키마를 정의합니다.

[속성 정보] 탭: 변환 작업의 속성을 정의합니다.
- 이름: 변환 노드의 이름을 입력합니다.
- 변환: 변환 작업 종류가 선택되어 있습니다. 변경 시 입력 항목이 변경됩니다.
- 상위 노드: 변환 노드와 연결될 소스 노드를 한 개 지정합니다. 데이터 노드 선택 시 소스 노드 중 하나를 선택할 수 있고, 가공 노드 선택 시 변환 노드 중에서 선택할 수 있습니다.
[상세 설정] 탭: 소스 노드와 타깃 노드의 스키마를 매핑합니다.
- 상위 노드 필드에 나타난 소스 노드 속성 키와 하위 노드 필드에 나타난 하위 노드 속성 키를 매핑합니다.
- 하위 노드 필드는 타깃 노드가 추가되어 있어야 설정 가능합니다. 타깃 노드를 추가하지 않았을 경우 선택 값이 나타나지 않습니다.
- 데이터 유형은 변경 가능합니다. 소스 노드의 데이터 타입을 타깃 노드에서 변경할 수 있습니다.
  - 데이터 유형에 대한 자세한 설명은 스키마 데이터 유형을 참고해 주십시오.

속성 선택

소스 데이터의 속성 키 중에서 타깃 데이터에 구성할 속성을 선택합니다. 선택되지 않은 속성 키는 타깃 데이터에서 제외됩니다.

[속성 정보] 탭: 변환 작업의 속성을 정의합니다.
- 이름: 변환 노드의 이름을 입력합니다.
- 변환: 변환 작업 종류가 선택되어 있습니다. 변경 시 입력 항목이 변경됩니다.
- 상위 노드: 변환 노드와 연결될 소스 노드를 한 개 지정합니다. 데이터 노드 선택 시 소스 노드 중 하나를 선택할 수 있고, 가공 노드 선택 시 변환 노드 중에서 선택할 수 있습니다.
[상세 설정] 탭: 상위 노드의 속성 키 중에 하위 노드로 보낼 속성 키를 하나 이상 선택합니다.

열 병합

두 개 데이터 집합의 열을 병합합니다. 상위 노드를 두 개까지만 선택 가능합니다.
열 병합 후에는 데이터의 스키마가 변경됩니다.

[속성 정보] 탭: 변환 작업의 속성을 정의합니다.
- 이름: 변환 노드의 이름을 입력합니다.
- 변환: 변환 작업 종류가 선택되어 있습니다. 변경 시 입력 항목이 변경됩니다.
- 상위 노드: 변환 노드와 연결될 노드를 두 개 지정합니다. 소스 노드가 두 개 생성되어 있어야 합니다.
[상세 설정] 탭: 열 병합 규칙을 설정합니다.
- 유형: 내부 조인, 왼쪽 조인, 오른쪽 조인, 외부 조인 중에서 열 병합 유형을 한 개 선택합니다.
  - 내부 조인: 병합 조건을 충족하는 행에 대해 두 데이터 집합의 열을 병합. 병합 조건을 만족하지 않는 행은 병합 불가. 조건을 추가하지 않을 경우 두 데이터 집합의 모든 행에 대해 열 병합.
  - 왼쪽 조인: 왼쪽 데이터 집합의 행을 기준으로 열 병합. 왼쪽 데이터 집합의 모든 행과 병합 조건을 만족하는 오른쪽 데이터 집합의 행을 포함하여 열 병합.
  - 오른쪽 조인: 오른쪽 데이터 집합의 행을 기준으로 열 병합. 오른쪽 데이터 집합의 모든 행과 병합 조건을 만족하는 왼쪽 데이터 집합의 행을 포함하여 열 병합.
  - 외부 조인: 두 데이터 집합의 모든 행을 포함하여 열 병합
- 조건: 각 데이터 집합에서 상호 비교할 속성 키를 선택. 조건을 설정하지 않을 수 있습니다.
  - [추가] 버튼을 클릭하면 좌측 노드 필드 / 비교 연산자 / 우측 노드 필드 테이블 생성
  - 좌측 노드 필드에서 왼쪽 데이터 집합의 속성 키 선택
  - 우측 노드 필드에서 오른쪽 데이터 집합의 속성 키 입력
  - 좌측 노드 필드의 속성 키와 우측 노드 필드의 속성 키가 같을 경우, 해당 행에 대해 열 병합
- 접두사: 좌측 노드 필드명과 우측 노드 필드명은 중복될 수 없기 때문에 우측 노드 필드명에 자동으로 접두사 추가됨. 이때 붙이는 접두사 이름을 변경.

필터

소스 데이터를 필터링하여 타깃 데이터로 생성합니다. 필터 조건을 만족하지 않는 행은 타깃 데이터에서 제거됩니다.

[속성 정보] 탭: 변환 작업의 속성을 정의합니다.
- 이름: 변환 노드의 이름을 입력합니다.
- 변환: 변환 작업 종류가 선택되어 있습니다. 변경 시 입력 항목이 변경됩니다.
- 상위 노드: 변환 노드와 연결될 소스 노드를 한 개 지정합니다. 데이터 노드 선택 시 소스 노드 중 하나를 선택할 수 있고, 가공 노드 선택 시 변환 노드 중에서 선택할 수 있습니다.
[상세 설정] 탭: 필터 조건을 설정합니다.
- 필터 유형: AND 또는 OR를 선택합니다. 필터가 여러 개일 경우 필터가 결합되는 방식을 결정합니다.
- 조건: 필터링 조건을 설정합니다.
  - [추가] 버튼을 클릭하면 필드/ 조건 / 값 테이블 생성
  - 예시: value == 0.7: value 필드의 값이 숫자형이고 0.7이면 해당 필드는 타깃 데이터에 추가
  - 예시: value > Car: value 필드의 값이 문자형이고 ASCII 코드 값으로 조건의 첫 글자인 'C' 이상이면 해당 필드는 타깃 데이터에 추가

행 병합

스키마가 동일한 두 개의 소스 데이터를 병합합니다. 행 병합 전에 두 소스 데이터의 스키마 구조가 동일한지 확인해야 합니다.
스키마가 같으므로 병합된 데이터의 열은 병합 전과 동일하고 행이 추가됩니다.

[속성 정보] 탭: 변환 작업의 속성을 정의합니다.
- 이름: 변환 노드의 이름을 입력합니다.
- 변환: 변환 작업 종류가 선택되어 있습니다. 변경 시 입력 항목이 변경됩니다.
- 상위 노드: 변환 노드와 연결될 소스 노드를 두 개 지정합니다. 데이터 노드 선택 시 소스 노드 중 하나를 선택할 수 있고, 가공 노드 선택 시 변환 노드 중에서 선택할 수 있습니다.
상세 설정 > 유형 : 행 병합 규칙을 설정합니다.
- 전체 병합: 중복된 행을 제거하지 않고 모든 행을 결합. 중복된 행인지 판단할 때 대소문자를 구분하여 판단합니다.
- 중복 제거후 병합: 중복된 행을 제거한 모든 행을 결합

집계

소스 데이터에서 선택된 필드와 행에서 계산(평균, 합계, 최대, 최소)을 수행하고 새 필드를 추가해서 결괏값을 저장합니다.

[속성 정보] 탭: 변환 작업의 속성을 정의합니다.
- 이름: 변환 노드의 이름을 입력합니다.
- 변환: 변환 작업 종류가 선택되어 있습니다. 변경 시 입력 항목이 변경됩니다.
- 상위 노드: 변환 노드와 연결될 소스 노드를 한 개 지정합니다. 데이터 노드 선택 시 소스 노드 중 하나를 선택할 수 있고, 가공 노드 선택 시 변환 노드 중에서 선택할 수 있습니다.
[상세 설정] 탭: 집계할 데이터 필드를 선택하고 해당 행에 적용할 집계 함수와 결과 필드를 설정합니다.
- 그룹화 기준: 집계 범위를 알려주는 기준 필드를 지정. <예시> value 필드가 AAA인 데이터에 대해서 집계
- 집계 조건: 집계 함수와 결과 필드를 지정
  - [추가] 버튼을 클릭하면 필드 / 조건 / 결과 필드 테이블 생성
  - 필드: 집계를 적용할 소스 데이터의 속성 키 선택
  - 조건: 선택된 범위의 데이터에 적용할 집계 함수 선택. AVG/SUM/MAX/MIN.
  - 결과 필드: 집계 결과를 저장할 신규 필드 이름 지정

속성 이름 변경

데이터에서 특정 속성 키의 이름을 변경합니다.

[속성 정보] 탭: 변환 작업의 속성을 정의합니다.
- 이름: 변환 노드의 이름을 입력합니다.
- 변환: 변환 작업 종류가 선택되어 있습니다. 변경 시 입력 항목이 변경됩니다.
- 상위 노드: 변환 노드와 연결될 소스 노드를 한 개 지정합니다. 데이터 노드 선택 시 소스 노드 중 하나를 선택할 수 있고, 가공 노드 선택 시 변환 노드 중에서 선택할 수 있습니다.
[상세 설정] 탭: 소스 노드 스키마에서 읽어온 현재 키 이름 / 변경 키 이름 테이블에서 속성 이름을 변경하고자 하는 속성 키의 변경 키 이름을 수정합니다.

중복 제거

데이터 소스에서 중복된 데이터 행을 제거합니다. 중복을 판단할 때 대소문자를 구분합니다. 행을 제거하기 때문에 이 변환으로 인해 스키마가 변경되지는 않습니다.

[속성 정보] 탭: 변환 작업의 속성을 정의합니다.
- 이름: 변환 노드의 이름을 입력합니다.
- 변환: 변환 작업 종류가 선택되어 있습니다. 변경 시 입력 항목이 변경됩니다.
- 상위 노드: 변환 노드와 연결될 소스 노드를 한 개 지정합니다. 데이터 노드 선택 시 소스 노드 중 하나를 선택할 수 있고, 가공 노드 선택 시 변환 노드 중에서 선택할 수 있습니다.
상세 설정 > 중복 유형: 중복 제거 옵션을 선택합니다.
- 전체 행이 일치하면 제거: 전체 필드의 값이 일치할 경우에만 행 제거. 중복된 행인지 판단할 때 대소문자를 구분하여 판단합니다.
- 특정 필드가 일치하면 제거: 특정한 필드의 값이 일치할 경우에만 제거, 제거되는 대상은 순서와 관계없이 랜덤하게 제거됩니다.

빈값 채우기

데이터에서 누락된 열의 값을 설정한 값으로 채워넣습니다.

[속성 정보] 탭: 변환 작업의 속성을 정의합니다.
- 이름: 변환 노드의 이름을 입력합니다.
- 변환: 변환 작업 종류가 선택되어 있습니다. 변경 시 입력 항목이 변경됩니다.
- 상위 노드: 변환 노드와 연결될 소스 노드를 한 개 지정합니다. 데이터 노드 선택 시 소스 노드 중 하나를 선택할 수 있고, 가공 노드 선택 시 변환 노드 중에서 선택할 수 있습니다.
상세 설정: 누락 데이터가 존재하는 속성 키를 정의하고 대체할 값을 설정합니다.
- 누락 데이터 대상 키: 누락 데이터가 존재하는 속성 키만 남기고 삭제
- 대체 값: 누락 데이터를 대체할 값 입력

타깃 노드 구성

타깃 노드 구성을 통해 변환할 데이터의 타깃 노드를 지정합니다.
작업 편집기에서 [타깃] 노드를 추가한 후에 오른쪽 화면에서 속성 정보와 상세 설정을 입력합니다.

참고

선택할 수 있는 타깃 노드로는 Object Storage와 Data Catalog, Cloud DB for MySQL이 있습니다. (2024년 01월 기준)
향후 네이버 클라우드 플랫폼의 Cloud DB와 고객사 On-premise 데이터베이스 연동을 지원할 계획입니다.

타깃 노드 속성 정보

타깃 노드의 종류에 따라 속성 정보 입력 항목이 다릅니다.

타깃 노드가 Object Storage일 경우
- 이름: 타깃 노드의 이름 입력합니다.
- 데이터 스토어: Object Storage가 선택되어 있습니다. 변경 시 입력 항목이 변경됩니다.
- 버킷: Object Storage 중 변환 데이터를 저장할 버킷을 선택합니다.
- Prefix: Object Storage 버킷의 특정 경로를 지정합니다. 지정한 경로 하위에 결과 데이터를 저장합니다.
- 데이터 형식: 타깃 데이터의 포맷을 입력합니다. JSON, CSV, Parquet 중에 선택합니다.
- 상위 노드: 변환 노드와 연결될 소스 노드를 한 개 지정합니다. 데이터 노드 선택 시 소스 노드 중 하나를 선택할 수 있고, 가공 노드 선택 시 변환 노드 중에서 선택할 수 있습니다.
타깃 노드가 Data Catalog일 경우
- 이름: 타깃 노드의 이름을 입력합니다.
- 데이터 스토어: Data Catalog가 선택되어 있습니다. 변경 시 입력 항목이 변경됩니다.
- 데이터베이스: 데이터베이스를 선택합니다. 데이터베이스는 메타데이터를 정의한 테이블의 집합입니다.
- 테이블 선택: 변환 노드를 통해 변경된 스키마를 저장할 테이블을 선택합니다.
- 스키마 버전: 스키마 버전을 선택합니다.
- 업데이트 옵션: 전체 테이블 업데이트, 새 열만 추가, 업데이트 안함 중에서 선택합니다.
- 상위 노드: 타깃 노드와 연결될 변환 노드를 한 개 지정합니다. 데이터 노드 선택 시 소스 노드 중 하나를 선택할 수 있고, 가공 노드 선택 시 변환 노드 중에서 선택할 수 있습니다.
타깃 노드가 Cloud DB for MySQL 일 경우
- 이름: 타깃 노드의 이름 입력합니다.
- 데이터 스토어: Cloud DB for MySQL이 선택되어 있습니다. 변경 시 입력 항목이 변경됩니다.
- 커넥션: Data Catalog 중 Connection 을 선택 합니다.
- 테이블: 변환 노드를 통해 변경된 스키마를 저장할 테이블을 입력합니다.
- 상위 노드: 변환 노드와 연결될 소스 노드를 한 개 지정합니다. 데이터 노드 선택 시 소스 노드 중 하나를 선택할 수 있고, 가공 노드 선택 시 변환 노드 중에서 선택할 수 있습니다.

컬럼 미리보기

타깃 노드에 저장될 데이터의 스키마를 미리 볼 수 있습니다.

참고

소스 및 타깃의 지원 타입은 아래와 같습니다. (2024년 4월 기준)
Void, Boolean, Tinyint, Smallint, Int, Bigint, Float, Double, String, Char, Varchar, Date, Datetime, Timestamp, Decimal, Binary, Array, Map, Struct, Uniontype

일부 타입의 경우 MySQL로 전환 시 아래와 같이 고정된 타입으로 변환됩니다.
Varchar -> varchar(250), Char -> char(64), Array, Map, Struct, String -> mediumtext

작업 실행 옵션 설정

작업 생성 후에 작업 실행 옵션을 설정할 수 있습니다. 작업 실행 옵션을 설정하는 방법은 다음과 같습니다.

네이버 클라우드 플랫폼 콘솔의 Region 메뉴와 Platform 메뉴에서 이용 중인 환경을 클릭해 주십시오.
Services > Big Data & Analytics > Data Flow 메뉴를 차례대로 클릭해 주십시오.
Jobs 메뉴를 클릭해 주십시오.
작업 목록에서 특정 작업을 선택한 다음 [실행] 버튼을 클릭해 주십시오.
실행 옵션 팝업 창이 나타나면 실행 옵션을 설정해 주십시오.
- 실행 컨테이너: 분산 작업할 컨테이너를 몇 대 사용할지 설정
- 재시도 횟수: 작업 실패 시 몇 번 재시도 할지 설정
- Timeout: 작업을 한 번 실행할 때 작업 결과를 기다리는 시간 설정
- 스크립트 경로: 작업 명령 스크립트가 저장되는 경로. 작업 생성 시에 자동으로 생성되는 Object Storage 버킷 하위의 경로로 자동 지정.
- 실행 로그: 작업 실행 이력이 저장되는 경로. 작업 생성 시에 자동으로 생성되는 Object Storage 버킷 하위의 경로로 자동 지정.
- 역할명: 작업 실행을 하기 위한 SubAccount 역할.
[실행] 버튼 또는 [실행 없이 옵션 저장] 버튼을 클릭해 주십시오.
- [실행] 버튼을 클릭할 경우 작업 목록에서 해당 작업의 상태가 실행중으로 변경됩니다.

참고

소스 노드 또는 타깃 노드로 Cloud DB를 이용할 경우 DB 서버의 네트워크 환경 및 사용자 설정이 다음의 DataFlow 접속 IP 를 통한 접속을 허용하는지 확인해 주십시오.
10.0.0.0/8, 172.16.0.0/12, 192.168.0.0/16

Server > ACG > ACG 설정 메뉴에서 Inbound 규칙에 추가
VPC > Network ACL > ACL Rule > Rule 설정 메뉴에서 Inbound 규칙에 추가
Cloud DB for MySQL > DB 관리 > DB User 관리 메뉴에서 DB User 추가
- 10.%, 172.%, 192.168.%

작업 실행 목록 조회

작업 실행 이력을 조회하는 방법은 다음과 같습니다.

네이버 클라우드 플랫폼 콘솔의 Region 메뉴와 Platform 메뉴에서 이용 중인 환경을 클릭해 주십시오.
Services > Big Data & Analytics > Data Flow 메뉴를 차례대로 클릭해 주십시오.
Jobs 메뉴를 클릭해 주십시오.
작업 목록에서 특정 작업에 대한 [상세보기] 버튼을 클릭해 주십시오.
작업 편집기 화면이 나타나면 [실행 목록] 탭을 클릭해 주십시오.
- 최근 한 달간의 작업 실행 목록을 확인할 수 있습니다. 작업 실행 이력은 90일간 보관됩니다.
- 실행 목록에서 조회할 수 있는 항목은 다음과 같습니다.
  - 작업 이름(ID): Job 생성 시 사용자가 입력한 Job 고유의 이름 (Job ID)
  - 실행 상태: Job 실행 결과. 성공, 실패, 실행중, 대기 중 하나의 값이 조회됨.
  - 실행 로그: [상세보기] 버튼을 클릭하면 작업 실행 이력 파일 위치로 이동
  - 컨테이너: 작업 실행 옵션에서 설정한 컨테이너 대수
  - 트리거: 이 작업에 연결된 트리거(스케줄) 파일이 있을 경우 조회됨
  - 실행 시작 일시: Job 실행 시작 일시. 트리거에 의해 예약 실행되거나 온디맨드 실행된 일시.
  - 실행 종료 일시: Job 실행 종료 일시. 트리거에 의해 예약 실행되거나 온디맨드 실행되어 종료된 일시.
  - 실행 준비 시간: Job 실행이 되기까지의 준비 시간
  - 실행 시간: Job 실행에 소요된 시간
  - 재시도 횟수: Job 실행 재시도 횟수

참고

워크플로로 구성하지 않고 작업을 온디맨드로 단독 실행한 경우에는 Job 화면의 실행 목록에서만 실행 이력이 조회됩니다.
워크플로로 구성된 작업은 Workflow 화면의 실행 목록에서도 조회되고, Job 화면의 실행 목록에서도 조회됩니다.

작업 삭제

작업을 삭제하는 방법은 다음과 같습니다.

네이버 클라우드 플랫폼 콘솔의 Region 메뉴와 Platform 메뉴에서 이용 중인 환경을 클릭해 주십시오.
Services > Big Data & Analytics > Data Flow 메뉴를 차례대로 클릭해 주십시오.
Jobs 메뉴를 클릭해 주십시오.
작업 목록에서 특정 작업을 선택한 다음 [삭제] 버튼을 클릭해 주십시오.
- 작업 목록에서 해당 작업이 삭제됩니다.
- 삭제된 작업을 포함하는 워크플로는 트리거에 의해 예약되어 있더라도 실행되지 않습니다.

이 문서가 도움이 되었습니까?

What's Next

Trigger

Job 화면
작업 정보 확인
작업 생성
작업 실행 옵션 설정
작업 실행 목록 조회
작업 삭제

태그