데이터박스 접속 설정

VPC 환경에서 이용 가능합니다.

데이터박스 생성이 완료되면 사용자의 메일 계정으로 안내 메일이 발송됩니다. 안내 메일을 확인한 후, 네이버 클라우드 플랫폼의 콘솔에 접속하여 SSL VPN 사용자 설정을 완료합니다. 그 다음, 데이터박스의 접속 정보를 사용하여 인프라 서비스에 접속하여 샘플 데이터를 확인한 후, 분석에 필요한 모듈을 설치합니다. 데이터 공급 신청 후에는 외부망과의 통신이 차단되므로, 데이터 공급 신청 전에 필요한 모듈을 설치하거나 필요한 데이터를 다운받아야 합니다. 외부망과의 통신이 차단된 이후에는 Object Storage의 Bucket에 올린 파일만 제한적으로 반입할 수 있습니다.

1. SSL VPN 사용자 설정

데이터박스를 사용하려면 SSL VPN 사용자 설정을 완료해야 합니다. SSL VPN 사용자를 설정하는 방법은 다음과 같습니다.

네이버 클라우드 플랫폼 콘솔의 VPC 환경에서 > Services > Big Data & Analytics > Cloud Data Box > My Space 메뉴를 차례대로 클릭해 주십시오.
설정할 박스 탭에서 [SSL VPN 사용자 설정] 버튼을 클릭해 주십시오.
등록 가능한 사용자 수를 확인한 후, 인증에 사용할 Username, Password, Email, SMS 항목을 입력하고 [추가] 버튼을 클릭해 주십시오.
사용자 설정이 완료되면 [닫기] 버튼을 클릭해 주십시오.

참고

SSL VPN 사용자 계정 수 변경, 삭제, 비밀번호 변경 방법에 대한 설명은 데이터박스 관리를 참조해 주십시오.

2. 인프라 서비스의 접속 정보 확인

데이터박스 인프라 서비스의 접속 정보를 확인하는 단계입니다. 인프라 서비스의 접속 정보를 확인하는 방법은 다음과 같습니다.

네이버 클라우드 플랫폼 콘솔의 VPC 환경에서 > Services > Big Data & Analytics > Cloud Data Box > My Space 메뉴를 차례대로 클릭해 주십시오.
생성된 데이터박스를 확인하고 [서버 상세정보 보기] 를 클릭해 주십시오.
인프라 탭에서 상품별 IP와 ID를 확인해 주십시오.
- Cloud Hadoop과 TensorFlow의 를 클릭하면 상세 정보를 확인할 수 있습니다.

3. SSL VPN 및 Connect 서버 접속

데이터박스 인프라 서비스에 접속하려면 먼저 SSL VPN에 접속한 후 Connect 서버에 접속해야 합니다.

주의

다른 VPN 연결이 활성화되어 있는 상태에서 SSL VPN Agent를 실행할 경우 충돌할 가능성이 있으므로 다른 VPN은 완전히 종료한 후 SSL VPN Agent를 실행해 주십시오.

SSL VPN을 연결하고 Connect 서버에 접속하는 방법은 다음과 같습니다.

SSL VPN Agent를 설치해 주십시오.
- SSL VPN Agent를 설치하는 방법은 SSL VPN 사용자 가이드(VPC)의 SSL VPN Agent 설치하기를 참조해 주십시오.
BIG-IP Edge Client를 실행해 주십시오.
- BIG-IP Edge Client에 접속하는 방법은 SSL VPN 사용자 가이드(VPC)의 SSL VPN Agent 접속을 참조해 주십시오.
- 서버 주소 : https://sslvpn-kr-vpc-01.ncloud.com
1. SSL VPN 사용자 설정 단계에서 등록한 Username, Password를 입력하고 [로그온] 버튼을 클릭해 주십시오.
휴대전화 또는 이메일로 전송된 OTP 번호를 입력하고 [로그온] 버튼을 클릭해 주십시오.
Connect 서버는 Windows 서버이므로 Connect 서버에 접속하기 위해서 PC의 원격 데스크톱 연결을 실행하고 Connect 서버의 IP를 입력한 후 [연결] 버튼을 클릭하고 사용자 이름과 암호를 입력해 주십시오.
- Connect 서버나 Ncloud TensorFlow Server 또는 하둡 클러스터의 비밀번호를 잊어버렸거나 비밀번호 초기화 안내 메일을 받았을 경우에는 Cloud Data Box > My Space > 상세 화면의 [비밀번호 초기화] 버튼을 클릭하여 비밀번호를 변경해 주십시오.

참고

데이터 공급 신청 이후에는 외부망과의 통신이 모두 차단되어 pip install 등의 명령어로 모듈을 설치할 수 없고, 직접 설치 파일을 다운받은 후 '파일 반입' 신청을 통해 데이터박스로 설치 파일을 가져와야 모듈을 설치할 수 있습니다. 따라서 '데이터 공급' 신청을 수행하기 전에 샘플 데이터를 이용하여 분석 코드를 작성하면서 필요한 모듈을 모두 설치할 것을 권장합니다.

4. Cloud Hadoop 서버 접속 및 이용

Connect 서버에 설치된 Putty 프로그램 또는 Chrome 브라우저로 하둡 클러스터에 접속할 수 있습니다.

참고

Cloud Hadoop은 사용자에게 관리도구(Ambari) 및 서버 직접 접속 권한을 제공하여 사용자가 직접 클러스터를 관리할 수 있도록 도와주는 서비스입니다. 이 가이드에서는 하둡 클러스터에 접속하는 방법만 안내하며, Cloud Hadoop를 사용하는 방법에 대한 자세한 설명은 Cloud Hadoop 사용 가이드를 참조해 주십시오.

클러스터 노드에 SSH로 접속

ppk 파일을 이용하여 SSH로 하둡 엣지 노드에 접속하는 방법은 다음과 같습니다.

Connect 서버에서 PuTTY를 실행한 후 접속 정보를 입력해 주십시오.
- Host Name : sshuser@하둡엣지노드IP
- Port : 22
- Connection type : SSH
참고

하둡 엣지 노드IP는 네이버 클라우드 플랫폼 콘솔의 인프라 정보에서 확인할 수 있습니다.
Connection > SSH > Auth를 차례대로 클릭한 후 [Browser] 버튼을 클릭해서 ppk 파일을 선택해 주십시오.
하둡 클러스터 엣지 노드에 접속하려면 [Open] 버튼을 클릭해 주십시오.
전체 노드를 확인하려면 하둡 클러스터에 접속한 후 아래 명령어를 입력해 주십시오.
```
$ cat /etc/hosts 
```
- 엣지 노드: e-001로 시작
- 마스터 노드: m-001, m-002로 시작
- 작업자 노드: d-001부터 생성한 작업자 노드 수 만큼
마스터 노드 또는 작업자 노드로 접속하려면 엣지 노드에 접속한 후 아래와 같은 명령어를 입력해 주십시오. 마스터 노드와 작업자 노드 이름은 m-00# 또는 d-00#(여기서 #은 순번임)까지 입력한 후 tab키를 입력하면 자동으로 완성이 됩니다. 접속 확인에 yes를 입력하면 엣지 노드에서 다른 노드로 접속이 됩니다.
또 다른 노드로 접속을 하려면 exit으로 다시 엣지 노드로 돌아온 후 다른 노드로 접속해 주십시오.
- m-001-xxx은 위에서 조회한 노드 이름
```
$ ssh sshuser@m-001-xxx 
$ ...
$ exit
```

하둡 데이터 저장소 확인

데이터박스 신청을 완료한 후에는 파일 반ㆍ출입 시 사용하기 위해 신청한 NAS가 마운트되어 있음을 확인할 수 있고, 데이터 공급 신청을 완료한 후에는 신청한 데이터의 NAS가 Read-only로 마운트되어 있음을 확인할 수 있습니다.

파일 반입/반출 신청용 nas : /mnt/nasw# (#은 번호)
데이터박스 생성 시 신청한 NAS는 엣지 노드의 /mnt 디렉터리 하위에 마운트되어 있습니다. 하둡 엣지 노드에 SSH로 접속한 후 다음과 같이 확인 가능합니다.
```
$ df -h
```
참고

신청한 NAS는 하둡 클러스터와 Ncloud TensorFlow Server에 함께 마운트가 되어 있어서 데이터를 서로 공유할 수 있습니다. 고객의 버킷에 파일을 올린 후 파일 반입 신청을 하면 이 NAS에 저장이 되고, 이 NAS에 파일을 올리고 파일 반출 신청을 하면 심사 후 고객의 오브젝트 스토리지 버킷으로 저장이 됩니다.
샘플 데이터 : /user/ncp/sample
샘플 데이터는 데이터박스 생성 이후에 아래의 HDFS에 업로드됩니다.
```
$ hdfs dfs -ls /user/ncp/sample
```
제공 데이터 nas : /mnt/xx (xx는 데이터의 마운트 디렉터리)
제공되는 네이버 검색, 쇼핑, AI 데이터는 데이터 공급 이후에 /mnt 디렉터리 하위에 Read-only로 마운트됩니다. 하둡 엣지 노드에 SSH로 접속한 후 다음과 같이 확인 가능합니다.
```
$ df -h
```
참고
- 신청한 데이터는 필요한 데이터를 하둡에 직접 업로드하여 사용해 주십시오. 자세한 방법은 제공된 데이터를 하둡 클러스터에 업로드를 참조해 주십시오.
- 새로운 데이터를 업로드하기 전에 하둡 저장 공간이 충분한지 확인하고, 하둡 저장 공간이 부족한 경우, 불필요한 데이터를 삭제해 주십시오.

5. Ncloud TensorFlow Server 접속 및 이용

Connect 서버에서 Putty 또는 웹 브라우저인 Chrome으로 TensorFlow CPU 및 TensorFlow GPU 서버에 접속할 수 있습니다.

Jupyter Notebook 접속

Connect 서버에서 Chrome 브라우저를 통해 Jupyter Notebook에 접속하는 방법은 다음과 같습니다.

Connect 서버의 바탕화면에 있는 Chrome 아이콘을 더블 클릭해 주십시오.
주소를 입력하여 Jupyter Notebook에 접속해 주십시오.
- http://서버IP:18888
- pw : 데이터박스 생성 시 입력한 pw
- 반드시 http로 접속해 주십시오. 최초 접속 시 접속하는 데 시간이 다소 소요될 수 있습니다.

참고

Ncloud TensorFlow Server IP는 데이터박스의 [상세] 버튼을 클릭하면 나타나는 [인프라] 탭에서 확인할 수 있습니다.

Ncloud TensorFlow Server 데이터 저장소 확인

Chrome 브라우저로 Jupyter Notebook에 로그인하면 Home 화면에서 제공된 데이터 저장소를 확인할 수 있습니다.
databox-connect-11

항목	설명
① 추가 블록 스토리지	/home/ncp/workspace/blocks TesnsorFlow 서버에는 기본으로 블록 스토리지 2TB가 추가 제공됨. 제공된 NAS 데이터 중 자주 사용되는 데이터는 성능을 위해 블록 스토리지에 저장해서 사용할 것을 권장함
② 파일 반입/반출 신청용	nas: /home/ncp/workspace/nasw# (#은 번호) 파일 반입 및 반출 신청 시 데이터가 전달되는 NAS 데이터박스 생성 시 신청한 NAS는 하둡 클러스터에도 함께 마운트가 되어 있어서 데이터 바로 공유 가능
③ 샘플 데이터	/home/ncp/workspace/sample 데이터박스 생성 시 샘플 데이터가 제공되는 위치. 샘플 데이터를 활용해서 필요한 모듈을 설치하고 분석 환경 구성 가능
④ 제공 데이터(read-only)	/home/ncp/workspace/xx (xx는 데이터의 마운트 디렉터리) 제공되는 네이버 검색, 쇼핑, AI 데이터는 데이터 공급 신청 이후에 Jupyter home 디렉터리에 마운트되어 제공됨. 신청 데이터의 NAS는 읽기만 가능

참고

'/home/ncp/workspace'는 Jupyter notebook의 home directory입니다.

서버에 SSH로 접속

Ncloud TensorFlow Server에 접속하는 방법은 다음과 같습니다.

Connect 서버에서 PuTTY를 실행한 후 접속 정보를 입력해 주십시오.
- Host Name : root@서버IP
- Port : 22
- Connection type : SSH
[Open] 버튼을 클릭해 주십시오.

참고

Ncloud TensorFlow Server IP는 데이터박스의 [상세] 버튼을 클릭하면 나타나는 [인프라] 탭에서 확인할 수 있습니다.

Ncloud TensorFlow Server 도커 재시작

TensorFlow 도커를 재시작해야 하는 경우, 다음과 같이 명령어를 입력하여 재시작한후 Jupyter notebook을 다시 시작해 주십시오.

TensorFlow CPU 재시작
```
docker restart tf-server-mkl  
```
TensorFlow GPU 재시작
```
docker restart tf-server-gpu
```

Jupyter notebook 재시작

Jupyter notebook을 재시작해야 하는 경우, 다음과 같이 명령어를 입력해 주십시오.

jup restart  또는
jup stop 실행 후 jup start