- 인쇄
- PDF
각 Box별 데이터 분석
- 인쇄
- PDF
VPC 환경에서 이용 가능합니다.
1. Box 접속
분석가는 대상 데이터의 분석을 위하여 전달 받은 Box 정보를 통해 Box에 접속하여야 합니다. Box 접속 방법 및 Box 내부의 분석 환경 접속 방법에 대해 안내합니다.
분석가는 Box 접속 이전 SSL-VPN 연결이 필요합니다. SSL-VPN에 관한 내용은 SSL-VPN 설정에서 확인할 수 있습니다.
Connect Server 접속
박스에 설치된 Cloud Hadoop 및 Tensor Flow를 이용하기 위해서는 Connect Server에 접속이 필요합니다. 이를 위하여 Connect Server 접속 방법에 대해 안내합니다.
- Connect 서버는 Windows 서버이므로 Connect 서버에 접속하기 위해서 PC의 원격 데스크톱 연결을 실행하고 Connect 서버의 IP를 입력한 후 [연결] 버튼을 클릭하고 사용자 이름과 암호를 입력해 주십시오.
- Connect Server의 비밀번호를 잊어버리거나 5회 이상 잘못 입력한 경우 관리자가 SSL VPN 사용자 설정 페이지에서 비밀번호를 재설정 할 수 있습니다.
데이터 저장소 확인
모든 Connect Server에는 동일한 드라이브에 NAS가 마운트 되며, 드라이브 위치는 아래의 규칙을 따릅니다.
- 파일 반입/반출 신청용 NAS: 마운트 되는 순서대로 F, E, B, A 드라이브에 마운트 됩니다.
- 제공 데이터 NAS: 마운트 되는 순서대로 Z~G 드라이브에 read-only 권한으로 마운트 됩니다.
Connect Server NAS 사용 시 주의사항
현재 Connect Server에서 NAS는 제한적으로 사용이 가능합니다. 아래 항목들을 충분히 검토한 후 사용해 주십시오.
문자 인코딩 방식 불일치
Databox Frame에서 제공하는 NAS는 Linux 서버에 대해서 사용 가능한 NFS 프로토콜을 사용합니다. Linux와 Windows 상호 운영체제 간 사용하는 인코딩 방식이 다르기 때문에 아래 이슈가 발생할 수 있습니다.
- 파일 이름을 한글로 생성했을 때, 각 운영체제에서 파일명이 부정확하게 나타납니다.
- Windows에서 NAS에 파일을 생성할 때, 파일명을 한글로 생성한 경우 Windows, Linux에서 파일 이름이 알 수 없는 형식으로 나타납니다.
- Linux에서 NAS에 파일을 생성할 때, 파일명을 한글로 생성한 경우 Windows에서 파일 이름이 알 수 없는 형식으로 나타납니다.
- 파일 반입 시 파일명이 한글인 경우, Windows에서는 파일 이름이 알 수 없는 형식으로 나타납니다.
- 파일 반출 시 파일명은 Linux에서 나타나는 파일명 기준입니다. Windows에서 생성한 파일명이 한글인 파일은 Linux에서 알 수 없는 형식으로 나타나기 때문에 반출이 불가능합니다.
- Window와 Linux의 개행 문자 차이로 인해 파일 내용이 각기 다르게 보일 수 있습니다.
파일 및 폴더에 대해서 사용 가능한 액션
Connect Server에서 NAS의 파일 및 폴더에 대해서 사용 가능한 액션은 다음과 같습니다.
파일
GUI (file explorer) | 명령 프롬프트 | |
---|---|---|
생성 | O (이름 지정 불가) | O |
읽기 | O | O |
복사 | O | O |
이동 | O | O |
삭제 | O | O |
이름 변경 | X | O |
파일 내용 변경 | O | - |
폴더
GUI (file explorer) | 명령 프롬프트 | |
---|---|---|
생성 | O (이름 지정 불가) | O |
복사 | O | O |
이동 | O | X |
삭제 | O | O |
이름 변경 | X | X |
Cloud Hadoop 접속 및 이용
Connect 서버에 설치된 Putty 프로그램 또는 Chrome 브라우저로 하둡 클러스터에 접속할 수 있습니다.
Cloud Hadoop은 사용자에게 관리도구(Ambari) 및 서버 직접 접속 권한을 제공하여 사용자가 직접 클러스터를 관리할 수 있도록 도와주는 서비스입니다. 이 가이드에서는 하둡 클러스터에 접속하는 방법만 안내하며, Cloud Hadoop를 사용하는 방법에 대한 자세한 설명은 Cloud Hadoop 사용 가이드를 참조해 주십시오.
Pem 키 변환
PuTTY를 이용하여 하둡 클러스터 노드에 접속하기 위해 제공된 pem 파일을 ppk 파일로 변환해야 합니다.
pem 파일을 ppk 파일로 변환하는 방법은 다음과 같습니다.
- Connect 서버에서 화면 하단의 Search Windows에 puttygen을 입력한 후 PuTTY Key Generator를 실행해 주십시오.
- 'Type of key to generate'에 'RSA'가 선택된 것을 확인한 후 [Load] 버튼을 클릭해 주십시오.
- 'All Files(.)'를 선택하고 'C:\Users\Public\Desktop'에 제공된 pem 파일을 선택해 주십시오.
- [Save private key] 버튼을 클릭해 주십시오.
- PuTTY에서 사용할 수 있는 형식으로 키가 저장됩니다.
Connect 서버에서 pem 파일이 보이지 않을 경우, File Explorer의 View 메뉴의 Hidden items를 선택하여 숨겨진 파일을 볼 수 있도록 설정해 주십시오.
클러스터 노드에 SSH로 접속
ppk 파일을 이용하여 SSH로 하둡 엣지 노드에 접속하는 방법은 다음과 같습니다.
- Connect 서버에서 PuTTY를 실행한 후 접속 정보를 입력해 주십시오.
- Host Name : sshuser@하둡엣지노드IP
- Port : 22
- Connection type : SSH
하둡 엣지 노드IP는 네이버 클라우드 플랫폼 콘솔의 인프라 정보에서 확인할 수 있습니다.
Connection > SSH > Auth를 차례대로 클릭한 후 [Browser] 버튼을 클릭해서 ppk 파일을 선택해 주십시오.
- ppk 파일을 생성하는 방법은 pem 키 변환을 참고해 주십시오.
하둡 클러스터 엣지 노드에 접속하려면 [Open] 버튼을 클릭해 주십시오.
전체 노드를 확인하려면 하둡 클러스터에 접속한 후 아래 명령어를 입력해 주십시오.
$ cat /etc/hosts
- 엣지 노드: e-001로 시작
- 마스터 노드: m-001, m-002로 시작
- 작업자 노드: d-001부터 생성한 작업자 노드 수 만큼
마스터 노드 또는 작업자 노드로 접속하려면 엣지 노드에 접속한 후 아래와 같은 명령어를 입력해 주십시오. 마스터 노드와 작업자 노드 이름은 m-00# 또는 d-00#(여기서 #은 순번임)까지 입력한 후 tab키를 입력하면 자동으로 완성이 됩니다. 접속 확인에 yes를 입력하면 엣지 노드에서 다른 노드로 접속이 됩니다.
또 다른 노드로 접속을 하려면 exit으로 다시 엣지 노드로 돌아온 후 다른 노드로 접속해 주십시오.
42. m-001-xxx은 위에서 조회한 노드 이름$ ssh sshuser@m-001-xxx $ ... $ exit
데이터 저장소 확인
Box 내부에서 파일 반출입 시 사용하기 위해 신청한 NAS가 마운트 되어 있음을 확인할 수 있고, 데이터 공급 신청을 완료한 후에는 신청한 데이터의 NAS가 Read-only로 마운트 되어 있음을 확인할 수 있습니다.
- 파일 반입/반출 신청용 NAS: /mnt/nasw*
- 파일 반입/반출 신청용 NAS는 엣지 노드의 /mnt 디렉터리 하위에 마운트 되어 있습니다. 하둡 엣지 노드에 SSH로 접속한 후 다음과 같이 확인할 수 있습니다.
$ df -h
- 제공 데이터 NAS: /mnt/nasr/pub*
- Data Box Frame에서 제공되는 데이터는 데이터 공급 이후에 /mnt 디렉터리 하위에 Read-only로 마운트됩니다. 하둡 엣지 노드에 SSH로 접속한 후 다음과 같이 확인할 수 있습니다.
$ df -h
터널링을 이용한 웹 UI 접속
Ambari, Hue, Zeppelin Notebook 등은 IP와 포트를 이용해서 웹 UI에 접속할 수 있지만, HDFS NameNode와 같은 일부 서비스는 터널링을 통해서만 웹 UI에 접속할 수 있습니다. Ambari, Hue, Zeppelin Notebook 이외의 서비스에 접속하려면 터널링 후 터널링 설정이 완료된 웹 브라우저로 접속해야 합니다.
터널링을 이용하여 웹 UI에 접속하는 방법은 다음과 같습니다.
- Connect 서버에서 PuTTY를 실행한 후 접속 정보를 입력해 주십시오.
- Host Name: sshuser@하둡엣지노드IP
- Port : 22
- Connection type: SSH
- Putty 화면 좌측의 Category에서 Connection > SSH > Auth를 차례대로 클릭해 주십시오.
- [Browser] 버튼을 클릭한 후 ppk 파일을 선택해 주십시오.
- ppk 파일을 생성하는 방법은 pem 키 변환을 참조해 주십시오.
- 화면 좌측의 Category에서 Connection > SSH > Tunnels를 차례대로 클릭해 주십시오.
- Source port에 9876을 입력하고 Dynamic을 선택한 후 [Add] 버튼을 클릭해 주십시오.
- 화면 좌측의 Category에서 Session을 선택하고 Saved Sessions에 식별할 수 있는 이름을 입력한 후 [Save] 버튼을 클릭해 주십시오.
- 설정한 정보가 저장되며 저장된 정보를 통해 이후 접속할 수 있습니다.
- [Open] 버튼을 클릭하여 하둡 클러스터에 접속해 주십시오.
- Connect 서버의 바탕화면에 있는 Chrome-Tunnel 아이콘을 더블 클릭해 주십시오.
- Chrome-Tunnel은 Chrome 바로가기 Properties의 Target 마지막에 --proxy-server="socks5://127.0.0.1:9876"를 아래와 같이 추가한 것입니다.
"C:\Program Files\Google\Chrome\Application\chrome.exe" --proxy-server="socks5://127.0.0.1:9876"
- Chrome-Tunnel은 Chrome 바로가기 Properties의 Target 마지막에 --proxy-server="socks5://127.0.0.1:9876"를 아래와 같이 추가한 것입니다.
- 주소를 입력하여 Ambari에 접속해 주십시오.
- https://하둡엣지노드IP:8443
- ID : ncp
- PW : Box 생성 시 입력한 비밀번호
- 반드시 https로 접속해 주십시오. 최초 접속 시 접속하는 데 시간이 다소 소요될 수 있습니다.
- 최초 접속시 경고 메시지가 뜰 경우 Advanced와 Proceed to ... 를 선택해 주십시오.
- Ambari에 접속한 이후 서비스의 Quick Links를 통해서 HDFS NameNode 등 다른 서비스 웹UI로 접속할 수 있습니다.
Tensor Flow 접속 및 이용
Connect 서버에서 Putty 또는 웹 브라우저인 Chrome으로 TensorFlow CPU 및 TensorFlow GPU 서버에 접속할 수 있습니다.
Jupyter Notebook 접속
Connect 서버에서 Chrome 브라우저를 통해 Jupyter Notebook에 접속하는 방법은 다음과 같습니다.
- Connect 서버의 바탕화면에 있는 Chrome 아이콘을 더블 클릭해 주십시오.
- 주소를 입력하여 Jupyter Notebook에 접속해 주십시오.
- http://서버IP:18888
- pw : 데이터박스 생성 시 입력한 pw
- 반드시 http로 접속해 주십시오. 최초 접속 시 접속하는 데 시간이 다소 소요될 수 있습니다.
서버에 SSH 접속
Ncloud TensorFlow Server에 접속하는 방법은 다음과 같습니다.
- Connect 서버에서 PuTTY를 실행한 후 접속 정보를 입력해 주십시오.
- Host Name : root@서버IP
- Port : 22
- Connection type : SSH
- [Open] 버튼을 클릭해 주십시오.
Ncloud TensorFlow Server 도커 재시작
TensorFlow 도커를 재시작해야 하는 경우, 다음과 같이 명령어를 입력하여 재시작한 후 Jupyter notebook을 다시 시작해 주십시오.
- TensorFlow CPU 재시작
docker restart tf-server-mkl
- TensorFlow GPU 재시작
docker restart tf-server-gpu
Jupyter Notebook 재시작
Jupyter notebook을 재시작해야 하는 경우, 다음과 같이 명령어를 입력해 주십시오.
jup restart 또는
jup stop 실행 후 jup start
2. 공용 데이터 분석
Data Box Frame 관리자가 제공하는 공용 NAS에 존재하는 데이터를 곧바로 분석하거나 HDFS에 적재하여 사용할 수 있습니다. 공용 데이터는 아래 디렉터리에 위치해 있습니다.
- /mnt/nasr/pub*
- 공용 데이터가 존재하지 않는 경우 Data Box Frame 관리자에게 공용 데이터 열람 상태 변경 확인을 요청하십시오.
3. 분석 결과 저장
Box 내부 데이터를 통해 나타난 결과물은 개별 저장소를 통해 외부로 반출할 수 있습니다. 개별 저장소는 아래 디렉터리에 위치해 있습니다.
- /mnt/nasw*