각 Box별 데이터 분석
    • PDF

    각 Box별 데이터 분석

    • PDF

    Article Summary

    VPC 환경에서 이용 가능합니다.

    1. Box 접속

    분석가는 대상 데이터의 분석을 위하여 전달 받은 Box 정보를 통해 Box에 접속하여야 합니다. Box 접속 방법 및 Box 내부의 분석 환경 접속 방법에 대해 안내합니다.

    참고

    분석가는 Box 접속 이전 SSL-VPN 연결이 필요합니다. SSL-VPN에 관한 내용은 SSL-VPN 설정에서 확인할 수 있습니다.

    Connect Server 접속

    박스에 설치된 Cloud Hadoop 및 Tensor Flow를 이용하기 위해서는 Connect Server에 접속이 필요합니다. 이를 위하여 Connect Server 접속 방법에 대해 안내합니다.

    1. Connect 서버는 Windows 서버이므로 Connect 서버에 접속하기 위해서 PC의 원격 데스크톱 연결을 실행하고 Connect 서버의 IP를 입력한 후 [연결] 버튼을 클릭하고 사용자 이름과 암호를 입력해 주십시오.
    2. Connect Server의 비밀번호를 잊어버리거나 5회 이상 잘못 입력한 경우 관리자가 SSL VPN 사용자 설정 페이지에서 비밀번호를 재설정 할 수 있습니다.

    데이터 저장소 확인

    모든 Connect Server에는 동일한 드라이브에 NAS가 마운트 되며, 드라이브 위치는 아래의 규칙을 따릅니다.

    • 파일 반입/반출 신청용 NAS: 마운트 되는 순서대로 F, E, B, A 드라이브에 마운트 됩니다.
    • 제공 데이터 NAS: 마운트 되는 순서대로 Z~G 드라이브에 read-only 권한으로 마운트 됩니다.

    Connect Server NAS 사용 시 주의사항

    주의

    현재 Connect Server에서 NAS는 제한적으로 사용이 가능합니다. 아래 항목들을 충분히 검토한 후 사용해 주십시오.

    문자 인코딩 방식 불일치

    Databox Frame에서 제공하는 NAS는 Linux 서버에 대해서 사용 가능한 NFS 프로토콜을 사용합니다. Linux와 Windows 상호 운영체제 간 사용하는 인코딩 방식이 다르기 때문에 아래 이슈가 발생할 수 있습니다.

    • 파일 이름을 한글로 생성했을 때, 각 운영체제에서 파일명이 부정확하게 나타납니다.
      • Windows에서 NAS에 파일을 생성할 때, 파일명을 한글로 생성한 경우 Windows, Linux에서 파일 이름이 알 수 없는 형식으로 나타납니다.
      • Linux에서 NAS에 파일을 생성할 때, 파일명을 한글로 생성한 경우 Windows에서 파일 이름이 알 수 없는 형식으로 나타납니다.
    • 파일 반입 시 파일명이 한글인 경우, Windows에서는 파일 이름이 알 수 없는 형식으로 나타납니다.
    • 파일 반출 시 파일명은 Linux에서 나타나는 파일명 기준입니다. Windows에서 생성한 파일명이 한글인 파일은 Linux에서 알 수 없는 형식으로 나타나기 때문에 반출이 불가능합니다.
    • Window와 Linux의 개행 문자 차이로 인해 파일 내용이 각기 다르게 보일 수 있습니다.

    파일 및 폴더에 대해서 사용 가능한 액션

    Connect Server에서 NAS의 파일 및 폴더에 대해서 사용 가능한 액션은 다음과 같습니다.

    파일

    GUI (file explorer)명령 프롬프트
    생성O (이름 지정 불가)O
    읽기OO
    복사OO
    이동OO
    삭제OO
    이름 변경XO
    파일 내용 변경O-

    폴더

    GUI (file explorer)명령 프롬프트
    생성O (이름 지정 불가)O
    복사OO
    이동OX
    삭제OO
    이름 변경XX

    Cloud Hadoop 접속 및 이용

    Connect 서버에 설치된 Putty 프로그램 또는 Chrome 브라우저로 하둡 클러스터에 접속할 수 있습니다.

    참고

    Cloud Hadoop은 사용자에게 관리도구(Ambari) 및 서버 직접 접속 권한을 제공하여 사용자가 직접 클러스터를 관리할 수 있도록 도와주는 서비스입니다. 이 가이드에서는 하둡 클러스터에 접속하는 방법만 안내하며, Cloud Hadoop를 사용하는 방법에 대한 자세한 설명은 Cloud Hadoop 사용 가이드를 참조해 주십시오.

    Pem 키 변환

    PuTTY를 이용하여 하둡 클러스터 노드에 접속하기 위해 제공된 pem 파일을 ppk 파일로 변환해야 합니다.
    pem 파일을 ppk 파일로 변환하는 방법은 다음과 같습니다.

    1. Connect 서버에서 화면 하단의 Search Windows에 puttygen을 입력한 후 PuTTY Key Generator를 실행해 주십시오.
    2. 'Type of key to generate'에 'RSA'가 선택된 것을 확인한 후 [Load] 버튼을 클릭해 주십시오.
    3. 'All Files(.)'를 선택하고 'C:\Users\Public\Desktop'에 제공된 pem 파일을 선택해 주십시오.
    4. [Save private key] 버튼을 클릭해 주십시오.
    5. PuTTY에서 사용할 수 있는 형식으로 키가 저장됩니다.
    참고

    Connect 서버에서 pem 파일이 보이지 않을 경우, File Explorer의 View 메뉴의 Hidden items를 선택하여 숨겨진 파일을 볼 수 있도록 설정해 주십시오.

    클러스터 노드에 SSH로 접속

    ppk 파일을 이용하여 SSH로 하둡 엣지 노드에 접속하는 방법은 다음과 같습니다.

    • Connect 서버에서 PuTTY를 실행한 후 접속 정보를 입력해 주십시오.
      • Host Name : sshuser@하둡엣지노드IP
      • Port : 22
      • Connection type : SSH
    참고

    하둡 엣지 노드IP는 네이버 클라우드 플랫폼 콘솔의 인프라 정보에서 확인할 수 있습니다.

    • Connection > SSH > Auth를 차례대로 클릭한 후 [Browser] 버튼을 클릭해서 ppk 파일을 선택해 주십시오.

      • ppk 파일을 생성하는 방법은 pem 키 변환을 참고해 주십시오.
    • 하둡 클러스터 엣지 노드에 접속하려면 [Open] 버튼을 클릭해 주십시오.

    • 전체 노드를 확인하려면 하둡 클러스터에 접속한 후 아래 명령어를 입력해 주십시오.

      $ cat /etc/hosts 
      
      • 엣지 노드: e-001로 시작
      • 마스터 노드: m-001, m-002로 시작
      • 작업자 노드: d-001부터 생성한 작업자 노드 수 만큼
    • 마스터 노드 또는 작업자 노드로 접속하려면 엣지 노드에 접속한 후 아래와 같은 명령어를 입력해 주십시오. 마스터 노드와 작업자 노드 이름은 m-00# 또는 d-00#(여기서 #은 순번임)까지 입력한 후 tab키를 입력하면 자동으로 완성이 됩니다. 접속 확인에 yes를 입력하면 엣지 노드에서 다른 노드로 접속이 됩니다.
      또 다른 노드로 접속을 하려면 exit으로 다시 엣지 노드로 돌아온 후 다른 노드로 접속해 주십시오.
      42. m-001-xxx은 위에서 조회한 노드 이름

      $ ssh sshuser@m-001-xxx 
      $ ...
      $ exit
      

    데이터 저장소 확인

    Box 내부에서 파일 반출입 시 사용하기 위해 신청한 NAS가 마운트 되어 있음을 확인할 수 있고, 데이터 공급 신청을 완료한 후에는 신청한 데이터의 NAS가 Read-only로 마운트 되어 있음을 확인할 수 있습니다.

    • 파일 반입/반출 신청용 NAS: /mnt/nasw*
      • 파일 반입/반출 신청용 NAS는 엣지 노드의 /mnt 디렉터리 하위에 마운트 되어 있습니다. 하둡 엣지 노드에 SSH로 접속한 후 다음과 같이 확인할 수 있습니다.
      $ df -h
      
    • 제공 데이터 NAS: /mnt/nasr/pub*
      • Data Box Frame에서 제공되는 데이터는 데이터 공급 이후에 /mnt 디렉터리 하위에 Read-only로 마운트됩니다. 하둡 엣지 노드에 SSH로 접속한 후 다음과 같이 확인할 수 있습니다.
      $ df -h
      

    터널링을 이용한 웹 UI 접속

    Ambari, Hue, Zeppelin Notebook 등은 IP와 포트를 이용해서 웹 UI에 접속할 수 있지만, HDFS NameNode와 같은 일부 서비스는 터널링을 통해서만 웹 UI에 접속할 수 있습니다. Ambari, Hue, Zeppelin Notebook 이외의 서비스에 접속하려면 터널링 후 터널링 설정이 완료된 웹 브라우저로 접속해야 합니다.

    터널링을 이용하여 웹 UI에 접속하는 방법은 다음과 같습니다.

    1. Connect 서버에서 PuTTY를 실행한 후 접속 정보를 입력해 주십시오.
      • Host Name: sshuser@하둡엣지노드IP
      • Port : 22
      • Connection type: SSH
    2. Putty 화면 좌측의 Category에서 Connection > SSH > Auth를 차례대로 클릭해 주십시오.
    3. [Browser] 버튼을 클릭한 후 ppk 파일을 선택해 주십시오.
      • ppk 파일을 생성하는 방법은 pem 키 변환을 참조해 주십시오.
    4. 화면 좌측의 Category에서 Connection > SSH > Tunnels를 차례대로 클릭해 주십시오.
    5. Source port에 9876을 입력하고 Dynamic을 선택한 후 [Add] 버튼을 클릭해 주십시오.
    6. 화면 좌측의 Category에서 Session을 선택하고 Saved Sessions에 식별할 수 있는 이름을 입력한 후 [Save] 버튼을 클릭해 주십시오.
      • 설정한 정보가 저장되며 저장된 정보를 통해 이후 접속할 수 있습니다.
    7. [Open] 버튼을 클릭하여 하둡 클러스터에 접속해 주십시오.
    8. Connect 서버의 바탕화면에 있는 Chrome-Tunnel 아이콘을 더블 클릭해 주십시오.
      • Chrome-Tunnel은 Chrome 바로가기 Properties의 Target 마지막에 --proxy-server="socks5://127.0.0.1:9876"를 아래와 같이 추가한 것입니다.
        "C:\Program Files\Google\Chrome\Application\chrome.exe" --proxy-server="socks5://127.0.0.1:9876"
    9. 주소를 입력하여 Ambari에 접속해 주십시오.
      • https://하둡엣지노드IP:8443
      • ID : ncp
      • PW : Box 생성 시 입력한 비밀번호
      • 반드시 https로 접속해 주십시오. 최초 접속 시 접속하는 데 시간이 다소 소요될 수 있습니다.
    10. 최초 접속시 경고 메시지가 뜰 경우 Advanced와 Proceed to ... 를 선택해 주십시오.
    11. Ambari에 접속한 이후 서비스의 Quick Links를 통해서 HDFS NameNode 등 다른 서비스 웹UI로 접속할 수 있습니다.

    Tensor Flow 접속 및 이용

    Connect 서버에서 Putty 또는 웹 브라우저인 Chrome으로 TensorFlow CPU 및 TensorFlow GPU 서버에 접속할 수 있습니다.

    Jupyter Notebook 접속

    Connect 서버에서 Chrome 브라우저를 통해 Jupyter Notebook에 접속하는 방법은 다음과 같습니다.

    1. Connect 서버의 바탕화면에 있는 Chrome 아이콘을 더블 클릭해 주십시오.
    2. 주소를 입력하여 Jupyter Notebook에 접속해 주십시오.
      • http://서버IP:18888
      • pw : 데이터박스 생성 시 입력한 pw
      • 반드시 http로 접속해 주십시오. 최초 접속 시 접속하는 데 시간이 다소 소요될 수 있습니다.

    서버에 SSH 접속

    Ncloud TensorFlow Server에 접속하는 방법은 다음과 같습니다.

    1. Connect 서버에서 PuTTY를 실행한 후 접속 정보를 입력해 주십시오.
      • Host Name : root@서버IP
      • Port : 22
      • Connection type : SSH
    2. [Open] 버튼을 클릭해 주십시오.

    Ncloud TensorFlow Server 도커 재시작

    TensorFlow 도커를 재시작해야 하는 경우, 다음과 같이 명령어를 입력하여 재시작한 후 Jupyter notebook을 다시 시작해 주십시오.

    • TensorFlow CPU 재시작
      docker restart tf-server-mkl  
      
    • TensorFlow GPU 재시작
      docker restart tf-server-gpu
      

    Jupyter Notebook 재시작

    Jupyter notebook을 재시작해야 하는 경우, 다음과 같이 명령어를 입력해 주십시오.

    jup restart  또는
    jup stop 실행 후 jup start
    

    2. 공용 데이터 분석

    Data Box Frame 관리자가 제공하는 공용 NAS에 존재하는 데이터를 곧바로 분석하거나 HDFS에 적재하여 사용할 수 있습니다. 공용 데이터는 아래 디렉터리에 위치해 있습니다.

    • /mnt/nasr/pub*
    참고
    • 공용 데이터가 존재하지 않는 경우 Data Box Frame 관리자에게 공용 데이터 열람 상태 변경 확인을 요청하십시오.

    3. 분석 결과 저장

    Box 내부 데이터를 통해 나타난 결과물은 개별 저장소를 통해 외부로 반출할 수 있습니다. 개별 저장소는 아래 디렉터리에 위치해 있습니다.

    • /mnt/nasw*

    이 문서가 도움이 되었습니까?

    Changing your password will log you out immediately. Use the new password to log back in.
    First name must have atleast 2 characters. Numbers and special characters are not allowed.
    Last name must have atleast 1 characters. Numbers and special characters are not allowed.
    Enter a valid email
    Enter a valid password
    Your profile has been successfully updated.