CLOVA NSML Run 생성 및 관리
    • PDF

    CLOVA NSML Run 생성 및 관리

    • PDF

    Article Summary

    VPC 환경에서 이용 가능합니다.

    주의

    CLOVA NSML은 현재 Closed Beta로 일부 파트너사에게만 제공되어 있으며, 일반 사용자 대상 오픈 시기는 미정입니다.

    1. Run(실험) 생성

    CLOVA NSML의 세션으로 Run 하위에는 Node를 가질 수 있으며, Multi-node training할 때 하나의 Run에 여러 Node가 파생될 수 있습니다.

    Run은 Project에서 비슷한 목적을 가진 Node들을 관리할 수 있는 그룹으로 이곳에서 노드의 개수 및 서버 타입등을 설정할 수 있습니다.
    또한, CLOVA NSML의 명령어를 통해 GPU 인프라에 접속하지 않아도 콘솔 명령어를 통해 학습하고 결과를 스토리지에 저장 후 학습에 사용된 자원을 반납하는 기능을 제공합니다.

    • Project명: 생성된 Project 이름입니다.
    • 서버 타입: 머신러닝 학습에 사용할 GPU 인프라와 머신러닝 코드 작성용 CPU(Notebook용) 인프라를 선택할 수 있습니다.
    • 노드 개수(VM): 서버 타입과 동일한 스펙의 인프라를 다수 개를 만들 수 있습니다.
      : CPU(Notebook용) 인프라 선택 시 노드 개수 및 노드 유지 설정 기능은 설정할 수 없습니다.
    • (현재 제공하고 있지 않은 기능입니다.) 노드 유지 설정: 신청한 노드의 학습이 완료되면 자동으로 자원을 반납하는 기능입니다.
      • ON: 학습이 완료되어도 노드(자원)가 반납되지 않고 지속 유지됩니다.
      • OFF: 학습이 완료되면 노드(자원)가 자동 반납됩니다. (학습 시에만 유지)
    • Container Image: CLOVA NSML에서 사용할 수 있는 이미지를 선택합니다.
      • 기본 제공 이미지: CLOVA NSML에서 제공하는 기본 이미지입니다. (Notebook 서버 이용시만 선택할 수 있습니다.)
      • 사용자 생성 이미지: 사용자가 직접 생성한 이미지를 불러와서 생성할 수 있습니다.
    • 스토리지: 기존 Notebook 서버에서 사용했던 block storage를 연결해서 GPU노드에 이용할 수 있습니다. 다른 Notebook 생성 시에도 이용할 수 있습니다.
    • 추가설정: 사용자가이드의 고급가이드 > 사용자 정의 명령과 환경 변수 사용하기 메뉴에서 확인할 수 있으며 필수 항목은 아닙니다.

    ai-clova-nsml-basic-2-2_create_ko

    2. Run(실험) 생성 확인

    Run이 정상적으로 생성되게 되면 Run메뉴에서 생성된 Run의 상세 정보를 확인할 수 있습니다.

    • 노드 정보
      1. Rank: 노드의 번호로 멀티 노드를 사용할 때 n 번째 노드의 호스트 이름
      2. Node ID: CLOVA NSML에서 임의로 부여하는 Node ID입니다.
      3. 상태: 노드의 상태입니다.
      4. Exit Code: 노드 유지설정을 OFF 했을 때 나오는 명령어 창에서 Exit Code를 설정하면 정상종료시 해당 메시지가 노출됩니다.
      5. Host: 노드에 접속할 수 있는 IP입니다.
      6. SSH Port: 노드에 접속할 수 있는 SSH Port입니다.
      7. TCP Ports: 노드에 접속할 수 있는 예비포트로 JupyterNotebook 등의 외부 도구 이용 시 사용할 수 있습니다.

    ai-clova-nsml-basic-2-2_detail_ko

    2.1. Run(실험) 복제

    생성한 Run(실험)은 복제할 수 있습니다. 실험을 복제하면 기존 실험에서 명령 항목과 환경 변수 항목을 제외한 나머지 설정을 동일하게 적용하여 실험을 생성합니다. 실험 복제는 사용자 정의 명령과 환경 변수를 사용하여 하이퍼파라미터 탐색과 같은 작업을 수행할 때 유용합니다.

    복제할 Run(실험)을 선택하고 [복제] 버튼을 클릭합니다. 표시된 Run 복제 입력 상자에서 환경 변수 항목과 명령 항목을 필요에 따라 수정한 후 [확인] 버튼을 누르십시오.

    Run(실험)을 복제할 때 환경 변수에는 다음과 같은 제약 사항이 있습니다.

    • 환경 변수 이름을 변경할 수 없습니다.
    • 새로운 환경 변수를 추가할 수 있지만, 기존 실험에는 추가된 환경 변수를 빈 값으로 처리합니다.
    • 명령메뉴는 필수항목으로 Run을 복제하면서 환경 변수가 다른 Run 노드를 생성하여 학습할 수 있습니다.

    ai-clova-nsml-basic-2-2_duplicate_ko

    1.2. Run(실험) 정지

    생성한 Run(실험)은 언제든지 중지할 수 있습니다. 실험을 중지하면 실험을 위해 생성되었던 모든 Node(노드)를 중지합니다.


    이 문서가 도움이 되었습니까?

    Changing your password will log you out immediately. Use the new password to log back in.
    First name must have atleast 2 characters. Numbers and special characters are not allowed.
    Last name must have atleast 1 characters. Numbers and special characters are not allowed.
    Enter a valid email
    Enter a valid password
    Your profile has been successfully updated.