Monitoring

Prev Next

VPC 환경에서 이용 가능합니다.

Monitoring 화면 구성에 대해 설명합니다. Monitoring에서는 프로젝트에서 사용중인 GPU 및 스토리지 사용량에 대해 두 가지 종류의 대시보드를 지원합니다. Monitoring에서 제공하고 있는 대시보드 종류는 다음과 같습니다.

  • Overview: 프로젝트에서 사용중인 전체 GPU 및 스토리지 사용량 관련 모니터링 정보
  • Workload/Pod View: 워크로드 타입, 워크로드 및 Pod 단위의 GPU 사용량 관련 모니터링 정보

두 종류의 대시보드를 통해 최근 30일 이내의 리소스 사용량을 평균값 기준으로 확인할 수 있습니다. 각 대시보드는 다양한 그래프 차트로 구성되어 있으며, 실시간 사용량 조회를 통해 업무에 효과적으로 활용할 수 있습니다.

Overview

Overview 화면의 기본적인 설명은 다음과 같습니다.

mlxp_console_monitoring01_ko

영역 설명
① Overview 프로젝트의 CPU, Memory, GPU, Storage 사용 현황
② Details 워크로드 타입별 CPU, Memory, GPU 사용 현황

Overview에서 제공하는 대시보드는 여러 개의 그래픽 차트로 구성되어 있습니다. 사용자는 현재 프로젝트에서 사용중인 CPU, Memory, GPU, Storage 현황을 직관적으로 확인할 수 있습니다. 대시보드에서 보여주는 정보는 15초마다 수집하여 표시하되 평균값을 보여 줍니다.
Overview를 구성하고 있는 그래프 차트에 대한 설명은 다음과 같습니다.

그래프 차트 단위 설명
CPU Cores 프로젝트에서 사용중인 CPU 현황
  • Used: 실제 사용중인 CPU 총합
  • Request: 리소스 Manifest 기준 CPU request 총합
Memory Gi 프로젝트에서 사용중인 Memory 현황
  • Used: 실제 사용중인 Memory 총합
  • Request: 리소스 Manifest 기준 Memory request 총합
GPU 개수 프로젝트에서 사용중인 GPU 현황
  • Used: 실제 사용중인 GPU 총합
  • Total: 현재 프로젝트에 배정된 GPU 총합
Storage Gi 프로젝트에서 사용중인 Storage 현황
  • PVC 용량 총합
주의
  • GPU Total 지표는 프로젝트에 GPU 리소스의 총합을 의미합니다.
  • 프로젝트에서 사용 가능한 GPU 리소스 정보는 GPU Resources 화면을 참고하시기 바랍니다.

Overview에서는 워크로드 타입별 CPU, Memory, GPU 이용 현황을 조회할 수 있습니다. 사용자는 현재 프로젝트에서 사용중인 Notebook, PyTorchJob 등 타입별 리소스 사용 현황을 직관적으로 확인할 수 있습니다.
Overview를 구성하고 있는 워크로드 타입별 세부 정보에 대한 설명은 다음과 같습니다.

세부 정보 단위 설명
Workload Type - 프로젝트에서 사용중인 워크로드 타입(예시: Notebook, PyTorchJob 등)
CPU Cores 사용중인 CPU 현황
  • Request: 리소스 Manifest 기준 CPU request 총합
  • Limits: 리소스 Manifest 기준 CPU limit 총합
Memory Gi 사용중인 Memory 현황
  • Request: 리소스 Manifest 기준 Memory request 총합
  • Limits: 리소스 Manifest 기준 Memory limit 총합
GPU 개수 사용중인 GPU 현황
  • Used: 실제 사용중인 GPU 총합
참고

Overview 화면은 1분마다 자동 새로고침됩니다.

Workload/Pod View

Workload/Pod View 화면의 기본적인 설명은 다음과 같습니다.

mlxp_console_monitoring02_ko

영역 설명
① 조회 단위 프로젝트에서 사용중인 Workload Type, Workload 이름, Pod 이름
② 조회 기간 모니터링 정보 조회 기간 및 새로고침
③ Workload/Pod View 조회 단위 및 기간별 CPU, Memory, GPU, GPU Memory 사용 현황
④ Details Pod 단위 CPU, Memory, GPU 사용 현황

Workload/Pod View에서 제공하는 대시보드는 여러 개의 그래픽 차트로 구성되어 있습니다. 사용자는 현재 프로젝트에서 사용중인 CPU, Memory, GPU, Storage 현황을 워크로드 타입, 워크로드, Pod 등 상세 단위로 조회할 수 있습니다. 대시보드에서 보여주는 정보는 15초마다 수집하여 표시하되 평균값을 보여 줍니다. 대시보드를 사용하는 방법은 다음과 같습니다.

  1. 대시보드에서 조회할 리소스 단위를 선택해 주십시오.
    • Workload Type: 프로젝트에서 사용중인 워크로드 타입(예시: Notebook, PyTorchJob 등)으로, 단건 조회만 가능
    • Workload: 프로젝트에서 사용중인 워크로드 목록으로, 다건 조회 가능
      • All: 프로젝트에서 사용중인 전체 워크로드 조회 가능
    • Pod: 워크로드 내 Pod 목록으로, 다건 조회 가능
      • OFF: Workload를 ALL이나 여러 개 선택시 Pod 단위 조회 불가능
      • ALL: 1개의 워크로드 선택시 워크로드 내 전체 Pod 조회 가능
  2. 기간이나 조회 시간 선택박스에서 조회할 기간을 클릭하여 선택하거나 직접 입력해 주십시오.
참고

조회기간은 최대 30일을 넘을 수 없습니다.

  1. 대시보드에서 결과를 확인해 주십시오.
    • 그래프 차트에서 특정 시점의 정확한 지표값을 확인하고 싶은 경우: 그래프 차트 특정 시점에 마우스 오버
  2. [새로고침] 버튼 클릭시 최신 데이터를 다시 조회합니다.

Workload/Pod View를 구성하고 있는 그래프 차트에 대한 설명은 다음과 같습니다.

그래프 차트 단위 설명
Average CPU Utilization % 조회 조건 및 조회 기간의 평균 CPU 사용률(Used/Request)
  • Used: 실제 사용중인 CPU 총합
  • Request: 리소스 Manifest 기준 CPU request 총합
CPU Usage Cores 사용자가 선택한 리소스 단위(워크로드, Pod)별 CPU 사용량
Average Memory Utilization % 조회 조건 및 조회 기간의 평균 Memory 사용률(Used/Request)
  • Used: 실제 사용중인 Memory 총합
  • Request: 리소스 Manifest 기준 Memory request 총합
Memory Usage MiB 사용자가 선택한 리소스 단위(워크로드, Pod)별 Memory 사용 현황
Average GPU Utilization % 조회 조건 및 조회 기간의 평균 GPU 사용률
GPU Usage Cores 사용자가 선택한 리소스 단위(워크로드, Pod)별 GPU 사용량
Average GPU Memory Utilization % 조회 조건 및 조회 기간의 평균 GPU Memory 사용률
GPU Memory Usage MiB 사용자가 선택한 리소스 단위(워크로드, Pod)별 GPU Memory 사용 현황

Workload/Pod View에서는 Pod 단위 CPU, Memory, GPU 세부 이용 현황을 조회할 수 있습니다. 사용자는 현재 프로젝트에서 사용중인 Pod의 리소스 사용 현황을 직관적으로 확인할 수 있습니다.
Workload/Pod View를 구성하고 있는 Pod 단위 세부 정보에 대한 설명은 다음과 같습니다.

세부 정보 단위 설명
Pod Name - 사용자가 지정한 워크로드 내 Pod 이름
CPU Cores 사용중인 CPU 현황
  • Request: 리소스 Manifest 기준 CPU request 총합
  • Limits: 리소스 Manifest 기준 CPU limit 총합
Memory Gi 사용중인 Memory 현황
  • Request: 리소스 Manifest 기준 Memory request 총합
  • Limits: 리소스 Manifest 기준 Memory limit 총합
GPU 개수 사용중인 GPU 현황
  • Used: 실제 사용중인 GPU 총합