GPU Addon 설치

Prerequisite

  • GPU 노드에서 디바이스 확인

$ lspci -nnk | grep -i nvidia

00:05.0 3D controller [0302]: NVIDIA Corporation Device [10de:20b7] (rev a1)
    Subsystem: NVIDIA Corporation Device [10de:1532]
    Kernel modules: nvidiafb
  • NVIDIA 드라이버 설치

    • NVIDIA 드라이버는 사전에 설치되어 있어야 합니다.

    • 지원하는 NVIDIA 드라이버는 아래 링크 참조하세요.

    • https://catalog.ngc.nvidia.com/orgs/nvidia/containers/driver/tags

  • 폐쇄망 설치일 경우 GPU Addon 이미지 및 차트 업로드합니다.

    • 관련 파일 및 업로드 방법은 escho@acornsoft.io 로 문의 바랍니다.

GPU Addon Installation

  • 설치 가능한 애드온 명칭 및 profile 조회

    • --kubeconfig 미입력 시 기본값 : ${CUBE_HOME}/config/{{CLUSTER}}/acloud-client-kubeconfig

    • --profile 미입력 시 기본 적용 파일 : ${CUBE_HOME}/extends/addon/profile/gpu-operator/default.yaml

  • ${CUBE_HOME}/extends/addon/profile/gpu-operator/default.yaml 설치하려는 OSEXT의 yaml 수정

    • default.yaml은 ubuntu와 동일합니다.

    • redhat.yaml을 적용하려면 profile 인자값에 해당 파일명을 입력합니다.

      • ex) bin/cubectl addon enable gpu-operator --profile redhat

    • 폐쇄망 설치 시 repository 값 앞부분에 "{{ registry_domain }}/" 을 추가합니다.

    • repository: repository: nvcr.io/nvidia -> repository: {{ registry_domain }}/repository: nvcr.io/nvidia

    • repository: nvcr.io/nvidia/cloud-native -> repository: {{ registry_domain }}/nvcr.io/nvidia/cloud-native

    • repository: nvcr.io/nvidia/k8s -> repository: {{ registry_domain }}/nvcr.io/nvidia/k8s

  • Addon 설치

  • Addon 설치 확인

  • Addon 삭제

MIG(multi instance GPU) 설정 방법

MIG를 지원하는 GPU인 경우

  • GPU별 지원되는 프로필 확인

    • NVIDIA Supported MIG Profiles 공식 가이드 에서 GPU별 지원되는 프로필을 확인합니다.

    • MIG 프로필은 configmap/default-mig-parted-config 에서도 확인 가능합니다.

    • kubectl describe cm default-mig-parted-config -n gpu-operator

  • GPU노드에 label에 프로필명 적용

  • 적용 확인 예

Time-Slicing 설정 방법

MIG를 지원하지 않는 장비에서 하나의 GPU 분할 사용

  • ConfigMap 생성

    • Time slicing을 어떻게 나눌지 정의하는 configmap 작성합니다.

  • NVIDIA ClusterPolicy 객체에 생성된 configmap 지정

  • 적용 확인

    • 적용 후 gpu-feature-discovery, nvidia-device-plugin-daemonset pod가 자동으로 재시작되고 그 후에 gpu-node의 describe로 정상적으로 적용되었는지 확인가능합니다.

Last updated