GPU Addon 설치
Prerequisite
GPU 노드에서 디바이스 확인
$ lspci -nnk | grep -i nvidia
00:05.0 3D controller [0302]: NVIDIA Corporation Device [10de:20b7] (rev a1)
Subsystem: NVIDIA Corporation Device [10de:1532]
Kernel modules: nvidiafbNVIDIA 드라이버 설치
NVIDIA 드라이버는 사전에 설치되어 있어야 합니다.
지원하는 NVIDIA 드라이버는 아래 링크 참조하세요.
https://catalog.ngc.nvidia.com/orgs/nvidia/containers/driver/tags
폐쇄망 설치일 경우 GPU Addon 이미지 및 차트 업로드합니다.
관련 파일 및 업로드 방법은 escho@acornsoft.io 로 문의 바랍니다.
GPU Addon Installation
설치 가능한 애드온 명칭 및 profile 조회
--kubeconfig 미입력 시 기본값 : ${CUBE_HOME}/config/{{CLUSTER}}/acloud-client-kubeconfig
--profile 미입력 시 기본 적용 파일 : ${CUBE_HOME}/extends/addon/profile/gpu-operator/default.yaml
${CUBE_HOME}/extends/addon/profile/gpu-operator/default.yaml설치하려는 OSEXT의 yaml 수정default.yaml은 ubuntu와 동일합니다.
redhat.yaml을 적용하려면 profile 인자값에 해당 파일명을 입력합니다.
ex) bin/cubectl addon enable gpu-operator --profile redhat
폐쇄망 설치 시 repository 값 앞부분에 "{{ registry_domain }}/" 을 추가합니다.
repository: repository: nvcr.io/nvidia->repository: {{ registry_domain }}/repository: nvcr.io/nvidiarepository: nvcr.io/nvidia/cloud-native->repository: {{ registry_domain }}/nvcr.io/nvidia/cloud-nativerepository: nvcr.io/nvidia/k8s->repository: {{ registry_domain }}/nvcr.io/nvidia/k8s
Addon 설치
Addon 설치 확인
Addon 삭제
MIG(multi instance GPU) 설정 방법
MIG를 지원하는 GPU인 경우
GPU별 지원되는 프로필 확인
NVIDIA Supported MIG Profiles 공식 가이드 에서 GPU별 지원되는 프로필을 확인합니다.
MIG 프로필은
configmap/default-mig-parted-config에서도 확인 가능합니다.kubectl describe cm default-mig-parted-config -n gpu-operator
GPU노드에 label에 프로필명 적용
적용 확인 예
자세한 내용은 NVIDIA MIG 공식 가이드 참조하세요.
Time-Slicing 설정 방법
MIG를 지원하지 않는 장비에서 하나의 GPU 분할 사용
ConfigMap 생성
Time slicing을 어떻게 나눌지 정의하는 configmap 작성합니다.
NVIDIA ClusterPolicy 객체에 생성된 configmap 지정
적용 확인
적용 후 gpu-feature-discovery, nvidia-device-plugin-daemonset pod가 자동으로 재시작되고 그 후에 gpu-node의 describe로 정상적으로 적용되었는지 확인가능합니다.
자세한 내용은 NVIDIA Time-Slicing 공식 가이드 참조하세요.
Last updated