> For the complete documentation index, see [llms.txt](https://cocktailcloud.gitbook.io/cocktail-cloud-online/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://cocktailcloud.gitbook.io/cocktail-cloud-online/platform/monitoring.md). # 통합 모니터링 ## 1. 어떤 유형의 자원을 모니터링 할 수 있나요? 칵테일 클라우드는 멀티 클러스터 환경에서 발생하는 자원과 상태에 대한 200여 개의 매트릭 값을 활용하여 100여 개의 모니터링 패널을 제공합니다. 각각의 패널은 클러스터, 인그레스, ETCD, 노드, 네임스페이스 뷰 배치하여 제공합니다. 또한, 알람/이벤트 페이지를 추가로 제공하며, 발생한 알람/이벤트에 대하여 시간순으로 확인하고 사용자 플랫폼 현황의 가시화를 극대화합니다. ## 2. 모니터링 정보는 어디에서 확인 할 수 있나요? 칵테일 클라우드 모니터링 정보는 좌측 \[모니터링] 메뉴에서 확인할 수 있습니다. 하위 메뉴로는 클러스터, 인그레스, ETCD, 노드, GPU, 네임스페이스, 알림/이벤트 기능을 제공합니다.

## 3. 클러스터 상태는 어떻게 확인하기 클러스터 단위로 최신의 상태 정보를 제공합니다. 클러스터 뷰에서 대표적으로 제공되는 상태 정보는 아래와 같습니다. > * API 서버 초당 호출한 횟수 > * CPU 사용량 > * 디스크 사용량 > * 디스크 I/O 속도 > * 메모리 사용량 > * 리스타트 된 Pod 추적 > * 최근 10분간의 평균 요청 시간 > * pod 상태 별 실행 수 > * Top 5 CPU 집중 사용 Pod > * Top 5 메모리 집중 사용 Pod

## 4. 인그레스 상태 확인하기 인그레스는 클러스터 외부에서 클러스터 내부 서비스로 HTTP와 HTTPS 경로를 노출합니다. 인그레스는 외부에서 서비스로 접속이 가능한 URL, 로드 밸런스 트래픽, SSL / TLS 종료 그리고 이름 기반의 가상 호스팅을 제공하도록 구성할 수 있습니다. 인그레스는 서비스에서 네트워크 영역에 중요한 역할을 담당하고 있어 다각도의 모니터링이 필수입니다. 통합 대시보드의 인그레스 뷰에서 제공되는 상태 정보는 아래와 같습니다. > * 인그레스 컨트롤러 요청 > * 인그레스 컨트롤러 연결 > * 인그레스 컨트롤러 요청 성공률 > * 최근 인그레스 설정 리로드 성공 및 실패 > * 인그레스 컨트롤러 요청 추이 > * 인그레스 컨트롤러 성공율 추이 > * 네트워크 I/O 추이 > * 평균 메모리 사용량 추이 > * 평균 CPU 사용량 추이

## 5. ETCD 상태 확인하기 통합 대시보드의 ETCD 뷰에서 제공하는 상태 정보는 아래와 같습니다. > * ETCD 리더 존재 여부 > * 최근 리더 변경 횟수 > * 최근 리더 변경 제안 실패 횟수 > * RPC 비율 > * DB 사용량 > * 노드 디스크 처리 속도 > * 전체 디스크 처리 속도 > * 클라이언트 트래픽 In/Out > * ETCD 서버 별 처리 상태 > * 네트워크 사용량 > * 스냅샷 처리 속도

## 6. 노드 상태 확인하기 통합 대시보드의 노드 뷰에서 제공하는 상태 정보는 아래와 같습니다. > * 클러스터 CPU 사용 빈도 > * 클러스터 메모리 사용량 > * 클러스터 디스크 사용량 > * 클러스터 네트워크 사용량 > * 최근 파일 시스템의 유휴 공간 비율 변화와 현재 값 > * 파일 시스템 별 사용량 목록

## 7. GPU 상태 확인하기 통합 대시보드의 GPU 뷰에서 제공하는 상태 정보는 아래와 같습니다. * GPU 평균 사용률 * GPU 사용량 추이 * GPU 메모리 평균 사용률 * GPU 메모리 사용량 추이 * GPU 온도 및 파워 * GPUs/MIGs * Timeslicing

## 8. 네임스페이스 상태 확인하기 통합 대시보드의 네임스페이스 뷰에서 제공하는 상태 정보는 아래와 같습니다. > * 컨테이너 수 > * 네임스페이스 생성 시 > * 네임스페이스 총 Pod 수 > * 네임스페이스 PVC 상태 > * 네임스페이스 사용 CPU 할당량 > * 네임스페이스 사용 메모리 할당량 > * 네임스페이스 안에 실행 중인 Pod 수

## 9. 알림/이벤트 이력 확인하기 통합 대시보드에서 모니터링하는 매트릭 정보는 사용자 설정에 따라 대시보드, SMS, E-Mail 채널을 통해 전달되며 클러스터, 네임스페이스, 주요 자원 그룹으로 필터링하여 조회할 수 있는 기능을 제공합니다. 대시보드에서는 발생한 이벤트를 한 시간 단위로 조회하여 확인 할 수 있으며, 매 분 단위로 누적된 이벤트를 상세한 이벤트 설명을 포함하여 제공하므로, 이벤트 내용만으로 원인을 신속히 확인할 수 있습니다. 각 이벤트는 중요도에 따라 5단계로 구분하여 표시되며, 사용자 설정에 따라 SMS 또는 E-Mail(혹은 양쪽 모두)을 통해 실시간으로 알림을 전송합니다. 최근 발생한 이벤트와 알림은 필터 기능을 이용하여 조회할 수 있으며, 사용자 설정에 따라 최대 1년까지 보관 가능합니다.

--- # Agent Instructions This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com. ## Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter: ``` GET https://cocktailcloud.gitbook.io/cocktail-cloud-online/platform/monitoring.md?ask=&goal= ``` `ask` is the immediate question: it should be specific, self-contained, and written in natural language. `goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.