① 모니터링 시스템의 본질은 고장을 발견하고, 고장을 해결하고, 고장을 예방하여 업무의 안정을 보장하는 것이다.
② 모니터링 시스템은 일반적으로 데이터 수집, 데이터 감지, 경보 관리, 오류 관리, 뷰 관리 및 모니터링 관리의 6 가지 모듈로 구성됩니다. 데이터 수집, 데이터 감지, 경고 처리는 모니터링의 최소 폐쇄 루프이지만 모니터링 시스템을 제대로 수행하려면 장애 관리 폐쇄 루프, 뷰 관리, 모니터링 관리 등의 모듈도 필수적입니다.
첫째, 데이터 수집
1, 수집 모드
데이터 수집 방법은 일반적으로 프록시 모드와 프록시되지 않은 모드로 구분됩니다.
에이전트 모드에는 플러그인 수집, 스크립트 수집, 로그 수집, 프로세스 수집, APM 프로브 등이 포함됩니다.
프록시되지 않은 모드에는 범용 프로토콜 획득, 웹 전화 접속 테스트, API 인터페이스 등이 포함됩니다.
2. 데이터 유형
모니터링 데이터에는 척도, 로그 및 추적 데이터의 세 가지 유형이 있습니다.
척도 데이터는 주로 차원으로 식별되는 숫자 기반 모니터링 항목입니다.
로그 데이터는 문자 데이터이며, 주로 몇 가지 키워드 정보를 찾아 모니터링합니다.
추적 데이터 피드백은 링크의 데이터 스트림을 추적하여 프로세스 중 시간이 많이 걸리는 성능이 정상인지 확인하는 프로세스입니다.
3. 수집 빈도
수집 빈도에는 분, 분, 임의 등 세 가지 유형이 있습니다. 일반적인 수집 빈도는 분입니다.
4. 획득 및 전송
수집 및 전송은 전송별로 시작 또는 전송 링크로 분류할 수 있습니다.
전송 개시에 따라 사전 인출 및 수동 수신 푸시가 있습니다.
전송 링크에 따라 직접 모드 및 프록시 전송이 있습니다.
그 중에서도 에이전트 전송은 모니터링 데이터의 크로스 네트워크 전송 문제를 해결할 수 있을 뿐만 아니라 모니터링 노드 수가 너무 많아 발생하는 데이터 전송 병목 현상을 완화하고 에이전트를 사용하여 데이터 전환을 가능하게 합니다.
5. 데이터 저장소
모니터링 시스템의 경우 세 가지 주요 스토리지 중에서 선택할 수 있습니다.
① 관계형 데이터베이스
MySQL, MSSQL, DB2; 등 : 전형적인 모니터링 시스템 대표: 자비스, SCOM, 티볼리; 을 눌러 섹션을 인쇄할 수도 있습니다
데이터베이스 자체의 제한으로 인해 대규모 모니터링 시나리오를 처리하기가 어렵고 성능 병목 현상이 있으며 기존 모니터링 시스템에서만 일반적으로 사용됩니다.
② 시계열 데이터베이스
이 시나리오를 모니터링하도록 설계된 데이터베이스는 인덱스 데이터를 저장하고 계산하는 데 능숙합니다. 예를 들어 InfluxDB, OpenTSDB (H 베이스 기반), Prometheus 등이 있습니다. 일반적인 모니터링 시스템 대표로는 TICK 모니터링 프레임워크, Open-falcon, Prometheus 등이 있습니다.
③ 전체 텍스트 검색 데이터베이스
이러한 유형의 데이터베이스는 주로 로그 스토리지에 사용되며 Elasticsearch 와 같은 데이터 검색에 매우 친숙합니다.
둘째, 데이터 감지
1. 데이터 처리
① 데이터 정리
로그 데이터 클리닝과 같은 데이터 클리닝은 로그 데이터가 구조화되지 않고 정보 밀도가 낮기 때문에 유용한 데이터를 추출해야 합니다.
② 데이터 계산
많은 원시 성능 데이터는 데이터가 비정상적인지 여부를 직접 판단하는 데 사용할 수 없습니다. 예를 들어 수집된 데이터는 총 디스크 수와 디스크 사용량입니다. 디스크 사용량을 감지하려면 기존 표시기에 대해 간단한 네 가지 작업을 수행하여 디스크 사용량을 얻어야 합니다.
③ 풍부한 데이터.
데이터 충실함은 집계 계산을 용이하게 하기 위해 호스트, 기계실 등의 레이블을 데이터에 붙이는 것입니다.
④ 지표 유도
척도 파생은 기존 척도를 통해 새로운 척도를 계산하는 것을 말한다.
2. 검출 알고리즘
고정 된 규칙과 기계 학습 알고리즘이 있습니다. 고정 알고리즘은 정적 임계값, 전년 대비 비교, 사용자 정의 규칙 등과 같은 일반적인 알고리즘이며 기계 학습에는 주로 동적 기준, 버 감지, 지표 예측, 다중 지표 연관 감지 등이 포함됩니다.
고정규칙이든 기계학습이든 그에 상응하는 판단규칙, 즉 공통성이 있다
셋째, 경보 관리
1. 풍부한 경고
경보가 풍부하여 후속 경보 이벤트 분석을 준비하기 위해서는 처리, 분석 및 알림 방법을 결정하는 보조 정보가 필요합니다.
일반적으로 경고 충실도는 규칙을 통해 CMDB, 지식 기반, 작업 내역 등의 데이터 소스를 연결하여 경고 필드 및 관련 정보를 풍부하게 합니다. 수동으로 태그를 지정하는 것도 풍부한 방법이지만 인건비가 높기 때문에 실제 장면에 착지하기가 어렵습니다.
2. 경보 수렴
경보 집계에는 억제, 차폐, 집계의 세 가지 아이디어가 있습니다.
① 억제
같은 문제를 억제하고 경보의 중복을 피하는 것이다. 일반적인 억제 방안으로는 흔들림 방지 억제, 종속 억제, 시간 억제, 조립품 조건 억제, 고가용성 억제 등이 있습니다.
② 차폐
유지 보수 주기 변경, 고정 주기성 작업 등 예측 가능한 상황을 차폐하는 것은 이미 일어날 것을 알고 있으며, 마음속에는 이미 기대가 있다. (윌리엄 셰익스피어, 윈프리, 희망명언)
③ 중합
집계는 비슷하거나 같은 경보를 조합하는 것이다. 같은 현상을 피드백할 수 있기 때문이다. 예를 들어, 비즈니스 액세스가 증가하면 비즈니스를 호스팅하는 호스트의 CPU, 메모리, 디스크 IO, 네트워크 IO 성능이 급증할 수 있으므로 이러한 성능 지표가 함께 집계되어 경보의 분석 처리가 더 쉬워집니다.
3. 경고 알림
(1) 사람들에게 알리다
사람들은 몇 가지 일반적인 통지 채널을 통해 연락할 수 있다.
이렇게 하면 아무도 화면을 쳐다보지 않을 때 위챗, 문자 메시지, 메일을 통해 직원에게 트리거할 수 있다.
② 통지 시스템.
일반적으로 후속 이벤트 처리를 용이하게 하기 위해 API 를 통해 타사 시스템으로 푸시됩니다.
또한 맞춤형 채널 확장을 지원해야 합니다 (예: 기업은 자체 IM 시스템을 보유하고 있으며 직접 액세스할 수 있음).
넷째, 장애 관리
경보 이벤트는 폐쇄 루프로 처리해야 합니다. 그렇지 않으면 모니터링이 의미가 없습니다.
가장 흔한 것은 수동 처리이다: 당직, 작업 지시, 고장 업그레이드 등.
경험 축적은 후속 문제 해결 시 참조할 수 있도록 수동 장애를 기술 자료에 통합할 수 있습니다.
자동 처리, 특정 경보의 고화 처리 프로세스를 추출하여 특정 장면의 고장자가 치유를 실현합니다. 예를 들어, 디스크 공간 경고를 할 때 쓸모없는 로그를 지우십시오.
지능형 분석은 주로 오류 상관 분석, 위치 지정, 예측 등의 AI 알고리즘을 통해 오류 위치 지정 및 처리의 효율성을 높이는 것입니다.
1. 뷰 관리
뷰 관리도 부가 가치 기능으로, 주로 사람의 심리적 요구를 충족시키기 때문에 많은 역할 (지도자, 관리자, 당직자 등) 이 있다. ).
대형 스크린: 리더십에 대한 글로벌 개요를 제공합니다.
토폴로지: 운영자에게 경보 연관 및 영향 면 뷰를 제공합니다.
대시보드: 운영 및 유지 관리 담당자를 위한 맞춤형 관심 표시기 보기를 제공합니다.
보고서: 주간지, 일간지 등과 같은 운송인과 리더에게 통계 요약 보고서 정보를 제공합니다.
검색: 오류 분석 시나리오에서 다양한 유형의 데이터 검색을 위한 운영 및 유지 관리 담당자를 대상으로 합니다.
2. 모니터링 및 관리
모니터링 관리는 엔터프라이즈 모니터링 프로세스에서 가장 큰 도전입니다. 처음 5 개 모듈은 모두 모니터링 시스템에서 제공하는 서비스 기능이며, 모니터링 관리는 모니터링 시스템 자체를 관리 및 제어하여 실제 착륙 프로세스의 기능 표현에 초점을 맞추고 있습니다. 주로 다음과 같은 측면이 있습니다.
구성: 단순, 배치 및 자동화
적용 범위: 모니터링 수준 측정
지표 데이터베이스: 모니터링 지표의 사양
이동: 언제 어디서나 문제 해결.
권한: 액세스 제어
감사: 규정 준수 관리
API: 데이터 소비에 사용되는 운영 차원 데이터의 최대 출처입니다.
자기 감시: 자기 안정성의 보장
이러한 6 가지 기본 모니터링 기능 모듈을 달성하기 위해 Dell 은 다음과 같은 아키텍처를 기반으로 통합 모니터링 플랫폼을 설계할 수 있습니다.
주로 3 계층, 액세스 계층, 기능 계층 및 기능 계층으로 나뉩니다.
액세스 계층은 주로 모든 종류의 데이터 액세스를 고려합니다. 자체 에이전트 및 플러그인의 수집 및 액세스 외에도 타사 모니터링 소스의 데이터 액세스를 지원해야 완벽한 통합 모니터링 플랫폼을 만들 수 있습니다.
역량 계층은 데이터 수집 모듈, 데이터 엔클로저, 데이터 처리 모듈, 데이터 감지 모듈, AI 분석 모듈 등 모니터링의 기본 공통 기능을 주로 고려합니다.
기능 계층은 주로 관리 및 프레젠테이션 기능을 포함하여 사용자의 사용 시나리오에 근접해야 하며, 구축 과정에서 기능 시나리오를 지속적으로 풍부하게 할 수 있습니다.
또한 데이터의 관련성을 고려하여 향후 데이터 분석을 위한 토대를 마련합니다. 모니터링과 CMDB 도 긴밀하게 연결되어야 하며 모니터링되는 모든 객체는 CMDB 에서 관리해야 합니다. 또한 구동 모니터링을 지침으로 구성하여 온라인 및 오프라인 모니터링을 자동화하고, 경고 알림을 통해 책임자를 자동으로 식별하고, 모니터링 유지 관리를 단순화할 수 있습니다.
기업 내 모니터링 플랫폼을 통합하기 위해서는 적절한 관리 시스템이 필요하며, 그 중 가장 중요한 것은 지표 관리 시스템입니다.
지표 관리 시스템의 핵심 아이디어:
모니터링 지표 시스템은 CMDB 를 뼈대로 하고 모니터링 지표를 경맥으로 하여 전체 통합 모니터링 플랫폼의 데이터를 유기적으로 통합합니다.
지표의 수명 주기 관리를 통해 지표의 관리 사양을 보완하여 모니터링 플랫폼의 장기적이고 질서 있는 운영을 보장합니다.
엔터프라이즈 비즈니스 애플리케이션의 관점에서 볼 때, 엔터프라이즈 모니터링 대상은 일반적으로 6 계층으로 나뉘며, 엔터프라이즈 자체의 상황에 따라 조정할 수 있습니다.
인프라 계층
하드웨어 장치 계층
운영 체제 계층
구성 요소 서비스 계층
애플리케이션 성능 계층
업무 운영 계층