비즈니스가 발전하면서 서버 규모가 확대되고 클라우드 (공용 및 혼합 클라우드) 및 가상화가 점진적으로 구현됨에 따라 운영 유지 관리는 용량 관리, 유연한 (자동화된) 용량 확장 및 축소, 보안 관리, 오류 분석 및 포지셔닝 (다양한 컨테이너 및 오픈 소스 프레임워크의 도입으로 인한 복잡성 증가) 의 범위로 확대되었습니다.
모든 일이 쉽지 않은 것 같다. 하지만 다행히도 이러한 분야에는 검증된 솔루션, 오픈 소스 소프트웨어 및 시스템이 있습니다. 운영 및 유지 보수 작업의 초점은 이러한 도구를 적용하여 문제를 해결하는 방법입니다.
전통적인 운영 및 유지 보수 작업은 인력, 도구 및 자동화, 플랫폼 및 지능형 운영 및 유지 보수 (AIOps) 의 여러 단계를 거친 지속적인 개발 (서버 규모 확대) 을 거쳤습니다. 여기서 AIOps 는 it 운영의 인공지능이 아니라, Gartner 의 정의 기준에 기반한 알고리즘 IT 운영을 가리킨다.
알고리즘 기반 IT 운영 차원은 경보 집합 통합, 근본 원인 분석, 상관 분석, 용량 평가, 자동 확장 수축 등과 같은 데이터 및 알고리즘을 활용하여 운영 차원의 자동화 및 효율성을 향상시킬 수 있습니다.
모니터링, 헬프데스크, 자동화를 바탕으로 대용량 데이터 및 기계 학습을 지속적으로 최적화하고 기계 지능을 활용하여 인간 능력의 한계를 넓힙니다. 이것이야말로 스마트 운수의 본질적인 의미이다.
지능형 운영 차원의 구체적인 착지 모드도 각 팀 탐사에서 초기 성과는 이상 탐지, 오류 분석 및 위치 지정 애플리케이션 (비즈니스 시스템 표준화 추진에 따라 다름) 에 있습니다. 지능형 운영 및 유지 보수 플랫폼의 논리 아키텍처는 그림과 같습니다.
지능형 운영 및 유지 보수 플랫폼 논리 아키텍처 다이어그램
지능형 운영 및 유지 보수는 결코 비약적인 발전 과정이 아니라 운영 자동화, 모니터링, 데이터 수집, 분석 처리 등의 특정 프로젝트를 기반으로 하는 장기 진화 시스템입니다. 사람들은 지능 운수의 엔지니어링에 대한 투자를 간과하기 쉬우며, 알고리즘만 있으면 된다고 생각하는데, 사실 이곳의 엔지니어링 능력과 알고리즘 능력은 똑같이 중요하다.
지능형 운영 및 유지 보수에서 해결해야 할 문제는 대용량 데이터 저장, 분석 처리, 다차원, 다중 데이터 소스, 정보 과부하, 복잡한 비즈니스 모델의 오류 위치 파악입니다. 지능형 운영 및 유지 보수가 심층적으로 적용됨에 따라 이러한 문제가 어느 정도 해결될 수 있습니까? 우리는 다음 문장 중 이러한 문제들을 점진적으로 전개하고 몇 가지 해결책을 제공할 것이다.
이 글은 동붕, 주위, 유군 등 공동 저술한' 스마트운영: 0 부터 대규모 분산 AIOps 시스템 구축' 에서 발췌한 것이다. 전자공업출판사 2065438+2008 년 7 월 출판.
이 책은 대기업의 지능형 운영 및 유지 보수 관행과 결합하여 지능형 운영 및 유지 보수의 기술 시스템을 포괄적으로 소개하여 독자들이 운영 및 유지 보수 기술의 현황과 발전을 더 잘 이해할 수 있도록 합니다. 또한 운영 및 유지 보수 엔지니어가 기계 학습의 일반적인 알고리즘 모델과 운영 및 유지 보수에 적용되는 방법을 어느 정도 이해할 수 있도록 도와줍니다.