빅 데이터 시대는 광범위하고 심층적 인 분석을 수행 할 수 있지만 고품질의 데이터를 기반으로해야합니다. 이번 호에서는 기업의 관점에서 데이터 품질 평가, 향상 및 모니터링을 소개합니다.
빅 데이터 시대에 데이터 자산과 가치 활용 능력은 점차 기업의 핵심 경쟁력을 구성하는 핵심 요소가 되었습니다. 그러나 대용량 데이터 애플리케이션은 신뢰할 수 있는 데이터를 기반으로 해야 의미가 있으며, 저품질이나 잘못된 데이터를 기반으로 하는 애플리케이션은 원래의 의도에 어긋날 수 있습니다. 따라서 데이터 품질은 엔터프라이즈 애플리케이션 데이터의 병목 현상입니다. 높은 품질의 데이터는 데이터 적용의 상한선을 결정할 수 있으며, 낮은 품질의 데이터는 데이터 적용의 하한선을 낮출 수 있습니다.
데이터 품질은 일반적으로 데이터가 경영 관리의 실제 상황을 진실하고 완벽하게 반영할 수 있는 정도를 말하며, 일반적으로 다음과 같은 측면에서 측정하고 평가할 수 있습니다.
정확도: 시스템의 데이터 값이 실제 값과 일치하며 데이터는 비즈니스 규칙 및 통계 구경과 일치해야 합니다. 일반적인 데이터 정확도 문제는 다음과 같습니다.
실제 상황과 일치하지 않음: 데이터 소스에 오류가 있어 판단과 제약을 규제하기 어렵다.
비즈니스 사양과 일치하지 않음: 데이터 수집, 사용, 관리 및 유지 관리 과정에서 비즈니스 사양이 누락되었거나 제대로 구현되지 않아 데이터의 정확도가 떨어집니다.
무결성: 데이터의 무결성입니다. 일반적인 데이터 무결성 문제는 다음과 같습니다.
시스템이 필드를 설정했지만 실제 업무 작업에서 해당 필드의 데이터 수집이 불완전하여 데이터가 누락되거나 불완전합니다.
필드가 설정되지 않음: 데이터 요구사항이 있지만 해당하는 숫자 가져오기 필드가 설정되지 않았습니다.
일관성: 시스템 내부 및 외부 데이터 소스 간의 데이터 일관성 정도, 데이터가 일관된 사양을 따르는지 여부, 데이터 수집이 일관된 형식을 유지하는지 여부 일반적인 일관성 문제는 다음과 같습니다.
시스템 연계 또는 연계 오류 부족: 시스템 간에 동일한 데이터가 일치하지 않아야 하며 필요한 연계 및 검사가 부족합니다.
적시성: 데이터가 수집, 전송 및 처리에 신속하게 적용될 수 있는 정도와 데이터의 시간 특성이 응용 프로그램을 충족하는 정도입니다. 적시성은 시스템이 지정된 시간 내에 시스템 기능을 완료하는 데 필요한 특정 시간에 생성된 데이터를 얻을 수 있는지 여부와 관련이 있습니다. 일반적인 적시성 문제는 다음과 같습니다.
적시성 부족: 지정된 데이터 업데이트 시간에 따라 데이터가 업데이트되지 않았습니다.
가용성: 데이터 항목 통합 및 응용 프로그램의 가용성을 측정하는 데 사용됩니다. 일반적인 가용성 문제는 다음과 같습니다.
응용 프로그램 기능 부족, 관련 데이터 처리, 처리 규칙 또는 데이터 모델의 응용 프로그램 기능이 없어 대상 데이터를 얻을 수 없습니다.
통합 부족, 데이터 분산, 효과적인 통합 및 공유가 어렵습니다.
유효성과 같은 다른 측정값은 데이터 형식, 유형 및 표준을 준수하는 정도를 고려할 수 있으며 합리성은 데이터가 논리적 제약 조건을 충족하는 정도를 고려할 수 있습니다. 이전에 한 기업의 데이터 품질에 대한 조사에 따르면 일반적인 데이터 품질 문제 중 정확도는 33%, 무결성은 28%, 가용성은 24%, 일관성은 8% 로 국내 기업이 직면한 데이터 문제를 어느 정도 대표한다.
데이터 품질을 향상시키는 첫 번째 작업은 특정 데이터 항목의 정의, 구경, 형식, 값 및 단위를 표준화하여 해당 데이터 항목에 대한 특정 품질 요구 사항을 형성하는 표준화된 데이터 사양 세트를 정의하는 것입니다. 이 사양을 데이터 품질 측정 및 향상을 위한 척도로 사용하여 데이터 수집, 처리 및 적용의 모든 측면에서 주요 데이터 항목을 예방하거나 모니터링할 수 있습니다. 넓은 의미의 엔터프라이즈급 데이터 사전은 데이터 표준화 규범의 전달체로서 기업 운영에 관련된 데이터 항목 이름, 비즈니스 정의 및 규칙을 포함, 표준화 및 수집하고, 데이터 항목 설명 정보를 표준화하며, 보안 및 데이터 품질에 대한 요구 사항을 일관되게 정의함으로써 비즈니스 운영을 위한 신뢰할 수 있는 데이터 서비스를 제공하고 전반적인 데이터 품질을 향상시킬 수 있는 기반을 마련합니다. 이상적으로 넓은 의미의 엔터프라이즈 데이터 사전은 완전하며, 모든 엔터프라이즈 시스템의 모든 데이터 항목이 데이터 사전에 포함되어 있으며, 같은 이름의 이의나 동의어 이명이 없는 경우는 없습니다. 반면, 좁은 데이터 사전은 일반적으로 단일 시스템에 대한 기술 속성 표준이며 단일 시스템의 개발 및 적용을 제공합니다.
엔터프라이즈 데이터 사전은 일반적으로 데이터 항목, 값 필드 및 도메인 값의 세 가지 계층으로 나뉩니다. 데이터 항목 레벨 사양에는 주로 이름, 비즈니스 규칙 정의, 데이터 보안 요구 사항 및 데이터 품질 요구 사항이 포함됩니다.
데이터 항목 이름: 데이터 항목의 중국어 이름, 영어 이름 및 영어 약어를 포함합니다. 의미가 다른 데이터 항목은 이름이 다릅니다. 물리적 데이터베이스는 데이터 사전에 정의된 전 세계적으로 고유한 영어 약어를 따라 필드의 이름을 지정해야 합니다.
비즈니스 규칙 정의: 데이터의 비즈니스 의미, 변환 규칙, 처리 규칙 등의 보안 메타데이터를 포함합니다. 데이터 소스, 소유자 및 액세스 권한과 같은 보안 요구 사항 정의를 포함합니다.
데이터 품질 요구 사항: 데이터 사양 정의를 기반으로 비즈니스 요구 사항을 충족하는 데이터 길이, 형식, 숫자, 데이터 처리, 상호 검증 관계 등의 요구 사항을 데이터 품질 관리의 발판으로 제시합니다.
값 필드는 코드 필드, 인코딩 필드, 텍스트 필드, 금액 필드, 숫자 필드, 시간 필드 등으로 나눌 수 있습니다. 출생지 데이터 항목에 해당하는 값 필드가 "행정 구역" 코드 필드인 경우 국가 표준 GB-T2260-20 16 "중화인민공화국 행정 구역 코드" 를 참조하며 해당 필드 값은 해당 국가 표준에 정의된 코드 테이블입니다. 또' 직불 카드 번호' 데이터 항목에 해당하는 값 필드는' 19 자리 카드 번호' 인코딩 필드이며 16 자리 카드 번호와 19 자리 카드 번호를 두 가지 인코딩하는 방법을 정의하며 해당 특정 필드 값은 나열되지 않습니다
데이터 품질 관리란 데이터 생성, 처리, 사용 및 마이그레이션 과정에서 비즈니스 요구 사항을 충족하기 위해 데이터 품질을 향상시키기 위한 데이터 품질 정의, 프로세스 제어, 모니터링, 문제 분석 및 수정, 평가 및 평가와 같은 일련의 관리 활동을 말합니다. 데이터 품질 관리는 비즈니스 중심의 원칙을 따르고, 주요 품질 관리 범위를 결정하고, 단계적 제어 및 지속적인 최적화의 초점을 동적으로 조정합니다. "누가 창조하고 누가 책임지는가" 에 따라 누가 처리하고, 누가 책임지고, "누가 제공하고 누가 책임지는가" 의 원칙은 데이터 품질 관리의 책임을 정의하고, 데이터 유통 과정의 각 책임자는 관할 범위 내의 데이터 품질에 대해 책임을 진다. 시스템 프로그램의 데이터 품질 규칙에 대한 자동 제어 조치를 우선적으로 고려하고 가능한 한 제어점을 앞으로 이동하여 소스에서 데이터 품질을 제어합니다.
데이터 품질 모니터링 지점은 일반적으로 주요 데이터 항목에 대해 구현되고, 데이터 품질 모니터링 규칙을 정의하고, 모니터링 경고를 생성하고, 심각도에 따라 보고서를 분류하고, 적절한 수준에서 처리하고 응답합니다. 경험에 비추어 볼 때, 주요 데이터 항목은 일반적으로 여러 업무 라인이나 계약 서명, 회계, 성과 분석, 제품 가격 책정, 자금 수령 등 주요 업무 분야에 더 큰 영향을 미칩니다. , 또는 내부 관리, 외부 정보 공개 및 업계 규제 요구 사항 (예: 새로운 자본 계약 이행에 명시적으로 제시된 재무 보고 데이터 및 주요 지표) 에 적용 중입니다.
데이터 품질 모니터링 포인트 제어 방법은 예방과 모니터링의 두 가지 유형으로 나뉩니다.
예방 제어는 일반적으로 데이터 수집 지점에 배포되어 수동으로 입력된 소스 데이터를 제어하고 대량 가져온 소스 데이터를 검사하여 잘못된 데이터가 생성되지 않도록 합니다.
데이터 입력 검증: 대출 금리의 입력 검증과 같은;
데이터 임계값: 예를 들어, 데이터가 비어 있지 않고, 데이터 값이 값 범위로 정의된 적정 범위를 초과하며, 데이터 형식이 표준에 맞지 않습니다.
품질 관리 모드: 자동 시스템 검사/수동 검사;
시스템 검증 방법: 강제, 비준수 규칙 통과 불가.
모니터링 컨트롤은 잘못된 데이터를 모니터링하고 데이터 품질 문제가 발견되면 경고를 보냅니다. 일반적으로 데이터 처리 및 응용 프로그램에 배포되어 데이터의 무결성, 일관성 및 정확성 등을 검증합니다. 을 눌러 섹션을 인쇄할 수도 있습니다
데이터 출력 검증: 예: 총 대출 잔액 검증.
데이터 일관성: 예를 들어 거래 위치는 총계정 원장 시스템에 기록된 거래 위치와 일치합니다.
품질 관리 모드: 자동 시스템 검사.
시스템 검사 모드: 선택 사항, 오류 및 차이 프롬프트
선택한 주요 데이터 항목에 대해 데이터 품질 규칙 및 데이터 품질 등급을 정의해야 합니다. 데이터 품질 수준은 "임계값" 및 "허용치" 로 등급을 매길 수 있습니다.
예: 데이터 항목 품질 점수가 "임계값" 보다 높습니다
허용가능: 데이터 항목의 품질 점수가 임계값보다 낮지만 허용보다 높습니다
경고: 데이터 항목 품질 점수가 공차보다 낮습니다
심각한 경보: 데이터 항목 품질 문제는 매우 심각한 영향을 미칠 수 있으며, 수동 경험에 의해 판단됩니다.
개발, 구현 및 테스트 속도를 따라잡기 위해 엔터프라이즈 데이터 사전에서 주요 데이터 항목 모니터링 지점의 세부 정보를 유지 및 업데이트해야 합니다.
데이터 품질 및 응답 오류 수정 등급 보고서는 다음 원칙을 따라야 합니다.
적시에 데이터 품질 수준을 "허용", "경고" 및 "심각한 경고" 상태로 만드는 데이터 품질 이벤트를 검색, 보고 및 처리합니다.
정상: 서로 다른 등급의 데이터 품질 문제에 대해 이해 관계자에게 해당 자원을 보고하고 할당합니다.
효율성: 지정된 채점 시간 내에 데이터 품질 문제를 해결합니다. 응답 시간은 적절한 "적정", "경고" 및 "위기 경고" 에 따라 규정해야 합니다.
질서 정연하다. 데이터 품질 등급 보고서를 전개할 때는 통일된 지도력, 등급 책임, 질서 있는 에스컬레이션을 해야 한다.
UDP 계층에 배포된 데이터 품질 모니터는 주요 데이터 항목의 품질을 실시간 또는 정기적으로 모니터링하고, 데이터 품질을 평가하고, 모니터링 지점의 "임계값" 과 "허용 가능성" 을 비교하여 데이터 품질을 분류합니다. 양호가 아닌 평가 결과의 경우 데이터 품질 모니터는 데이터 품질 관리자에게 알리는 경고 메시지를 보냅니다. 경고 메시지에는 문제 위치 헤더 파일과 구체적인 설명이 포함됩니다. 데이터 품질 관리자는 경보 정보를 기준으로 문제 데이터 항목을 조사하고, 경보 내용을 확인하고, 다운스트림 사용자에게 경보 정보를 생성하고, 관련 책임자에게 오류 수정 주문을 작성합니다. 관련 책임자는 오류 수정 알림의 구체적인 내용에 따라 데이터 품질 문제를 조사하고, 데이터 품질 개선 요구 사항 및 솔루션을 제시하며, 운영 유지 관리 팀이 데이터 애플리케이션 또는 데이터 수집 통합 수준에서 수정합니다. 데이터 품질 요구 사항이 너무 엄격하거나 제어 규칙 오류로 인해 오류 수정 및 경고 문제가 발생하는 경우 주요 데이터 항목 목록 및 관련 모니터링 규칙을 수정하여 운영 유지 관리 팀이 해당 모니터링 지점을 수정하거나 배포 취소해야 합니다.