데이터 품질과 데이터 품질의 8차원 지표
데이터 품질은 데이터의 가치에 직접적인 영향을 미치며, 데이터 분석 결과와 이를 기반으로 내리는 의사결정에도 직접적인 영향을 미칩니다. . 품질. 품질이 낮은 데이터는 데이터 자체의 문제일 뿐만 아니라 비즈니스 경영 결정에도 영향을 미칩니다. 잘못된 데이터는 데이터가 없는 것보다 더 나쁩니다. 왜냐하면 데이터가 없으면 경험에 기초하여 부정확한 결정을 내리게 되고 상식적인 판단은 잘못된 결정이 되기 때문입니다. 잘못된 데이터로 인해 잘못된 결정을 내릴 수도 있습니다. 따라서 데이터 품질은 기업 운영 및 관리에서 데이터 거버넌스의 핵심입니다.
데이터의 품질은 8가지 측면으로 측정할 수 있으며, 각 차원은 한 가지 측면의 데이터 품질을 반영합니다. 8가지 차원은 정확성, 진정성, 완전성, 포괄성, 적시성, 즉시성, 정확성 및 관련성입니다.
우리는 두 데이터 세트의 상태를 비교할 때 이 그래픽 표현을 자주 사용합니다. 예를 들어, 일반적으로 내부 데이터 수집의 정확성, 신뢰성 및 완전성은 높은 반면, 포괄성, 적시성, 신속성, 정확성 및 관련성은 기업 내 데이터에 부여된 중요성 및 관련 기술 수단에 따라 달라집니다. Weibo 데이터, 인터넷 미디어 데이터 등과 같은 외부 데이터 세트의 발전은 웹 크롤러와 같은 기술적 수단을 통해 포괄성, 적시성 및 즉시성을 향상시킬 수 있지만 정확성, 신뢰성 측면에서 정확성은 보장도 어렵고 통제도 어렵고 관련성은 데이터 수집 및 마이닝 관련 기술에 따라 달라집니다.
또한 이 모델을 사용하여 회사 내 다양한 기능 부서의 데이터 품질을 측정할 수 있습니다. 아래 그림은 데이터 품질의 8가지 주요 지표 평가를 통해 기업의 데이터 품질을 향상시키기 위한 기업 내부 데이터 거버넌스에 대한 목표 조치를 취할 수 있는 도식입니다.
데이터 정확도
데이터 정확도(Accuracy)는 데이터 수집 값 또는 관찰 값과 실제 값 사이의 근접성을 말하며 오류 값이라고도 하며 오류가 클수록, 정확도를 낮춰보세요. 데이터의 정확성은 데이터 수집 방법에 따라 결정됩니다.
데이터 정확도
데이터 정확도(Precision)는 동일한 물체의 관찰 데이터를 반복적으로 측정했을 때 얻은 서로 다른 데이터 간의 근접성을 말합니다. 정확도는 정밀도라고도 합니다. 정확성은 데이터 수집의 정확성과 관련이 있습니다. 정확도가 높을수록 데이터 수집의 세분성이 향상되고 오류 허용 범위가 낮아집니다.
사람의 키를 측정하려면 센티미터 단위로 정확할 수 있으며, 여러 측정 간의 차이는 센티미터 수준에 불과하며 베이징에서 상하이까지의 거리를 측정하려면 킬로미터 단위로 정확할 수 있습니다. 여러 측정 간의 차이는 킬로미터 단위입니다. 레벨: 버니어 캘리퍼스를 사용하여 부품 두께를 측정하면 1/50mm까지 정확할 수 있으며 여러 측정 결과 간의 오류는 1/50mm에 불과합니다. 사용된 측정 방법과 수단은 데이터의 정확성에 직접적인 영향을 미칩니다.
데이터 신뢰성
데이터 신뢰성은 데이터 정확성(Rightness)이라고도 합니다. 데이터의 정확성은 데이터 수집 과정의 통제 정도에 따라 달라집니다. 통제 정도가 높고 추적 가능성이 좋으면 통제 정도가 낮거나 불가능할 경우 데이터의 진위를 쉽게 보장할 수 있습니다. 추적되고 데이터가 위조된 후 추적할 수 없으면 진위성이 손상됩니다.
데이터의 신뢰성을 높이기 위해 데이터를 직접 수집하는 과정에서 인간의 개입이 없는 지능형 단말기를 사용하면 수집된 데이터의 신뢰성을 더 잘 보장하고 인간의 개입을 줄이며 데이터 사기를 줄일 수 있습니다. 이를 통해 데이터가 객관적인 것을 더 정확하게 반영하게 됩니다.
데이터 적시성
데이터 적시성(In-time)은 필요할 때 데이터를 보장할 수 있는지 여부입니다. 월초에는 전월의 운영 및 관리 데이터에 대한 통계 요약을 실시하여 이러한 데이터가 적시에 처리될 수 있는지, 월 결산 후 적시에 재정이 계산될 수 있는지 여부를 확인합니다. . 데이터의 적시성은 데이터 분석 및 마이닝의 적시성을 보장합니다.
회사의 재무회계가 복잡하고 회계속도가 느린 경우에는 지난달의 데이터를 통계적으로 요약할 수 있는 시기는 재무전략을 조정해야 할 시점이 되면 이미 월말이 되어버리게 됩니다. 달이 거의 끝났습니다. 특히 회사 규모가 커지고 비즈니스가 여러 시장과 국가를 포괄하는 경우 데이터를 적시에 요약할 수 없으며 이는 고위급 의사결정의 적시성에 영향을 미칩니다.
데이터의 적시성은 기업 데이터 처리의 속도 및 효율성과 직접적인 관련이 있습니다. 데이터의 적시성을 향상시키기 위해 점점 더 많은 기업이 경영 정보 시스템을 도입하고 경영 정보에 다양한 추가 정보를 추가하고 있습니다. 자동 데이터 처리 기능은 데이터가 시스템에 업로드된 후 대부분의 보고서를 자동으로 완료하여 데이터 처리의 효율성을 보장합니다. 중간 수준 데이터의 자동 컴퓨터 처리는 기업 데이터 처리의 효율성을 향상시키는 효과적인 수단입니다.
데이터 수집의 적시성과 데이터 처리 효율성을 보장하는 것 외에도 시스템과 프로세스를 통해 데이터 전송의 적시성을 보장하는 것도 필요합니다. 데이터 보고가 완료되면 지정된 부서에 적시 또는 정해진 시간 내에 전송하거나 지정된 저장 공간에 업로드해야 합니다.
데이터 즉시성
데이터 즉시성은 데이터 수집의 시간 노드와 데이터 전송의 시간 노드를 의미합니다. 데이터는 데이터 소스가 수집된 후 즉시 저장되고 처리되어 표시됩니다. 즉시 실시간 데이터입니다. 일정 시간이 지난 후 정보 시스템으로 전송되면 데이터의 실시간성이 떨어집니다.
웨이보 데이터 수집, 사용자가 웨이보를 게시하면 데이터를 즉시 캡처하여 처리할 수 있으며, 즉시 웨이보 데이터 보고서가 생성되며, 시간이 지남에 따라 데이터가 계속 변경됩니다. 라고 부를 수 있습니다. 작업은 실시간으로 수집되고 처리됩니다. 생산 장비의 계측기는 장비의 온도, 전압, 전류, 기압 및 기타 데이터를 즉시 반영하여 언제든지 장비의 작동 상태를 모니터링할 수 있는 데이터 스트림을 생성합니다. 데이터. 장비의 실시간 작동 데이터를 저장하고 장비 작동 조건과 장비 수명 간의 관계를 분석하는 데 사용되면 이러한 데이터는 이력 데이터가 됩니다.
데이터 무결성
데이터 무결성은 데이터 수집 정도, 즉 수집해야 하는 데이터와 실제로 수집되는 데이터 간의 비율로 측정됩니다. 하나의 정보는 12개의 데이터 포인트를 수집합니다. 예를 들어 직원 정보 데이터를 수집할 때 이름, 생년월일, 성별, 민족, 출신지, 키, 혈액형, 결혼 여부, 최고 학위를 입력해야 합니다. 학력, 전공, 최종학력, 최종학력 졸업일 등 12개 항목이 있는데, 5개 항목만 입력하면 직원이 일부만 입력합니다. , 직원이 작성한 데이터의 완성도는 절반에 불과합니다.
회사 데이터의 무결성은 회사가 데이터에 부여하는 중요성을 반영합니다. 데이터를 수집해야 하는데 실제로는 완전하게 수집되지 않고 일부만 수집됩니다. 이는 불완전하며 데이터 수집 품질에 대한 회사의 요구 사항이 충분하지 않기 때문에 발생하는 경우가 많습니다. 회사는 모든 사람에게 완전한 개인 정보 양식을 작성하도록 요구하지만 일부 직원은 이를 작성하기를 거부합니다. 회사의 2,000명의 직원 중 1,200명만이 완전한 개인 정보 양식을 작성했기 때문에 이 데이터 세트는 불완전합니다.
또한 동적 데이터의 경우 타임라인에서 데이터 수집의 완성도를 측정할 수 있습니다. 예를 들어 매 시간마다 데이터를 수집해야 한다면 매일 24개의 데이터 포인트가 형성되어 24개의 데이터로 기록되지만 직원의 불법 행위로 인해 20개의 기록만 기록되므로 이 데이터 세트도 불완전합니다.
데이터의 포괄성
데이터의 포괄성은 완전성과는 다릅니다. 완전성은 수집해야 하는 것과 실제로 수집되는 것의 차이를 측정합니다. 포괄성은 데이터 수집 지점의 생략을 의미합니다. 예를 들어, 직원 행동 데이터를 수집하려는 경우 직원의 출근 및 퇴근에 대한 데이터만 수집합니다. 근무 시간 동안 직원 행동 데이터를 수집하지 않았거나 수집할 적절한 방법을 찾지 못했습니다. 그러면 이 데이터 세트는 포괄적이지 않습니다.
상품 포장을 설명할 때 상품 포장의 앞면과 뒷면만 설명하며, 상품 포장의 측면을 기재하지 않으면 불완전합니다.
당사는 고객의 거래 데이터를 기록합니다. 당사는 고객이 주문한 제품, 주문한 제품의 가격 및 수량만 수집하며, 고객의 배송 주소 및 구매 시간은 수집하지 않습니다.
Tencent QQ 및 WeChat의 사용자 데이터는 고객 커뮤니케이션 데이터를 기록하며, Baidu Map은 사용자의 구매 거래 데이터를 기록합니다. 엔터테인먼트 데이터. 이들 기업의 데이터는 개인의 삶을 완벽하게 설명하는 의복, 음식, 주거, 교통 등 모든 측면을 포괄하는 것은 아니다. 이들의 데이터가 통합되면 보다 포괄적인 데이터가 형성될 것이다. 따라서 데이터의 포괄성은 상대적인 개념입니다. 데이터의 포괄성을 지나치게 추구하는 것은 비현실적이다.
데이터 상관관계
데이터 상관관계는 다양한 데이터 세트 간의 상관관계를 의미합니다. 예를 들어 직원 급여 데이터와 직원 성과 평가 데이터는 직원 리소스를 통해 관련되고, 성과 데이터는 급여와 직접 관련됩니다. 구매 주문 데이터와 생산 주문 데이터는 자재 추적 메커니즘을 통해 연결되며, 생산 주문은 직원, 즉 직원 작업 데이터와 직원 정보 데이터를 통해 직원에 의해 완료됩니다.
실제로 이 책에서 논의하는 기업 빅데이터에는 각 데이터 세트가 서로 연관되어 있으며, 일부는 직원 급여 데이터, 직원 성과 데이터처럼 직접적으로 관련되어 있고, 일부는 다음과 같이 간접적으로 관련되어 있습니다. 자재 구매 주문 데이터와 직원 급여 데이터에 대해 이야기해 보겠습니다. 이러한 데이터 간의 관계는 사람, 재정, 자재, 정보 등 회사의 자원으로 연결됩니다. 데이터 세트를 다른 데이터 세트에 연결할 수 없는 경우 데이터 단편화 또는 데이터 사일로가 발생합니다. 데이터 조각화 및 데이터 사일로는 기업 데이터 상관 관계가 불충분하여 발생합니다. 데이터의 상관관계는 기업 데이터 세트의 가치에 직접적인 영향을 미칩니다.