1. 데이터 품질이란 무엇입니까?
데이터 품질이란 두 가지 측면에서 이해할 수 있습니다.
1.1. p>
l 데이터 신뢰성.
데이터는 실제 비즈니스를 진실하고 정확하게 반영해야 합니다.
l 데이터 완전성.
데이터 완전성이란 데이터가 충분하고, 작업과 관련된 데이터가 누락되지 않았음을 의미합니다.
l 데이터의 자체 일관성.
데이터는 단독으로 존재하지 않습니다. 데이터 간에는 다양한 제약이 있는 경우가 많습니다. 이 제약은 데이터의 연관성을 설명합니다. 데이터는 데이터 간의 상관관계를 만족할 수 있어야 하며 서로 모순되지 않아야 합니다.
데이터의 진정성, 완전성, 자체 일관성은 데이터 자체가 갖춰야 할 속성으로 데이터의 절대적인 품질이라 불리며 데이터 품질을 보장하는 기본이다.
데이터의 절대적인 품질 외에도 사용 품질, 저장 품질, 전송 품질 등 데이터를 활용하고 저장하는 과정에서 생성되는 데이터 품질도 있는데, 이를 프로세스 품질이라고 합니다.
1.2. 데이터 처리 품질
l 데이터 사용 품질
데이터 사용 품질은 데이터가 올바르게 사용되는 것을 의미합니다. 아무리 정확한 데이터라도 잘못 사용하면 올바른 결론을 도출할 수 없습니다.
l 데이터 저장 품질
데이터 저장 품질은 데이터가 적절한 미디어에 안전하게 저장된다는 것을 의미합니다. 소위 보안이란 외부 요인에 저항하고 데이터가 손상되지 않도록 보호하기 위해 적절한 솔루션과 기술을 채택하는 것을 말합니다. 백업은 오프사이트 백업, 이중 머신 백업 등 우리가 자주 사용하는 기술입니다. 그리고 2004년 말 인도양 사건으로 인해 점점 더 많은 비즈니스 리더들이 백업, 특히 오프사이트 백업의 중요성을 인식하게 되었습니다. 소위 적절한 미디어에 저장한다는 것은 언제라도 데이터를 신속하고 편리하게 검색할 수 있다는 것을 의미합니다. 필요합니다.
l 데이터 전송 품질
데이터 전송 품질은 전송 중 데이터의 효율성과 정확성을 의미합니다. 현대 정보사회에서는 점점 더 많은 데이터가 서로 다른 장소 간에 전송되며, 전송 과정에서 높은 효율성과 정확성을 확보하는 것이 매우 중요합니다.
2. 데이터 품질 및 데이터 일관성
우리는 작업을 통해 데이터 웨어하우스 개발 시 데이터 품질을 ETL과 연관시키는 경우가 많다는 사실을 발견했습니다. 프로세스의 데이터 일관성이 혼란스럽고 데이터 웨어하우스 프로젝트(즉, ETL 프로세스)가 데이터 품질을 향상시키기 위해 데이터를 복구할 수 있다고 잘못 인식하고 있습니다. 프로세스는 두 가지 다른 개념입니다.
ETL 프로세스의 데이터 일관성이란 동일한 비즈니스 이해(소스 시스템 모델 기반 및 데이터 웨어하우스 모델 기반)를 기반으로 소스 시스템에서 쿼리 및 계산된 정보와 얻은 결과를 의미합니다. 데이터 웨어하우스에서는 세부 수준을 포함한 세부 수준이 동일합니다. ETL 프로세스에서는 데이터 일관성이 보장되어야 합니다.
기업의 소스 시스템에는 데이터 품질이 존재합니다. 예를 들어, 동일한 고객이 다른 시스템(예: 비즈니스 처리 시스템 및 금융 시스템)에서도 다른 코드를 가지고 있습니다. 동일한 고객이 동일한 시스템에서 다른 코드를 가지고 있는 경우를 예로 들어 보겠습니다. 동일한 고객이 동일한 보험 회사에 연속적으로 보험을 신청하는 경우 다른 영업사원이 더 일반적으로 다른 고객 코드를 입력할 수 있습니다. 대규모 중앙 집중식 배포를 구현하지 않는 애플리케이션 동일한 고객(예: 공상은행)이 서로 다른 지점(예: 허난 지점, 후베이 지점)에서 보험을 신청하는 경우 영업사원이 서로 다른 코드를 입력할 가능성이 있습니다. 또 다른 예로, 비즈니스 처리 시스템에서 일부 입력 담당자는 입력의 편의를 위해 일부 내용을 입력하지 않거나 기본값을 사용하는 경우가 많으며 이로 인해 일부 중요한 입력 정보가 손실되거나 오류가 발생합니다. 이러한 데이터 품질 문제는 데이터 분석 시스템에 심각한 중단과 중단을 초래합니다.
데이터 웨어하우스 프로젝트는 데이터 품질을 개선하기 위해 데이터를 복구할 수는 없지만 기존 문제를 발견하고 사용자에게 어떤 데이터에 품질 문제가 있는지 알려주는 동시에 사용자에게 개선을 위한 몇 가지 제안을 제공할 수 있습니다. 의사결정을 내릴 때 이러한 데이터에 대한 분석 및 의존도를 줄여야 하며, 데이터 품질 문제를 추적하고 모니터링하기 위한 보조 방법도 제공될 수 있습니다.
3. 데이터 품질의 중요성
데이터 정보는 기업에게 중요한 전략적 자원입니다. 올바른 데이터를 합리적이고 효과적으로 사용하면 비즈니스 리더가 올바른 결정을 내리고 비즈니스를 개선할 수 있습니다. 기업의 경쟁. 잘못된 데이터(예: 낮은 데이터 품질)를 부당하게 사용하면 의사결정 실패로 이어질 수 있습니다.
요즘 많은 대기업들이 데이터 정보와 데이터 품질의 중요성을 깨닫고, 데이터 업무를 관리하기 위해 특별히 데이터센터를 설립했다.
4. 데이터 품질이 낮은 이유
당사의 데이터는 정보 기술 수단(컴퓨터 처리 시스템 개발)을 통해 시스템에 입력되는 데이터 입력 담당자로부터 수집되므로 데이터 품질이 높지 않습니다. 높은 효율성은 다음 두 가지 측면에서 비롯됩니다:
4.1. 정보 기술의 의미
현대 정보 기술은 데이터 저장 및 전송의 품질을 보장하기에 충분합니다. 기사이지만 자세히 논의될 것입니다. 당사 컴퓨터 처리 시스템에서 얻은 데이터 품질이 높지 않은 이유는 많은 경우 당사 컴퓨터 처리 시스템의 사용자 인터페이스가 사용자에게 친숙하지 않거나 사용자 입력이 불편하거나 사용자의 일반적인 작업 습관에 맞지 않아 사용자가 불편을 겪기 때문입니다. 오류가 발생하기 쉬우거나 입력 작업량이 많은 경우 중요한 입력 정보가 강화되지 않습니다.
4.2. 데이터 입력 담당자
데이터 입력 담당자의 입력 오류 또는 운영 절차 위반(의도적 또는 비의도적)은 데이터 품질이 저하되는 또 다른 중요한 이유입니다. 이 문제는 두 가지 측면에서 볼 수 있습니다.
l 데이터 입력 담당자의 책임감과 전문성이 낮습니다.
l 풀뿌리 지도자들은 데이터 품질에 관심을 기울이지 않습니다. 사업 수입은 풀뿌리의 생명선입니다. 풀뿌리 리더는 데이터 품질을 향상하기 위해 많은 인력과 물적 자원을 투자하지 않을 것입니다. 치열한 시장 경쟁으로 인해 풀뿌리 리더는 때로는 고객을 위해 경쟁하기 위해 진입 사무원에게 불법 작업을 요청하기도 합니다. 풀뿌리 리더들은 데이터에 관심이 없습니다. 데이터에 대한 이해와 관리, 그리고 고위 리더들의 요구 사이에 갈등이 있습니다.
5. 데이터 품질 관리를 잘하는 방법
데이터 품질 관리를 잘하는 방법은 저자는 세 가지 측면에서 시작할 수 있다고 믿습니다.
p>
5.1. 데이터에 대한 인식 제고
경영에서 데이터의 중요한 역할을 인식한 경우에만 데이터 품질 문제에 주의를 기울일 수 있습니다. 회사의 모든 임직원은 데이터가 회사의 중요한 전략적 자원이며, 회사의 모든 의사결정은 데이터에서 나온다는 사실을 깨달을 수 있어야 합니다. 올바른 고품질 데이터가 없으면 올바른 결정을 내릴 수 없습니다. 외국에는 "쓰레기가 들어가면 쓰레기가 나온다"(들어가는 것도 쓰레기고, 나오는 것도 쓰레기다)는 속담이 있습니다. 우리가 결정을 내릴 때 쓰레기를 사용한다면 어떻게 좋은 결정을 내릴 수 있겠습니까? ? !
5.2. 정보 기술 보장
사용자 친화적인 인터페이스를 갖춘 시스템을 개발하여 운영자의 입력 작업 부하를 줄이고 동시에 오류 가능성을 줄입니다. 비즈니스 처리 소프트웨어가 고객 요구 사항을 충족하지 못하고 운영자가 불법적인 작업을 수행하는 것을 방지하려면 개발 전에 사용자 요구 사항을 충분히 고려해야 합니다.
데이터 품질 문제를 적시에 감지하고 적시에 수정할 수 있는 데이터 감지 및 검사 도구를 개발하세요. 문제를 조기에 발견할수록 수정 비용이 낮아진다는 점을 알아야 합니다. 개미집을 제때에 수리하지 않으면 수천 마일의 피해를 입게 됩니다.
5.3.완벽한 시스템 관리
기업 전체에 걸쳐 완전한 데이터 책임 체계를 구축하고 이를 직원 성과 및 보상과 연계시키는 조건을 갖춘 기업은 전문적인 조직을 설립할 수 있으며 조직은 다음과 같습니다. 데이터 관리를 담당합니다.