1. 데이터 웨어하우징 프로세스 표준화
표준화된 운영 절차는 운영 오류를 방지하는 효과적인 수단입니다. 이를 바탕으로 항공지구물리자료 저장 과정 중 데이터 품질 검사 내용과 방법을 분석하여 시스템 검사 항목 9개와 위상학적 검사 항목 5개를 정리하였다(표 5-5). 데이터 입력 과정에서 데이터 수집 담당자에게 데이터베이스 데이터 편집 및 삭제 권한(입력된 오류 수를 편집하고 가져온 잘못된 데이터를 삭제하기 위해)이 부여되어야 한다는 점을 고려하면 실수로 데이터베이스 데이터를 편집하거나 삭제할 수 있습니다. 또는 보관된 데이터를 삭제하고 보관된 데이터의 무결성과 정확성 및 기타 요인을 파괴하는 경우 항공 지구물리학 데이터베이스에 들어오는 데이터의 품질 검사를 위한 표준화된 프로세스가 제안됩니다(그림 5-2).
표 5-5 웨어하우징 데이터의 시스템 체크 및 토폴로지 체크
1) 웨어하우징에 데이터를 넣기 전에 프로젝트를 생성하고, 프로젝트에 따라 데이터를 가져오거나 입력한다.
2) 입고 전 시스템 확인 가져오거나 입력된 입고 데이터는 시스템의 입고 전 확인(데이터 고유성, 데이터 유형, 누락 항목 확인)을 통과해야 컬렉션 데이터베이스에 저장됩니다.
3) 데이터가 수집 데이터베이스에 입력된 후에는 입력 후 시스템 검사를 거쳐야 합니다. 공간 데이터가 토폴로지 검사 대상인 경우 원본 데이터 파일과의 바이트별 비교 검사가 두 번 모두 수행된 후 수동 검사가 수행됩니다.
4) 수동 점검 및 수동 검토는 프로젝트 개요 데이터, 공간 특징 데이터(그래픽 및 속성), 텍스트 데이터, 지도 데이터 및 매핑 가능한 객체 데이터에 대해 수행되어야 합니다. 매뉴얼로. 검사 방법은 수동 비교입니다. 이 방법은 노동집약적이며 검사자는 오류를 발견하기 위한 강한 책임감을 가지고 있어야 합니다. 수동 검사와 수동 검토의 작업 내용은 동일합니다. 시스템에서는 수동 검사와 수동 검토를 서로 다른 인력이 완료해야 하며 데이터 검사를 강화하고 인적 요인으로 인한 오류를 제거하도록 노력해야 합니다.
그림 5-2 표준화된 데이터 웨어하우징 프로세스
5) 웨어하우징 데이터의 비어 있지 않은 필드를 확인하는 시스템 아카이브 검사. 시스템 보관 검사를 통과한 후 들어오는 데이터를 보관하고 데이터베이스에 저장할 수 있습니다.
테스트 후 데이터 웨어하우징 작업은 데이터 웨어하우징 프로세스에 따라 엄격하게 수행되었습니다. 항공 지구물리학 데이터베이스 데이터와 저장 전 원본 데이터 파일 간의 일관성은 100%에 도달할 수 있습니다.
이 과정은 데이터베이스 데이터에서 창고 데이터를 분리하여 별도의 데이터 수집 데이터베이스(이하 '컬렉션 데이터베이스')를 구축하고, 창고에 보관할 데이터를 컬렉션 데이터베이스에 임시 저장하는 과정입니다. 웨어하우징 데이터는 데이터 웨어하우징 품질 요구 사항을 충족하고 보관되어 데이터베이스에 입력될 때까지 컬렉션 데이터베이스에서 다양한 품질 검사, 편집 또는 삭제 작업을 거칩니다. (데이터베이스 관리자를 제외한 다른 사용자는 입력된 데이터를 편집할 수 있는 권한이 없습니다.) (데이터베이스에 포함) 또는 삭제 작업), 데이터베이스 데이터의 일관성과 무결성을 보장하고 항공 지구물리 데이터베이스의 전반적인 품질 향상을 보장합니다.
2. 정규화된 데이터 검사 방법
지난 50년 동안 항공 지구물리 탐사는 많은 양의 기초 데이터와 결과 데이터를 획득해 왔으며 이러한 데이터는 기초 연구에서 중요한 역할을 해왔습니다. 지구과학 연구, 석유 및 가스 자원 평가 및 기타 분야에서 그 효과가 점점 더 뚜렷해지고 있습니다. 사람들은 직면한 지질학적 문제를 해결하기 위해 항공 지구물리 데이터를 사용하는 데 점점 더 많은 관심을 기울이고 있습니다. 동시에 사람들은 사용된 데이터의 출처와 품질(예: 데이터의 측정 연령, 측정 방법)을 알고 싶어합니다. , 계기 정확도, 비행 고도, 측위 등) 정확도, 데이터 처리 방법 등) 문제 해결의 신뢰성을 평가합니다. 이것이 바로 이 정보 시스템의 구축자가 사용자에게 제공하고자 하는 것입니다. 디지털 녹음이 사용되기 이전에 많은 프로젝트에 사용되었던 측정 장비의 정확도, 비행 고도, 측위 정확도 등 데이터 품질과 관련된 많은 정보를 이제 찾을 수 있습니다. 어디에나.
과거의 단점이 현재의 발전을 증명하고, 역사를 존중하며, 미래의 기술 발전에 최선을 다하는 것이 이 정보 시스템 구축의 목적입니다. 따라서 데이터의 실제 상황을 기반으로 웨어하우징 데이터의 유효성을 확인하는 정규화된 방법을 제안합니다. 이를 통해 서로 다른 시대의 정보가 불완전한 데이터 웨어하우징 품질 검사 문제를 더 잘 해결할 수 있습니다.
일반적인 관행에 따라 소프트웨어 코드에서 확인해야 할 데이터베이스 테이블 필드마다 유효성 확인 코드를 직접 작성합니다.
항공 지구물리정보 시스템 구축
이 시스템은 정규화된 방식을 사용하여 들어오는 데이터를 확인합니다. 데이터베이스 구조 설계를 완료한 후 각 데이터베이스 테이블의 각 필드에 대해 들어오는 데이터의 정확성에 대한 검사 규칙을 공식화하고 동적 검사 규칙 테이블을 설정하고 다양한 검사 규칙에 대한 검사 기능을 작성하고 데이터베이스에서 검사된 테이블 데이터베이스를 얻었습니다. . 필드 검사 규칙은 들어오는 데이터를 확인하는 데 사용됩니다. 정규화된 방법을 사용한 코드 구현의 예는 다음과 같습니다.
항공 지구물리 정보 시스템 구축
시스템 검사는 전통적인 검사 방법을 사용하여 약 15,345라인의 코드를 달성합니다(표 5-6). 코드 개발 작업 볼륨이 크고 유연성이 떨어져 나중에 코드를 유지 관리하거나 확장하는 데 도움이 되지 않습니다. 예를 들어 테이블을 추가하거나 테이블에 체크 필드를 추가한 후 코드를 다시 수정해야 합니다. 컴파일되었습니다. 그러나 본 시스템의 정규화된 방식의 코드량은 495라인(표 5-6)에 불과하며, 이는 기존 검사 방식의 코드 중 3.22라인에 불과하며, 테이블을 추가한 후 코드를 수정할 필요가 없다. 또는 테이블에 체크 필드를 추가하거나, 사용자가 데이터베이스에 데이터를 입력할 때 실제 상황에 따라 코드를 수정하면 됩니다. 검사 규칙 테이블을 직접 수정하면 됩니다.
표 5-6 두 가지 시스템 검사 구현 방식의 코드량 비교