기술적 구현의 관점에서 볼 때 데이터 거버넌스는 주로 '관리', '획득', '저장', '관리' 및 '사용'의 5가지 측면, 즉 비즈니스 및 데이터 리소스 정렬, 데이터 수집 및 정리, 데이터베이스 설계 및 저장, 데이터 관리, 데이터 사용.
데이터 자원 정렬: 데이터 거버넌스의 첫 번째 단계는 조직 구조, 업무 사항, 정보 시스템, 데이터베이스, 웹 페이지 등 비즈니스 관점에서 조직의 데이터 자원 환경과 데이터 자원 목록을 명확히하는 것입니다. 데이터 항목 리소스는 파일 및 API 인터페이스 형식으로 존재합니다. 이 단계의 출력은 분류된 데이터 리소스 목록입니다.
데이터 수집 및 정리: 시각적 ETL 도구(Alibaba의 DataX, Pentaho Data Integration 등)를 통해 소스에서 대상까지 데이터를 추출, 변환 및 로드하는 프로세스, 목적은 흩어져 있는 데이터를 중앙에 저장하는 것입니다. 그리고 단편화된 데이터.
기본 데이터베이스 및 테마 데이터베이스 구축 : 일반적으로 데이터는 기본 데이터, 비즈니스 테마 데이터, 분석 데이터로 구분할 수 있습니다. 기본 데이터는 일반적으로 인구, 법인, 지리 정보, 신용, 전자 증명서 및 스마트 시티의 기타 데이터와 같은 핵심 엔터티 데이터 또는 마스터 데이터를 의미합니다. 테마 데이터는 일반적으로 식품 감독, 품질 감독 검사, 시장 감독국의 종합 기업 감독 데이터 등 특정 비즈니스 테마 데이터를 가리킵니다. 분석자료라 함은 시장감독청의 기업종합평가, 산업지역 분포, 고위험기업 분포 등 사업주체자료를 종합적으로 분석한 분석결과자료를 말한다. 그러면 기본 라이브러리와 테마 라이브러리의 구축은 용이한 저장, 용이한 관리, 용이한 사용을 원칙으로 하는 추상적인 데이터 저장 구조와 업무에 대한 이해를 바탕으로 설계하는 것입니다. 데이터베이스 테이블 구조는 특정 원칙에 따라 데이터 리소스 목록에 따라 데이터 수집 및 정리 프로세스를 설계하고 데이터베이스 또는 데이터웨어 하우스에 깔끔하고 깨끗한 데이터를 저장합니다.
메타데이터 관리: 메타데이터 관리는 기본 라이브러리와 테마 라이브러리에 있는 데이터 항목의 속성을 관리하는 동시에 데이터 항목의 비즈니스 의미를 데이터 항목과 연관시켜 관리하는 것입니다. 데이터베이스에 있는 데이터 필드의 의미와 메타데이터는 나중에 언급할 자동화된 데이터 공유, 데이터 교환 및 비즈니스 인텔리전스(BI)의 기초입니다. 메타데이터 관리는 일반적으로 기본 라이브러리 및 테마 라이브러리(예: 핵심 데이터 자산)의 데이터 항목 속성 관리를 의미하는 반면, 데이터 리소스 목록은 다양한 데이터 소스의 데이터 항목 관리를 의미합니다.
계보 추적: 데이터가 비즈니스 시나리오에서 사용될 때 데이터 오류가 발견되며, 데이터 거버넌스 팀은 신속하게 데이터 소스를 찾아 데이터 오류를 복구해야 합니다. 그런 다음 데이터 거버넌스 팀은 비즈니스 팀의 데이터가 어떤 핵심 라이브러리에서 왔는지, 핵심 라이브러리 데이터가 어떤 데이터 소스에서 왔는지 알아야 합니다. 우리의 관행은 메타데이터와 데이터 리소스 목록 간의 연관성을 설정하는 것이며, 비즈니스 팀에서 사용하는 데이터 항목은 메타데이터의 조합으로 구성됩니다. 이러한 방식으로 데이터 사용 시나리오와 데이터 소스 간의 혈액 관계가 설정됩니다. 데이터 리소스 카탈로그: 데이터 리소스 카탈로그는 일반적으로 정부 부서 간의 데이터 공유와 같은 데이터 공유 시나리오에 사용되며, 데이터 리소스 카탈로그는 비즈니스 시나리오 및 업계 사양을 기반으로 생성되며 메타데이터 및 인프라를 사용하여 자동화된 데이터 애플리케이션을 가능하게 합니다. 그리고 사용합니다.
품질 관리: 데이터 가치를 성공적으로 탐색하려면 정확하고 완전하며 일관된 데이터만이 가치가 있을 수 있습니다. 따라서 데이터의 품질은 오프셋, Null이 아닌 검사, 범위 검사, 규범 검사, 반복성 검사, 상관 검사, 이상치 검사, 변동 검사 등 다양한 차원에서 분석되어야 합니다. 우수한 데이터 품질 모델의 설계는 비즈니스에 대한 깊은 이해에 기초해야 한다는 점에 유의해야 합니다. 기술적으로도 탐지 성능을 보장하고 비즈니스 시스템에 대한 성능 영향을 줄이기 위해 빅데이터 관련 기술을 사용하는 것이 좋습니다. Hadoop, MapReduce 및 HBase가 기다립니다.
비즈니스 인텔리전스(BI): 데이터 거버넌스의 목적은 대규모 데이터 웨어하우스의 경우 데이터 사용에 대한 시나리오와 요구 사항이 변경 가능하므로 BI 제품을 사용하여 요구 사항을 빠르게 얻을 수 있습니다. 데이터는 분석되어 보고서로 구성됩니다. 예를 들어 Pico Data는 전문 BI 공급업체입니다.
데이터 공유 및 교환: 데이터 공유에는 조직 내 및 조직 간 데이터 공유가 포함되며 공유 방법도 라이브러리 테이블, 파일 및 API 인터페이스 공유 방법으로 구분됩니다. 직접적이고 조잡한 파일 공유 방법은 ETL 도구를 통해 역방향 데이터 교환을 수행하여 달성할 수 있습니다. 우리가 추천하는 것은 API 인터페이스 공유 방식입니다. 이 방식에서는 중앙 데이터 웨어하우스가 API 인터페이스를 통해 데이터 소유권을 유지하고 데이터 사용 권한을 이전할 수 있습니다. API 인터페이스 공유는 API 게이트웨이를 사용하여 구현할 수 있습니다. 일반적인 기능은 자동화된 인터페이스 생성, 애플리케이션 검토, 현재 제한, 동시성 제한, 다중 사용자 격리, 통화 통계, 통화 감사, 블랙 및 화이트 목록, 통화 모니터링, 품질 모니터링 등입니다. .