데이터 자원 정리: 데이터 거버넌스의 첫 번째 단계는 조직, 비즈니스 문제, 정보 시스템, 데이터베이스, 웹 페이지, 파일 및 API 인터페이스 형식의 데이터 항목 자원을 포함하여 비즈니스 관점에서 명확하게 구성된 데이터 자원 환경 및 데이터 자원 목록입니다. 이 단계의 출력은 분류된 데이터 자원 목록입니다.
데이터 수집 및 정리: 아리의 데이터 통합 (pentaho data integration) 과 같은 시각화 ETL 도구를 통해 소스에서 데이터를 추출, 변환 및 대상으로 로드하는 프로세스로, 분산되고 지저분한 데이터를 중앙 집중식으로 저장할 수 있습니다.
기본 주제 라이브러리 구축: 일반적으로 데이터는 기본 데이터, 비즈니스 주제 데이터 및 분석 데이터로 나눌 수 있습니다. 기본 데이터는 일반적으로 핵심 실체 데이터 또는 스마트 시티의 인구, 법인, 지리 정보, 신용, 전자증 등의 주요 데이터를 가리킨다. 주제 데이터는 일반적으로 식품 감독, 품질 감독 검사, 기업 종합 감독 및 시장 감독 관리국의 기타 데이터와 같은 업무에 대한 주제 데이터를 나타냅니다. 분석 데이터는 시장 감독 관리국의 기업 종합 평가, 산업 지역 분포, 고위험 기업 분포 등과 같은 비즈니스 주체 데이터의 종합 분석을 기반으로 한 분석 결과 데이터입니다. 그렇다면 기본 라이브러리와 주제 라이브러리의 건설은 저장, 관리, 사용이 용이한 원칙에 따라 데이터 저장 구조를 추출하는 것이다. 즉, 특정 원칙에 따라 데이터베이스 테이블 구조를 설계한 다음 데이터 자원 목록에 따라 데이터 수집 및 청소 프로세스를 설계하여 깨끗한 데이터를 데이터베이스나 데이터 웨어하우스에 저장하는 것입니다.
메타데이터 관리: 메타데이터 관리는 기본 및 주제 데이터베이스의 데이터 항목 등록 정보를 관리하는 것입니다. 또한 데이터 항목의 업무 의미를 데이터 항목과 연관시켜 업무 담당자가 데이터베이스에 있는 데이터 필드의 의미를 이해할 수 있도록 합니다. 또한 메타데이터는 자동 데이터 공유, 데이터 교환 및 비즈니스 인텔리전스 (BI) 의 기초입니다. 메타데이터 관리는 일반적으로 기본 라이브러리와 주제 라이브러리 데이터 항목의 속성 (즉, 핵심 데이터 자산) 을 관리하는 반면, 데이터 리소스 목록은 다양한 데이터 소스의 데이터 항목을 관리합니다.
친족 관계 추적: 비즈니스 시나리오에서 데이터를 사용할 때 데이터 오류가 발견되면 데이터 관리 팀은 데이터 소스를 신속하게 찾아 데이터 오류를 해결해야 합니다. 그런 다음 데이터 거버넌스 팀은 비즈니스 팀의 데이터가 어느 핵심 라이브러리에서 왔는지, 핵심 라이브러리의 데이터가 어느 데이터 소스에서 왔는지 알아야 합니다. Dell 의 접근 방식은 비즈니스 팀이 사용하는 데이터 항목이 메타데이터 조합을 통해 구성된 메타데이터와 데이터 리소스 목록을 연결하여 데이터 사용 장면과 데이터 소스 간의 친연 관계를 설정하는 것입니다. 데이터 자원 디렉토리: 데이터 자원 디렉토리는 일반적으로 정부 부서 간 데이터 공유와 같은 데이터 공유 시나리오에 사용됩니다. 비즈니스 시나리오 및 산업 사양을 기반으로 데이터 리소스 카탈로그를 만들고 메타데이터 및 기본 라이브러리 주제에 의존하여 데이터 자동화 응용 프로그램 및 사용을 수행합니다.
품질 관리: 데이터 가치의 성공적인 발굴은 고품질의 데이터에 의존해야 하며 정확하고 완벽하며 일관된 데이터만 사용할 수 있습니다. 따라서 오프셋, 0 이 아닌 값 검사, 범위 검사, 규범 검사, 반복 검사, 관련성 검사, 이상값 검사, 변동성 검사 등 여러 차원에서 데이터 품질을 분석해야 합니다. 우수한 데이터 품질 모델의 설계는 비즈니스에 대한 깊은 이해에 의존해야 한다는 점에 유의해야 합니다. 기술적으로 큰 데이터 관련 기술을 사용하여 테스트 성능을 보장하고 Hadoop, MapReduce, HBase 등과 같은 비즈니스 시스템에 미치는 성능 영향을 줄일 것을 권장합니다.
비즈니스 인텔리전스 (BI): 데이터 거버넌스의 목적은 대규모 데이터 웨어하우스의 경우 데이터 사용 시나리오와 요구 사항이 다양하므로 BI 제품을 사용하여 필요한 데이터를 신속하게 수집하고 분석하여 보고서를 만들 수 있습니다. 예를 들어 파이크 데이터는 전문 BI 업체에 속한다.
데이터 * * * 공유 및 교환: 데이터 * * * 공유에는 조직 내 및 조직 간 데이터 * * * 공유가 포함되며 * * * 공유도 라이브러리 테이블, 파일, API 인터페이스 등 세 가지 방법으로 나뉩니다. 라이브러리 테이블 * * * 공유는 비교적 직접적이며 파일 * * * 공유는 ETL 도구 역방향 데이터 교환을 통해 수행할 수 있습니다. API 인터페이스 * * * 공유 모드를 권장합니다. 이렇게 하면 중앙 데이터 웨어하우스에서 데이터 소유권을 유지하고 API 인터페이스를 통해 데이터 사용권을 전송할 수 있습니다. API 인터페이스 * * * 는 API 게이트웨이를 통해 수행할 수 있으며, 일반적인 기능으로는 인터페이스 자동 생성, 신청 감사, 트래픽 제한, 동시 제한, 다중 사용자 격리, 통화 통계, 통화 감사, 흑백 목록, 통화 모니터링, 품질 모니터링 등이 있습니다.