데이터 웨어하우스의 데이터 세분성

데이터 웨어하우스에서 데이터의 적절한 세분성을 결정하는 것은 데이터 웨어하우스 개발자가 직면해야 하는 가장 중요한 설계 문제입니다. 데이터 세분성은 주로 통계 부서의 인구 데이터 항목이 블록 범위 또는 커뮤니티 범위인지 여부와 같은 지표 데이터의 계산 범위에 적용됩니다. 인구 데이터의 미세화 정도가 높을수록 세분성 수준이 낮아집니다. 반대로 테셀레이션 수준이 낮을수록 세분화 수준이 커집니다. 세분성은 데이터 웨어하우스에 저장된 데이터의 크기와 데이터 웨어하우스가 응답할 수 있는 쿼리 유형에 큰 영향을 미치기 때문에 데이터 웨어하우스의 주요 설계 문제입니다. 데이터웨어 하우스를 설계 할 때 합리적인 세분성을 얻기 위해 데이터 양의 크기와 쿼리 유형을 평가해야합니다. 다음은 계획, 설계, 건설을 통해 데이터 웨어하우스의 세분성 결정을 설명합니다.

1. 계획 단계

"계획"-미래의 무결성, 장기적, 기초적인 문제를 생각하고 고려하여 미래의 모든 행동 방안을 설계한다. 계획 단계에서는 먼저 데이터 양을 대략적으로 추정하여 데이터 웨어하우스에서 한 범위의 데이터 양을 파악하기 위한 것입니다. 두 번째 단계는 향후 데이터 마트에 필요한 세분성, 데이터 웨어하우스가 데이터 마트를 저장하는 데 사용하는 최소 세분성을 예측하는 것입니다.

1..1.좋은 순환 피드백 메커니즘을 설정하는 것이 중요합니다.

첫째, 우리는 완벽한 순환 피드백 메커니즘을 수립해야합니다. 데이터 웨어하우스는 모호한 수요에 직면하여 구축되며 세분성은 한 번에 계획할 수 없습니다. 먼저 소량의 데이터를 가져오고, 일부 애플리케이션을 만들어 사용자에게 제출하고, 사용자 의견을 듣고, 사용자 의견에 따라 세분성을 조정합니다.

1.2. 저장된 데이터에 대한 대략적인 추정은 아키텍처를 설계하는 사람에게 매우 유용합니다.

데이터 웨어하우스의 데이터 양을 대략적으로 추정하고 데이터 웨어하우스 아키텍처를 계획합니다. 데이터에 10 000 행만 있는 경우 데이터 웨어하우스는 데이터 저장소에 더 작은 세분성 수준을 사용하며 모든 세부 데이터는 데이터 웨어하우스에 저장됩니다. 상세 데이터에 1000000 행이 있는 경우 데이터 웨어하우스로 들어가는 데이터의 예비 요약이 필요합니다. 1000 억 행이 있는 경우 데이터 웨어하우스에는 높은 세분화 수준이 필요할 뿐만 아니라 대부분의 데이터를 오버플로우 메모리로 이동할 수 있습니다.

추정 방법은 다음과 같습니다.

1.3. 데이터 마트에서 사용할 수 있는 데이터의 세분성을 예측할 필요가 있습니다.

모든 데이터 마트를 올바르게 채우려면 데이터 웨어하우스의 데이터가 모든 데이터 마트에 필요한 최소 세분성 수준에 있어야 합니다.

계획 단계의 결과는 데이터웨어 하우스 구축의 중요한 토대입니다. 계획 단계에서는 조직 구조, 데이터의 크기 및 사후 적용에 대한 철저한 이해가 있어야 계획을 세울 수 있으며, 가능한 결과를 예측하여 설계에서 발생할 수 있는 문제를 방지할 수 있습니다.

2. 시공 단계

2. 1. 예상 공간 결과에 따라 아키텍처 설계에서 데이터 크기에 따라 스토리지 디바이스를 선택할 수 있습니다. 얼마나 많은 직접 액세스가 필요한지, 이중 입도 설계가 필요한지 여부.

2.2 오버플로 데이터 관리를 설계하십시오. 오버플로우 데이터는 데이터 웨어하우스에서 자주 액세스하지 않는 오래된 데이터로, 스토리지 용량이 크고 액세스 속도가 느린 스토리지로 옮겨집니다. 오버플로우 데이터를 관리하면 과거 데이터를 색인화 및 찾고 데이터를 신속하게 검색할 수 있습니다.

미디어 간 스토리지 관리자 및 데이터 작업 모니터는 오버플로우 데이터를 효과적으로 관리할 수 있습니다. 디스크 스토리지와 대용량 저속 스토리지 간의 데이터 이동은 CMSM (Cross Media Storage Manager) 이라는 소프트웨어에 의해 제어됩니다. 액세스되고 있는 데이터와 액세스되지 않은 데이터를 확인하는 데이터 작업 모니터입니다. 데이터 작업 모니터는 데이터 저장소의 위치 정보를 제공합니다.

2.3. 데이터 웨어하우스 구현 중 입도 결정은 왕복 프로세스입니다. 계획 단계에서 설정된 피드백 루프 접근 방식을 통해 분석가의 피드백을 받고 데이터 웨어하우스를 지속적으로 최적화할 수 있습니다.

그림에서 볼 수 있듯이 데이터 웨어하우스의 성공적인 구축은 분석가의 협조와 분리 될 수 없습니다. 건설자들은 분석가의 의견을 끊임없이 들어야 한다. 분석가들은 데이터 웨어하우스 구축에 필요한 것이 무엇인지 모릅니다. 최종 분석 결과를 봐야 데이터웨어 하우스 직원에게 정말 유용한 것이 무엇인지 알릴 수 있습니다. 효과적으로 피드백을 얻기 위해 다음 기술을 참조할 수 있습니다.

데이터 웨어하우스의 하위 집합을 신속하게 구축하고 사용자 피드백을 주의 깊게 듣습니다.

-응? 프로토타입 방법 사용

-응? 다른 사람의 경험을 참고하다.

-응? 숙련된 사용자와 함께 작업합니다.

-응? 기업의 기존 기능 요구 사항을 참고로 삼다.

-응? 정기적으로 데이터웨어 하우스 건설 회의를 열다.

3. 작은 은행 입도의 예를 들다

3. 1. 은행 환경의 세분성 수준. 다음 그림은 은행 데이터 세분성의 예입니다.

은행의 운영 계층은 일상적인 세분성으로 데이터를 저장합니다. 은행의 각 업무 시스템은 최근 60 일 동안의 거래 활동 상세내역만 저장하므로 사용자가 최근 두 달 동안의 거래 정보 상세내역을 조회할 수 있습니다. 이 기간 동안 사용자가 가장 염려하는 것은 거래 데이터의 세부 사항입니다.

데이터 웨어하우스 계층은 데이터를 월별 세분성의 요약 데이터로 합산합니다. 은행은 각 계좌의 월별 거래 정보를 기준으로 지난 10 년간의 데이터를 요약하고 고속 조회 및 액세스를 위해 직류 장치에 저장합니다. 사용자는 지난 오랜 기간 동안의 거래 세부 사항에 관심이 없지만 사용자는 빠른 조회와 결과를 얻을 필요가 있습니다. 이때 월별 요약 데이터를 제공하면 사용자의 요구를 충족시킬 수 있다.

모든 과거 데이터는 매일 오버플로우 스토리지에 저장되며, 데이터 양이 크고 액세스 빈도가 매우 낮습니다. 은행은 일반적으로 10 년 내역 상세 데이터 조회 요청을 받아들이지 않는다. 만약 어떤 특수한 상황에서 10 여 년의 역사 데이터를 조회해야 한다면, 조회 시간이 상당히 느려질 것이다.

4. 요약

데이터 웨어하우스의 세분성을 결정하는 것은 어려운 프로세스이며, 적절한 수준이 필요하며, 너무 높거나 너무 낮아서는 안 된다.

입도 수준을 선택하는 것은 상식에 크게 기반을 두고 있다. 시공 전에 계획을 세우고, 데이터의 양을 예측하고, 그에 상응하는 피드백 시스템을 구축하다. 구현 과정에서 데이터 웨어하우스의 작은 부분이 먼저 분석가에 의해 구축되고 사용됩니다. 그런 다음 그들의 의견을 듣고 그들의 피드백에 따라 입도 수준을 적절히 조정합니다.

上篇: 223 호남 Xiangxi 피닉스 카운티 사업 단위 소개 인재 정보 어디서 봐 下篇: 후베이 천치 약업유한공사는 어떠세요?