업무 분석을 위한 업무 프로세스 또는 차원의 추상적 모음을 나타냅니다. 여기서 업무 프로세스는 분리불가분의 행동 이벤트로 요약할 수 있다. 비즈니스 프로세스에서 지표를 정의할 수 있습니다. 차원은 구매자가 차원인 구매자의 주문 사건과 같은 환경을 측정하는 것을 말합니다. 전체 시스템의 생명력을 보장하기 위해서는 데이터 도메인을 장기간 추상화, 유지 관리 및 업데이트해야 하지만 쉽게 변경하지는 않습니다. 데이터 도메인을 분할할 때 현재의 모든 비즈니스 요구 사항을 덮어쓸 수 있으며, 새로운 서비스가 입력될 때 기존 데이터 도메인을 그대로 통합하여 새 데이터 도메인을 확장할 수 있습니다.
아래 주문, 지불, 환불과 같은 기업의 업무 활동을 모두 업무 프로세스라고 합니다. 비즈니스 프로세스는 불가분의 행동 이벤트이며, 일반적으로 비즈니스 프로세스는 비즈니스 활동의 이벤트입니다.
차원은 비즈니스 속성을 반영하는 환경을 측정하는 것입니다. 이러한 속성의 모음은 하나의 차원을 형성하며 엔티티 객체라고도 합니다. 차원은 지역 차원 (국가, 지역, 시/도 레벨 포함) 및 시간 차원 (연도, 분기, 월, 주, 일 레벨 포함) 과 같은 데이터 도메인에 속합니다.
차원 등록 정보는 지역 차원의 국가 이름, 국가 ID 및 지방 이름과 같은 차원에 속합니다.
원자 지표는 측정과 동일한 의미를 가지며 측정은 비즈니스 이벤트의 동작을 기준으로 합니다. 업무 정의에서 분할할 수 없는 지표로, 지불 금액과 같은 명확한 업무 의미를 가지고 있습니다.
파생 표시기 = 원자 표시기+다중 수정자 (선택 사항)+기간. 원자 지표 업무 통계 범위의 묘사로 이해할 수 있다. 예를 들어 원자지표: 지급액, 마지막 L 일 해외 바이어 지급액은 파생지표입니다 (마지막 L 일은 기간, 해외는 수정자, 구매자는 차원이지 수정자가 아님).
데이터 통계를 정의하는 데 사용되는 시간 범위 또는 시점 (예: 최근 30 일, 자연주, 오늘까지 등) 입니다.
그것은 수식어의 추상적인 구분이다. 수정자 유형은 업무 영역에 속합니다. 예를 들어, 디지털 도메인에 대한 액세스 터미널 유형은 무선 터미널 및 PC 터미널과 같은 수정자를 덮어씁니다.
통계 차원 이외의 지표를 나타내는 비즈니스 시나리오 정의 추상화입니다. 수정자는 PC, 무선 등과 같은 수정자 유형입니다. 로그인 도메인의 액세스 터미널 유형 아래에 있습니다.
차원 추출 과정에서 일반적으로 업무 프로세스나 문서와 관련된 사람, 위치, 시기, 방법, 무엇, 이유 등의 관점에서 정련한다. 자세한 내용은 권위있는 "차원 모델링 가이드 제 3 판" 을 참조하십시오.
차원 모델링은 의사 결정의 요구 사항을 분석하고 수요 분석을 제공하기 때문에 사용자가 수요 분석을 더 빨리 완료하는 방법에 초점을 맞추고 대규모의 복잡한 질의에 대한 응답 성능이 뛰어납니다. 일반적인 표현은 일부 특수 장면에서 사용되는 별 및 눈송이 모델입니다.
1. 업무 프로세스를 선택합니다.
비즈니스 프로세스는 거래 지불 및 환불과 같은 단일 비즈니스 이벤트일 수 있습니다. 또한 현재 계정 잔액과 같은 이벤트 상태가 될 수 있습니다. 특정 이벤트의 발생, 현재 상태 또는 이벤트 흐름의 효율성을 분석하는지 여부에 따라 일련의 관련 업무 이벤트로 구성된 업무 프로세스일 수도 있습니다.
2. 세분성을 선택합니다.
이벤트 분석에서는 모든 분석을 세분화해야 하는 정도를 예측하여 선택의 세분성을 결정해야 합니다. 세분성은 차원의 조합입니다.
3. 차원 테이블을 식별합니다.
세분성을 선택한 후 분석 시 그룹화 및 필터링을 위한 차원 등록 정보를 포함한 차원 테이블을 이 세분성에 따라 디자인해야 합니다.
4. 사실을 선택합니다.
분석에서 측정해야 하는 지표를 결정합니다.
차원 모델링을 기반으로 데이터 필드, 업무 프로세스, 차원, 측정/원자 지표, 수정자 유형, 수정자, 기간 및 파생 지표를 분류하고 정의하는 버스 매트릭스를 구축했습니다. 전체적으로 다음 모델링 사양을 따릅니다.
1, 개념 계층
3, 지표 시스템 (지표 시스템 간의 관계)
원자지수
원자 척도, 수정자 유형 및 수정자는 업무 프로세스에 직접 속하며 수정자는 수정자 유형의 데이터 필드를 상속합니다.
파생지수
1, 모델 맵
데이터 계층 조작
운영 체제 데이터를 거의 처리되지 않고 데이터 웨어하우스 시스템에 저장합니다.
일반 * * * 호 창고 레벨 (DW)
공통 척도에 대한 상세 사실 데이터, 차원 테이블 데이터 및 요약 데이터를 저장합니다. 차원 모델 방법을 이론적 기준으로 사실 테이블과 차원 테이블 간의 연결을 줄이고 일람표 가용성을 높입니다.
세부 수준 (dwd)
이론적으로 세부 레이어 데이터는 ODS 레이어 데이터의 가용성을 높이기 위해 ODS 레이어 데이터를 청소하고 처리하는 것이며, dwd 레이어 데이터가 동일한 레이어에서 참조되는지 여부는 균형을 이루어야 합니다.
요약 레벨 (dws)
이 계층은 Dell 의 지표 시스템에 따라 다양한 차원에 따라 dwd 계층의 데이터를 집계합니다.
데이터 마트 계층 (dwm)
우리가 여러 업무에 걸쳐 요약된 통계 수요가 있을 때, 이 수준에 놓인다. (윌리엄 셰익스피어, 윈스턴, 업무명언)
데이터 웨어하우스 계층의 주요 기능은 다음과 같습니다.
데이터 계층 적용
데이터 제품에 대한 맞춤형 통계 지표 데이터를 저장하여 CDM 및 ODS 계층에 따라 처리합니다.
구현 프로세스는 주로 데이터 연구, 아키텍처 설계, 사양 정의 및 모델 설계로 나뉩니다.
이 모델의 전체 구현 프로세스는 다음 그림과 같습니다.
데이터 도메인 분할
버스 매트릭스 구축
규범성 정의는 주로 원자 지표, 수식어, 기간 및 파생 지표를 포함한 지표 체계를 정의합니다. 위에서도 이미 상세히 설명했으니, 여기서는 더 이상 군말을 하지 않는다.
모델 설계에는 주로 차원 및 속성에 대한 사양 정의, 차원 테이블, 세부 정보 사실 테이블 및 요약 사실 테이블에 대한 모델 설계가 포함됩니다.
차원은 차원 모델링의 기초이자 영혼이며, 데이터 웨어하우스의 능력은 차원 속성의 품질과 깊이에 비례합니다.
차원 등록 정보는 쿼리 제약, 그룹화 및 보고서 레이블 생성의 기본 소스이며 데이터 가용성의 핵심입니다. 차원은 일반적으로 쿼리 제약, 분류법 합산, 정렬 등의 역할을 합니다. 차원 디자인 프로세스는 차원 등록 정보를 결정하는 프로세스입니다.
다단계 차원 등록 정보가 있는 경우 세 번째 패러다임에 따라 정규화되면 단일 차원 테이블 대신 일련의 차원 테이블이 형성됩니다. 이러한 모델링을 눈송이 모드라고 합니다.
차원의 속성 계층을 하나의 차원으로 병합하는 작업을 정규화해제 라고 합니다.
서로 다른 애플리케이션 시스템의 데이터가 여러 웨어하우스에 들어가면 통합이 필요합니다.
마이크로차원 생성은 비교적 안정적인 기본 차원에서 불안정한 속성을 제거하고 자체 프록시 키가 있는 새 테이블에 배치함으로써 이루어집니다.
반복 계층은 차원 테이블 인스턴스 값의 계층 관계입니다. 차원의 반복 계층은 고정 레벨 수가 있는 균형 계층과 고정 레벨 수가 없는 불균형 계층으로 나눌 수 있습니다.
데이터 웨어하우스에서는 일반적으로 반복 SQL 함수가 이 계층을 처리하는 데 지원되지 않으므로 추가 방법이 필요합니다.
다중값 차원은 차원 테이블의 여러 레코드에 해당하는 사실 테이블입니다.
다중값 차원을 처리하는 세 가지 일반적인 방법이 있습니다.
기타 차원은 업무 시스템의 척도 또는 플래그 필드로 구성되며 일반적으로 일관성 차원에는 포함되지 않습니다.
이러한 차원이 사실 테이블에 사실로 존재하는 경우 사실 테이블이 더 많은 공간을 차지하게 됩니다. 차원 테이블을 개별적으로 생성하는 경우 단편화된 작은 차원 테이블이 많이 있습니다.
이 경우 일반적인 해결 방법은 기타 차원을 설정하고 이러한 필드를 차원 테이블로 구성하는 것입니다. 사실 테이블에 외래 키만 저장하면 됩니다. 기타 차원은 행 대 열 변환을 통해 많은 작은 차원 테이블을 하나의 큰 차원 테이블에 저장하는 처리 시나리오로 이해할 수 있습니다.
속성이 사실 데이터 테이블에 직접 저장된 차원을 나타냅니다.
사실 테이블은 데이터 웨어하우스 차원 모델링의 핵심으로 업무 프로세스를 중심으로 설계되었으며, 업무 프로세스를 설명하는 측정값을 취득하여 참조 차원 및 업무 프로세스와 관련된 측정값을 포함한 업무 프로세스를 표현합니다.
또 다른 각도는 사실 테이블의 유형을 구분합니다.
단일 트랜잭션 사실 테이블:
각 업무 프로세스에 대한 사실 테이블을 설계합니다. 이를 통해 각 비즈니스 프로세스에 대한 독립적인 분석 및 연구를 수행할 수 있습니다.
다중 트랜잭션 사실 테이블:
서로 다른 사실을 동일한 사실 테이블에 배치합니다. 즉, 동일한 사실 테이블에 서로 다른 업무 프로세스가 포함됩니다.
다중 트랜잭션 사실 테이블에는 사실을 처리하는 두 가지 방법이 있습니다.
서로 다른 업무 프로세스의 사실은 서로 다른 사실 필드에 저장됩니다. 현재 업무 프로세스의 측정값이 아닌 경우 0 값으로 채우는 것을 고려해 볼 수 있습니다.
서로 다른 업무 프로세스의 사실은 동일한 사실 필드에 저장되지만, 거래가 같은 날에 완료되었는지 여부를 기록하는 업무 프로세스 레이블로 열이 추가됩니다.
4, 사실 테이블 디자인 원칙
업무 프로세스와 관련된 모든 사실을 포함하려고 합니다.
업무 프로세스와 관련된 팩트만 선택합니다.
부가성이 아닌 사실을 가산 성분으로 분해하다.
차원과 사실을 선택하기 전에 세분성을 선언해야 합니다.
동일한 사실 테이블에는 여러 개의 세분성이 다른 사실을 가질 수 없습니다.
사실의 단위는 일치해야 한다.
팩트의 null 값을 처리하므로 0 으로 채우는 것이 좋습니다.
퇴화 차원을 이용하여 사실 테이블의 가용성을 높이다.