데이터 웨어하우스 논리 모델을 구축하고 평가하는 방법

논리 모델은 데이터 웨어하우스 데이터의 논리적 표현을 의미합니다. 최종 애플리케이션의 기능 및 성능 측면에서 볼 때, 데이터 웨어하우스의 데이터 로직 모델은 아마도 전체 프로젝트에서 가장 중요한 측면일 것이며 도메인 전문가의 참여가 필요합니다. 콘텐츠 관점에서 관련 측면에는 주제 영역 설정, 세분성 수준 구분, 데이터 분할 전략 결정 및 관계 패턴 결정이 포함됩니다.

논리 모델 구축 방법

논리 모델링은 비즈니스 부서의 요구 사항을 직접적으로 반영할 수 있고 시스템의 물리적 구현에 중요하기 때문에 데이터 웨어하우스 구현에 있어 중요한 부분입니다. 지도하는 역할. 현재 가장 일반적으로 사용되는 두 가지 모델링 방법은 소위 제3정규형(3NF, or Third Normal Form)과 스타 스키마(Star-Schema)입니다.

제3정규형

관계 스키마는 다음 특성을 충족합니다.

1. 각 속성의 값은 고유하고 모호성이 없습니다.

2. 기본이 아닌 각 속성은 전체 속성에 완전히 종속되어야 합니다. 기본 키 부분이 아닌 기본 키;

3. 기본이 아닌 각 속성은 다른 관계의 속성에 종속될 수 없습니다. 이 경우 이 속성은 다른 관계에 귀속되어야 하기 때문입니다.

스타 모델

스타 스키마는 팩트 테이블(Fact Table)과 차원 테이블 집합(Dimension Table)으로 구성된 다차원 데이터 관계입니다. 각 차원 테이블에는 기본 키로 하나의 차원이 있으며 이러한 모든 차원은 사실 테이블의 기본 키로 결합됩니다. 즉, 사실 테이블 기본 키의 각 요소는 차원 테이블에 대한 외래 키입니다. 팩트 테이블의 기본이 아닌 속성은 일반적으로 숫자 값 또는 계산할 수 있는 기타 데이터이지만 차원은 대부분 텍스트, 시간 및 기타 유형의 데이터입니다.

데이터 웨어하우스의 제3정규형 및 스타 스키마 적용

대부분의 사람들은 중앙 데이터 웨어하우스의 논리 모델을 설계할 때 물리적인 동안 제3정규형에 따라 설계합니다. 구현 시에는 데이터베이스 엔진의 한계로 인해 시스템의 응답 속도를 향상시키기 위해 논리 모델을 비정규화해야 하며 이는 물론 시스템의 복잡성, 유지 관리 작업량 및 디스크 사용률을 증가시킵니다. 디스크 크기에 대한 원시 데이터의 비율) 및 동적 쿼리를 수행하는 시스템의 능력을 감소시킵니다.

그러면 중앙 데이터 웨어하우스의 모델 설계에 스타 스키마를 사용할 수 있습니까? 스타 스키마에는 팩트 테이블과 차원 테이블 세트가 있다는 것을 알고 있습니다. 각 차원의 교차점에 있는 값입니다.

스타 스키마가 빠른 이유는 차원에 따라 사전 통계, 분류, 정렬 등 차원별로 많은 전처리를 하기 때문입니다. 따라서 스타 스키마로 설계된 데이터 웨어하우스에서는 리포팅 속도가 매우 빠르지만 전처리량이 많아 모델링 과정이 상대적으로 느리다. 비즈니스 문제가 변경되고 원래 차원이 요구 사항을 충족할 수 없는 경우 새 차원을 추가해야 합니다. 팩트 테이블의 기본 키는 모든 차원 테이블의 기본 키로 구성되므로 이러한 차원 변경은 매우 복잡하고 시간이 많이 걸립니다. 스타 스키마의 또 다른 중요한 단점은 대량의 데이터 중복성입니다. 이러한 논의를 바탕으로 스타 스키마가 많은 수의 보고서를 생성해야 하는 상황과 같이 사전 정의된 문제에 더 적합하다는 결론을 내리는 것은 어렵지 않습니다. 시스템 확장성 요구 사항 또는 대량의 데이터. 따라서 스타 스키마에는 많은 수의 보고서가 필요한 부서별 데이터 마트에 많은 응용 프로그램이 있습니다.

요약하면 위에서는 데이터 웨어하우스 모델 설계에 일반적으로 사용되는 두 가지 방법에 대해 논의했습니다. 부서별 데이터 마트의 경우 데이터의 양이 적고 보고서가 상대적으로 고정된 경우 스타 스키마를 사용할 수 있으며, 엔터프라이즈급 데이터 웨어하우스의 경우 시스템 확장성, 투자 비용, 관리 용이성 등 다양한 요소를 고려할 때 스타 스키마를 사용할 수 있습니다. 세 번째 패러다임을 사용하는 것이 가장 좋습니다.

논리 모델의 품질 기준

논리 모델의 평가는 논리 모델의 품질을 검사하는 것입니다. 좁은 의미에서는 논리적 모델이 비즈니스 규칙을 올바르게 표현하는지, 즉 정확한지 여부입니다. 그러나 데이터 웨어하우스에 대한 사람들의 이해가 깊어짐에 따라 품질의 의미도 이제 계속해서 확장되고 있습니다. 비즈니스 규칙뿐만 아니라 모델이 사용자 분석 요구를 충족시키는 정도도 포함됩니다. 이는 풍부한 의미와 다차원적 요소를 갖춘 포괄적인 개념입니다. 이에 따라 논리 모델 품질 개념에 대한 이해도 좁은 의미에서 넓은 의미로 바뀌었고 정확도는 더 이상 측정의 유일한 기준이 아닙니다. 논리 모델의 평가에는 일반적으로 다음 표준이 포함됩니다.

정확성

논리 모델의 구성 방법은 정확하며 하향식 및 상향식 방법의 조합을 따릅니다. 모델 표현 방법을 선택하고 실제 비즈니스에 적합한 일반화 추상화를 채택합니다.

정확성(precision)

논리적 모델과 실제 사업의 차이 정도, 즉 '진정한 가치'를 말한다. 오류가 작을수록 정확도가 높아집니다. 여기서는 소위 "참값"을 알 수 있습니다. 비록 논리적 모델이 추상화, 일반화 및 기타 방법으로 정확성을 요약했지만 모델이 구체화된 후에는 "참값"과 일치해야 합니다. 범위오차, 계수오차, 무응답률, 처리오류, 모델 등 정확도에 영향을 미치는 다양한 요인을 통해 변동계수, 표준편차, 평균제곱오차, 곡선맞춤, 가설검증, 통계적 추정치의 편차 등을 측정할 수 있습니다. 가정 오류 등, 수정된 로지스틱 모델은 허용 가능한 신뢰 구간 내에서 오류를 제어합니다.

적용 가능성

수집된 정보가 유용하고 사용자의 요구를 충족하는지 여부를 나타냅니다. 사용자의 분석 요구 사항을 충족하려면 논리적 모델의 세분성과 분할 방법이 필요합니다.

해석성

은 논리 모델을 출판할 때 논리 모델의 보충 설명 정보, 즉 "메타데이터"가 동시에 공개되어야 함을 의미합니다. 모델 데이터의 . 내용에는 모델 데이터의 모호함이 잘못된 해석과 사용으로 이어지는 것을 방지하기 위해 사용된 시공 방법과 시공 목표가 포함됩니다.

완전성

현재 비즈니스 요구 사항과 사용된 비즈니스 규칙이 논리 모델에 완전히 포함되어 있습니다. 모델에는 필수 비즈니스 객체(엔티티, 속성, 이들 간의 관계 등)가 없습니다.

일관성

모델에 있는 각 객체의 이름은 일관되고 명확합니다. 명명 규칙. 또한, 모델 내 각 관련 객체의 세분성이 일관되어야 하며, 비즈니스 로직 모델 객체의 분할 기준도 통일되어야 합니다.

확장성

새로운 비즈니스가 생성되면 현재 논리 모델에 영향을 주지 않고 해당 논리 모델 개체의 인스턴스 콘텐츠만 추가됩니다. 이러한 모델 범주는 통계에 맞게 조정될 수 있습니다. 데이터베이스 구조를 변경하지 않고 분석 요구에 맞게 조정하며 유연한 확장성을 갖습니다. 개별적인 경우에만 논리적 모델의 속성이나 엔터티 자체를 추가하여 단계별 구현을 지원해야 합니다.

연결성

논리 모델은 산업 경험을 바탕으로 한 개념 모델에서 비롯되었으며, 많은 성공적인 경험을 포함하고 있으며 계획 측면에서 산업 시스템의 장기적인 발전과 일치합니다. 따라서 논리 모델은 개념 모델에서 비교적 원활하게 전환되어야 합니다. 또한, 물리적 모델은 논리적 모델에서 나와야 하며, 논리적 모델의 구성은 물리적 모델로의 변환을 촉진하기 위한 특정 조작성을 가져야 합니다.

논리 모델에서 흔히 발생하는 실수:

일관되지 않은 명명 규칙

집계된 데이터, 낮은 세분성 데이터 또는 기록 데이터의 경우 정의된 명명 규칙을 사용합니다.

일관되지 않은 세분성 수준

일부는 구체적이고 일부는 너무 추상적임

부정확함

비즈니스 관계에 대한 잘못된 표현

포괄적이지 않음:

일부 속성 외래 키 식별자에는 기본 테이블이 없습니다.

쓸모없는 관계가 많이 있습니다:

모델은 사용자의 비즈니스 분석 요구와 밀접하게 관련되어야 합니다.

업계 공통 모델과의 모바일 호환성 부족:

업계 공통 모델과 큰 차이가 있어 향후 시스템 발전에 도움이 되지 않습니다. 정보 개발.

요약

비즈니스 인텔리전스 및 데이터 웨어하우스 시스템의 구축은 점진적이고 반복적인 프로세스입니다. 그 개발 추세는 보고서 분석, 데이터 마트 등 기존의 예비 애플리케이션에서 애플리케이션 개발로 이어집니다. 깊이와 폭이 넓은 복합 분석 및 데이터 마이닝 기술은 논리적 모델과 물리적 모델을 포함한 데이터 저장 모델에 의존하며, 이는 지속적인 개발, 강화 및 개선 프로세스이기도 합니다.

上篇: 대련 북방 투자 서비스 유한회사 정통? 下篇: 남창에서 취직하는 게 어떤 사이트가 좋을까요 ~ ~ ~!