수년간의 축적 끝에 대부분의 중대형 기업과 기관은 CRM, ERP, OA 등 비교적 완전한 기본 정보 시스템을 구축했습니다. 이들 시스템의 통일된 특징은 업무 담당자나 사용자의 작업을 통해 데이터베이스의 추가, 수정, 삭제 등의 작업이 최종적으로 수행된다는 점이다. 위의 시스템을 통칭하여 OLTP(Online Transaction Process)라고 부를 수 있는데, 이는 시스템이 일정 기간 동안 실행된 후 필연적으로 기업과 기관이 대량의 이력 데이터를 수집하는 데 도움이 된다는 것을 의미합니다. 그러나 데이터베이스 속에 흩어지고 독립적으로 존재하는 방대한 양의 데이터는 기업인에게는 도저히 이해할 수 없는 성경일 뿐입니다. 사업가에게 필요한 것은 그들이 이해하고, 이해하고, 이익을 얻을 수 있는 정보, 추상적인 정보입니다. 이때, 비즈니스 담당자(관리자를 포함)가 이 정보를 충분히 파악하고 활용하여 의사결정에 도움을 줄 수 있도록 데이터를 정보로 어떻게 변환하는가가 비즈니스 인텔리전스가 해결하는 주요 문제입니다. 데이터베이스에 존재하는 데이터를 어떻게 비즈니스 담당자가 필요로 하는 정보로 변환할 수 있을까요? 대부분의 답변은 보고 시스템입니다. 간단히 말해서 보고 시스템을 BI라고 부를 수 있으며 이는 BI의 로우엔드 구현입니다.
외국 기업은 대부분 데이터 분석이라는 중급 BI에 들어섰다. 일부 기업에서는 데이터 마이닝이라는 고급 BI에 진입하기 시작했습니다. 우리 회사의 대부분은 아직 보고 단계에 있습니다.
대체 불가능한 데이터 보고서
기존의 보고서 시스템은 기술적으로 상당히 성숙되어 있으며 친숙한 Excel, Crystal Reports, Reporting Service 등이 널리 사용되었습니다. 그러나 데이터가 증가하고 수요가 증가함에 따라 기존 보고 시스템은 점점 더 많은 문제에 직면하게 되었습니다.
1. 데이터는 너무 많고, 정보는 너무 적다
빽빽한 테이블에 엄청난 양의 데이터가 쌓여 있다. 각 데이터를 꼼꼼히 살펴보는 비즈니스 담당자는 얼마나 될까? 리더십 수준이 높을수록 간결한 메시지가 필요한 이유는 무엇입니까? 내가 회장이라면 한 문장만 필요할 것 같다. 우리 상황이 좋은가, 중간인가, 나쁜가?
다양한 조합을 쌍방향으로 분석하고 이해하기 어렵다.
맞춤형 보고서 너무 단단합니다. 예를 들어, 한 테이블에는 다양한 지역의 다양한 제품 판매량을 나열하고, 다른 테이블에는 다양한 지역 및 연령대의 고객 판매량을 나열할 수 있습니다. 그러나 이 두 표는 '중국 북방 청년·중년 고객의 디지털 카메라형 제품 구매' 등의 질문에는 답할 수 없다. 비즈니스 문제에는 다양한 관점의 대화형 분석이 필요한 경우가 많습니다.
3. 잠재적인 규칙을 찾아내기는 어렵다
보고 시스템은 데이터 정보를 표면적으로 나열하는 경우가 많지만, 방대한 데이터 속에는 어떤 규칙이 잠재적으로 숨겨져 있을까요? 우리를 생각해 보세요. 가장 큰 가치는 무엇입니까? 제품이 얼마나 상호 연결되어 있습니까? 규칙이 깊어질수록 의사 결정 지원의 가치는 커지지만 이를 파악하는 것은 더 어렵습니다.
4. 고립된 섬에서는 기록 및 데이터 형태를 추적하기가 어렵습니다.
많은 비즈니스 시스템과 데이터가 서로 다른 곳에 존재합니다. 너무 오래된 데이터는 비즈니스 시스템에 백업되는 경우가 많기 때문에 거시적 분석과 장기적인 기록 분석이 매우 어렵습니다.
따라서 시대가 발전함에 따라 전통적인 보고 시스템은 더 이상 증가하는 비즈니스 요구를 충족할 수 없으며 기업은 새로운 기술을 기대하고 있습니다. 데이터 분석과 데이터 마이닝의 시대가 다가오고 있습니다. 데이터 분석 및 데이터 마이닝 시스템의 목적은 데이터 보고서를 대체하는 것이 아니라 더 많은 의사결정 지원 가치를 제공하는 것이라는 점은 주목할 가치가 있습니다. 보고 시스템은 여전히 대체할 수 없는 장점을 갖고 있으며 오랫동안 데이터 분석 및 마이닝 시스템과 공존할 것입니다.
8차원 이상의 데이터 분석
OLTP가 데이터베이스 추가, 수정, 삭제 등 일상적인 트랜잭션 작업에 중점을 둔다면 OLAP(Online Analytics Process, 온라인 분석 시스템)은 거시적인 이슈에 집중하고 데이터를 종합적으로 분석하여 가치 있는 정보를 얻으세요.
OLAP의 목적을 달성하기 위해서는 더 이상 전통적인 관계형 데이터베이스로는 충분하지 않으며, 다차원 데이터베이스라는 새로운 기술이 필요합니다.
다차원 데이터베이스의 개념은 복잡하지 않습니다. 예를 들어, 우리는 2003년 4월 북부 지역의 코카콜라 매출 10만 위안을 시간, 제품, 지역이라는 여러 관점에서 설명하고 싶습니다. 이를 차원이라고 합니다. 판매에 관해서는 측정값이라고 합니다. 물론 비용, 이익 등도 있습니다.
시간, 제품, 지역 외에도 고객의 성별, 직업, 영업 부서, 프로모션 방법 등 다양한 측면을 가질 수 있습니다. 실제로 사용 중인 다차원 데이터베이스는 8차원 또는 15차원 큐브일 수 있습니다.
15차원 큐브는 구조적으로는 복잡하지만 개념적으로는 매우 단순하다.
데이터 분석 시스템의 전체 아키텍처는 소스 시스템, 데이터 웨어하우스, 다차원 데이터베이스, 클라이언트의 네 부분으로 나누어집니다.
·소스 시스템: 기존의 모든 OLTP 시스템을 포함합니다. BI 시스템 구축에는 기존 시스템을 변경할 필요가 없습니다.
·데이터 웨어하우스: 데이터 추출을 통해 데이터가 지속적으로 소스 시스템에서 추출됩니다. 물론 하루에 한 번, 또는 3시간에 한 번씩 자동으로 추출됩니다. 데이터 웨어하우스는 여전히 관계형 데이터베이스를 기반으로 구축되며 종종 "스타 스키마"라는 모델을 따릅니다.
·다차원 데이터베이스: 데이터 웨어하우스의 데이터는 다차원적으로 모델링되어 입방체 구조를 형성합니다. 각 큐브는 판매, 재고, 재무 등의 비즈니스 주제를 설명합니다.
·클라이언트: 좋은 클라이언트 소프트웨어는 다차원 큐브의 정보를 풍부하고 다채로운 방식으로 사용자에게 제공할 수 있습니다.
데이터 분석 사례:
실제 사례에서는 Oracle9i를 사용하여 데이터 웨어하우스를 구축하고 Microsoft Analysis Service 2000을 사용하여 다차원 데이터베이스를 구축했으며 ProClarity 6.0을 클라이언트 분석 소프트웨어로 사용했습니다. .
분해트리는 조직도와 같습니다. 분해 트리는 다음 질문에 답하는 데 유용합니다. 가장 높은 판매량은 무엇입니까?
· 특정 제품 범주 내에서 다양한 제품 간의 판매량 분포는 무엇입니까?
·어떤 것입니까? 영업사원 판매율이 가장 높았나요?
그림 1을 보면 다양한 지역의 PC 판매량과 비율을 한 눈에 확인할 수 있습니다. 분해 트리의 모든 수준은 다양한 차원에 따라 마음대로 확장될 수 있습니다. 분해 트리에서는 지역 수준이 국가별로 확장되고, 국가 수준이 제품 범주별로 확장됩니다.
투영 도표(그림 3)는 산점도 형식을 사용하여 두 개 또는 세 개의 측정값 간의 관계를 보여줍니다. 데이터 포인트의 집중은 두 변수 사이의 강한 상관 관계를 나타내는 반면, 드물게 분산된 데이터 포인트는 덜 명확한 관계를 나타낼 수 있습니다.
투영 플롯은 대량의 데이터를 분석하는 데 적합합니다. 이는 원인과 결과 관계를 보여주는 데 명확한 효과가 있으므로 예외적인 데이터 포인트는 포인트 클러스터의 "정상" 범위를 벗어나므로 추가 연구를 위해 고려할 수 있습니다.
데이터 마이닝은 사용자의 요구 사항을 파악합니다.
넓게 말하면 데이터베이스에서 정보를 마이닝하는 모든 프로세스를 데이터 마이닝이라고 합니다. 이러한 관점에서 볼 때 데이터 마이닝은 BI입니다. 그러나 기술적인 측면에서 데이터 마이닝은 구체적으로 원본 데이터를 마이닝에 적합한 데이터 세트로 정리하고 변환하는 프로세스를 의미합니다. 데이터 마이닝은 이 고정 형식 데이터 세트에 대한 지식 추출을 완료하고 최종적으로 추가 분석 및 의사 결정을 위해 적절한 지식 패턴을 사용합니다. 이러한 좁은 관점에서 다음과 같이 정의할 수 있습니다. 데이터 마이닝은 특정 형태의 데이터 세트에서 지식을 추출하는 프로세스입니다. 데이터 마이닝은 특정 데이터와 특정 문제에 대해 하나 이상의 마이닝 알고리즘을 선택하여 데이터 아래 숨겨진 패턴을 찾는 경우가 많습니다. 이러한 패턴은 의사 결정을 예측하고 지원하는 데 자주 사용됩니다.