빅 데이터 프로젝트를 만드는 5단계
기업은 데이터 관리 역량을 적극적으로 개선해야 합니다. 이는 번거로운 프로세스와 감독 메커니즘을 마련해야 한다는 의미는 아닙니다. 똑똑한 기업은 데이터 활동의 라이프사이클에 맞는 유연한 프로세스와 기능을 개발할 것입니다. 즉, 비즈니스 요구 사항에 따라 더 가볍고, 더 엄격하고, 더 강력한 기능을 출시하고, 수요 증가에 따라 품질이나 정확성을 향상시킬 것입니다.
일부 기업은 새로운 데이터 소스를 처리하기 위해 새로운 기술을 활용하고 있지만, 대부분의 기업은 빅데이터를 배포하려고 할 때 이미 보유하고 있거나 보유해야 하는 데이터 정보를 관리하는 데 여전히 어려움을 겪는 딜레마에 직면해 있습니다. 기능을 수행하려면 새로운 최신 데이터를 실시간으로 직면하고 처리해야 한다는 사실도 알게 되었습니다.
빅 데이터 프로젝트에서 장기적인 성공을 달성하려면 기업은 다음 5가지 주요 영역에 집중해야 합니다.
1. 역할과 책임 범위를 명확하게 구분합니다.
기업 환경의 모든 데이터 정보에 대해 이 데이터 정보와 관련된 주요 이해관계자와 의사결정권자를 명확하게 이해하고 통제해야 합니다. 데이터 정보가 기업의 시스템과 수명주기 전반에 걸쳐 전송되면 역할 구분이 변경되며 기업은 이러한 변화를 잘 이해해야 합니다. 기업이 빅 데이터 프로젝트를 배포하기 시작하면 관련 데이터의 주요 이해관계자를 명확하게 식별하고 이러한 데이터 정보를 개선하고 반복하는 데 능숙해야 합니다.
2. 기업의 데이터 거버넌스 및 데이터 관리 기능을 강화합니다.
빅 데이터 사용자와 빅 데이터 기술의 요구 사항을 충족하고 지원할 수 있을 만큼 조직의 프로세스가 견고한지 확인하세요. 프로세스는 유연할 수 있으며 비즈니스 단위와 거래 부서의 요구 사항을 완전히 고려해야 하며, 이들 모두에는 다양한 수준의 엄격함과 감독 요구 사항이 따릅니다.
기업의 참조 정보 아키텍처가 빅데이터를 포함하도록 업데이트되었는지 확인하세요. 이를 통해 향후 프로젝트에서 빅데이터 기술과 적절한 정보 관리 기능을 최대한 활용할 수 있는 기반이 제공될 것입니다.
기업의 메타데이터 관리 기능이 모든 필수 메타데이터 구성요소를 포함하고 상호 연관시킬 수 있을 만큼 강력한지 확인하십시오. 시간이 지남에 따라 비즈니스 사양을 충족하기 위해 순서대로 분류가 수행됩니다.
조직의 생산 부서에 솔루션을 배포하기 시작하면 그들이 장기적으로 솔루션을 계속 사용하기를 원하므로 아키텍처 기능을 정의하고 성능을 모니터링하는 것이 중요합니다. . 거버넌스 프로세스에 IT 제어 역할이 포함되어 이해관계자가 이 데이터를 최대한 활용할 수 있도록 프로젝트를 안내할 수 있도록 하십시오. 또한 비즈니스의 보안 및 법무팀도 포함되어야 합니다. 경험에 따르면 기업이 빅 데이터 애플리케이션을 구현하고 프로세스를 차단하는 대신 프로세스를 통해 애플리케이션을 빠르게 이동하는 데 초점을 맞추는 한 기존 감독 메커니즘을 사용하는 것이 가장 효과적입니다.
3. 귀하의 환경에서 데이터의 목적과 필요한 정확도 수준을 이해하고 이에 따라 조직의 기대치와 프로세스를 조정하십시오.
POC이든, 주류 비즈니스 프로세스에 진입한 프로젝트이든, 데이터로 어떤 작업을 수행할 것으로 예상하는지, 품질과 정확성 수준은 어느 정도인지 매우 명확하게 파악하고 있는지 확인하세요. 이해를 얻게 될 것입니다. 이 접근 방식을 사용하면 프로젝트에서 올바른 데이터 소스와 이해관계자를 식별하여 데이터의 가치와 영향을 더 잘 평가하고 데이터를 가장 잘 관리할 수 있는 방법을 결정할 수 있습니다. 더 높은 품질과 정확성을 위해서는 더 강력한 데이터 관리 및 감독 기능이 필요합니다.
기업의 빅 데이터 프로젝트가 성숙해짐에 따라 데이터를 품질이나 정확성에 따라 분류하는 방법을 확립하는 것을 고려하십시오. 이를 통해 데이터 사용자는 자신이 작업 중인 내용을 더 잘 이해할 수 있고 이에 따라 기대치를 조정할 수 있습니다. 예를 들어 흰색, 파란색 또는 금색을 사용하여 원시 데이터, 정리된 데이터 및 분석을 지원하고 대상 방식으로 사용하도록 검증된 데이터를 나타낼 수 있습니다.
일부 회사에서는 이 분류를 한 단계 더 발전시켜 데이터를 1에서 5까지 분류합니다. 여기서 1은 원시 데이터이고 5는 이해하기 쉽게 정리된 데이터입니다.
4. 비정형 컨텐츠 관리를 기업의 데이터 관리 기능에 통합합니다.
비정형 데이터는 항상 기업 비즈니스 운영의 일부였지만 이제 우리는 비즈니스 프로세스와 운영 통찰력을 개선하는 데 도움이 되도록 이 비정형 콘텐츠를 탐색, 분석 및 분석할 수 있는 더 나은 기술을 보유하게 되었습니다. 이를 당사의 데이터 관리에 공식적으로 통합합니다. 대부분의 기업은 현재 이 단계에서 정체되어 있습니다.
데이터베이스에 있는 기본적인 비정형 데이터는 코멘트나 자유 형식으로 존재하며 최소한 데이터베이스의 일부이므로 데이터 관리에 포함되어야 합니다. 하지만 이 데이터 정보를 마이닝하는 것은 매우 어렵습니다.
기존의 구조화된 데이터베이스 및 비즈니스 프로세스 외부에 저장된 디지털 데이터의 경우 기술적 문제로 간주되는 경우를 제외하고는 그룹화 및 데이터 관리 구현을 위한 거버넌스 범위가 거의 없습니다. 일반적으로 말해서, 오늘날의 기업은 관련 보안 정책을 엄격하게 준수하는 것 외에는 아직 이를 실제로 효과적으로 관리하지 못하고 있습니다. 회사에서 빅 데이터 프로젝트를 구현하기 위한 큰 조치를 취하기 시작하면 이러한 유형의 데이터 정보가 관리해야 하는 범위에 빠르게 들어가고 그 결과가 회사의 비즈니스 인텔리전스 솔루션이나 심지어 회사의 비즈니스 활동에도 영향을 미친다는 것을 알게 될 것입니다. 이 데이터를 회사의 데이터 관리 기능 범위에 포함시키는 것을 적극적으로 고려하고, 회사의 소유권을 명확히 하고, 데이터가 어떻게 사용되는지, 정보의 출처 등의 정보를 기록하십시오.
'쉽고 쉬운 길'을 택하지 말고 기업의 유일한 공식 비정형 데이터 관리 프로세스인 빅데이터 기술에만 의존하지 마십시오. 시간이 지남에 따라 기업은 점점 더 많은 비정형 데이터를 수집하게 되므로 어떤 데이터가 좋고, 어떤 데이터가 나쁜지, 해당 데이터가 어디에서 왔는지, 데이터의 사용이 일관성이 있는지를 이해하는 것이 점점 더 중요해지고 있습니다. 이 데이터는 수명 주기 동안에도 마찬가지입니다.
이러한 명확성을 유지하려면 빅데이터 및 기타 도구를 사용하여 비즈니스에서 수집하는 데이터를 이해하고 그 가치를 판단하며 이를 관리하는 방법을 찾는 것이 중요합니다. 기업의 빅 데이터 시스템에 들어오는 대부분의 비정형 데이터는 이미 일부 모니터링을 거쳤지만 일반적으로 BLOB(Binary Large Object) 및 비정형 형식입니다. 조직이 비즈니스 프로세스에서 이러한 유형의 데이터를 계속해서 "발견"할수록 데이터의 정확성과 가치는 더욱 높아집니다. 또한 보안, 개인정보 보호, 법률 및 규제 요소를 준수하는 추가 기능이 있을 수도 있습니다. 궁극적으로 이러한 데이터 덩어리는 새로운 데이터 요소가 되거나 기존 데이터에 추가될 수 있지만, 데이터를 가장 효율적으로 사용하려면 이를 설명하고 관리할 수 있는 메타데이터가 있어야 합니다.
5. 프로덕션 환경에서 실행하기 전에 공식적으로 테스트합니다.
귀하의 비즈니스가 일회성 분석 또는 완전한 일회성 파일럿을 수행하는 경우 이는 귀하의 비즈니스에 적용되지 않을 수 있지만 대부분의 비즈니스에서는 초기 빅 데이터 노력이 빠르게 진행되어 필요성을 찾습니다. 발굴한 매우 가치 있는 정보를 지속적으로 활용합니다. 이는 프로덕션 환경에서 공식적으로 실행하기 전에 샌드박스 환경에서 테스트하는 것을 의미합니다.