최근 몇 년 동안 빅 데이터 사이클론은 정보 분야뿐만 아니라 경제, 정치, 사회 등 여러 분야에서 자리를 잡을 준비를 하고 있습니다. 그러나 많은 기업들이 빅 데이터 분야에 진출한 후 워털루를 만났다. 여기서 이 글은 일련의 큰 데이터 실패 항목을 실사하고 그 원인을 깊이 따져 경고의의가 있다.
데이터를 지나치게 믿다. 2008 년 구글은 처음으로 독감을 예측하기 시작했고 좋은 결과를 얻었다. 그것은 미국 질병통제 및 예방센터보다 2 주 앞당겨 독감 발생을 예측했다. 그러나 몇 년 후 구글의 예측은 실제 상황보다 50% 높았다 (예방센터는 전국 의료 데이터를 기준으로 계산됨). 언론은 구글의 성공을 과장했고, 점점 더 많은 사람들이 호기심의 목적으로 관련 키워드를 검색해 데이터 왜곡을 일으키고 있다. 큰 데이터의 복잡성을 과소평가하다. 미국에는 중소기업 대출을 전문으로 하는 인터넷 금융회사가 몇 군데 있다. 중소기업 대출과 관련된 데이터는 비교적 복잡하며, 중소기업은 업종별, 패러다임별 비표준 재무제표, 계약 등 매우 특수한 업계 전반의 데이터를 다루고 있습니다. 그들은 전문적인 지식이 없어서 이해하기 어렵거나 정확하게 발굴할 시간이 있다. 당시 빅데이터 팀은 모든 시장 및 신용 방안을 하나의 모델로 해결하는 것과 같은 완벽한 모델로 모든 문제를 해결하려 했지만, 데이터의 복잡성 때문에 결국 이 방법이 실패했다는 것을 증명하고 90% 의 시간을 데이터 정리에 썼다. 이는 빅데이터 기술을 통해 모든 문제를 한꺼번에 해결하기가 어렵고 점진적인 접근이 필요하다는 것을 보여준다. 관성 관리 한 관광회사의 시스템은 웹 로그 데이터를 발굴하여 고객 통찰력을 높인다. 그 결과 사용자가 사이트를 방문한 후 후속 소비 행동 패턴이 경영진이 생각하는 것과 일치하지 않는 것으로 나타났다. 팀이 이 일을 보고할 때 경영진은 언급할 것이 없다고 느꼈다. 하지만 팀은 포기하지 않고 엄격한 A/B 테스트를 통과해 경영진의 경멸에 반격했다. 이 사건의 최종 결과는 모든 CIO 가 예측할 수 있는 것은 아니다. 하지만 한 가지는 확실합니다. 경영진과의 교제를 준비하고, 큰 데이터가 무엇인지, 그에 상응하는 가치를 충분히 이해할 수 있도록 하는 것입니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 성공명언) 한 보험회사는 일상적인 습관과 생명보험 구매 의지 사이의 상관관계를 알고 싶어한다. 나중에 습관이 너무 넓어서 회사는 조사 범위를 흡연 여부로 제한했다. 그러나이 작업에는 여전히 실질적인 진전이 없습니다. 6 개월도 채 안 되어 그들은 어떤 가치 있는 정보도 발견하지 못했기 때문에 전체 프로젝트를 종료했다. 이 프로젝트의 실패는 문제의 복잡성 때문이다. 흡연과 비흡연 사이에 회사에서는 많은 사람들이 먼저 담배를 피우고 나서 담배를 끊는다는 것을 알아차리지 못했다. 문제를 단순화하는 동기에 의해 이 부분은 간과되었다. 문제가 전면적이지 못하다. 한 글로벌 기업의 빅 데이터 팀은 많은 깊은 통찰력을 발견하고 클라우드를 통해 회사 전체를 즐길 계획입니다. 그 결과 팀은 효율성 손실을 과소평가했고, 네트워크 정체 문제로 인해 전 세계 모든 지사에서 데이터 운영 분석을 성공적으로 제출할 필요가 없었습니다. 기업은 대규모 데이터 프로젝트를 지원하고, 필요한 기술을 정리하고, 각 IT 부서의 업무를 조정하여 지원하는 방법을 신중하게 고려해야 합니다. 네트워크, 보안 또는 인프라 문제로 인해 너무 많은 대용량 데이터 프로젝트가 실패했습니다. 대규모 데이터 분석 기술이 부족한 한 소매업체의 CEO 는 아마존의 대규모의 편평한 서비스 모델에 동의하지 않아 CIO 에게 고객 추천 엔진을 구축하라고 요청했다. 프로젝트의 초기 계획은 반년이었지만, 팀은 곧 collaborativefiltering 과 같은 개념을 실현할 수 없다는 것을 깨달았다. 이를 위해 팀 멤버들은' 가짜 추천 엔진' 을 만들어 침대 시트를 유일하게 추천하는 제품으로 제안했다. 이 가짜 엔진의 작동 논리는 믹서기를 사는 사람이 침대 시트를 사고, 캠핑책을 사는 사람은 침대 시트를 사고, 책을 사는 사람은 침대 시트를 산다는 것이다. 그렇습니다. sheets 는 유일하고 기본 추천입니다. 우스꽝스럽지만 이 아이디어는 사실 괜찮고, 기본 추천도 기업에 판매 상승을 가져다 줄 수 있다. 그러나 빅데이터 관련 기술이 부족해 실제 엔진을 구현하지 못했다. 문제를 잘못 묻다. 한 세계적인 자동차 제조업체는 6 개월 동안 65,438+00 만 달러를 들여 감정 분석 프로젝트를 시작하기로 결정했습니다. 프로젝트가 끝난 후 제조업자는 성과를 리셀러에게 나누어 판매 모델을 바꾸려고 시도했다. 그리고 결과는 결국 틀렸다는 것을 증명했다. 프로젝트 팀은 리셀러가 직면한 문제나 비즈니스 권장 사항을 이해하는 데 충분한 시간을 들이지 않아 관련 분석이 가치가 없습니다. 잘못된 모델이 적용되었습니다. 한 은행은 통신 업계의 고객 유출을 판단하기 위해 통신 업계의 전문가를 고용했는데, 이 전문가는 곧 고객이 곧 유실될 것인지를 평가하는 모델을 만들었습니다. 그 때 이미 최종 평가 검증 단계에 들어섰고, 모델이 곧 온라인 상태가 되고, 은행도 곧 유실될 것으로 여겨지는 고객에게 편지를 보낼 준비를 하고 있다. 그러나 안전을 위해 내부 전문가 한 명이 이 모델을 평가하도록 초청했다. 이 은행업 전문가는 곧 놀라운 것을 발견했다. 예, 그 고객들이 떠나려 하지만, 그들이 은행의 서비스에 만족하지 않기 때문이 아니다. 그들이 재산을 옮기는 이유는 감정적인 문제 때문이다. 그들은 이혼을 준비하고 있다. 모델의 적합성, 데이터 추상화 정도 및 모델에 숨겨진 미묘한 차이를 이해하는 것은 매우 어려운 일이라는 것을 알 수 있습니다. 관리 저항력 데이터에는 중요한 정보가 많이 포함되어 있지만' 포춘지식' 에 따르면 기업 리더의 62% 는 여전히 자신의 직관을 믿는 경향이 있고, 응답자의 665,438+0% 는 의사결정 과정에서 지도자의 실제 통찰력이 데이터 분석 결론보다 더 높은 우선 참고가치를 가지고 있다고 답했다. 잘못된 사용 방식을 선택하면 기업은 두 가지 실수를 범하는 경우가 많습니다. 즉, 지나치게 급진적이고 통제할 수 없는 대용량 데이터 프로젝트를 구축하거나 기존의 데이터 기술을 사용하여 대용량 데이터 문제를 처리하려고 합니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 실패명언) 두 경우 모두 프로젝트가 곤경에 처할 가능성이 높다. 잘못된 질문 데이터 과학은 전문 지식 범주를 포함하여 복잡합니다 (은행, 소매 또는 기타 산업의 실제 운영 상황에 대한 심층적 인 이해가 필요합니다). 수학, 통계, 프로그래밍 기술 등의 경험. 많은 기업들이 고용한 데이터 과학자들은 수학과 프로그래밍에 대한 지식만 알고 있고, 가장 중요한 기술 성분인 관련 산업에 대한 지식이 부족하기 때문에 기업 내에서 데이터 과학자를 찾는 것이 가장 좋다. 필요한 기술이 부족한 이유는' 잘못된 질문' 과 밀접한 관련이 있다. 많은 대형 데이터 프로젝트가 필요한 관련 기술을 갖추지 못해 곤경에 빠지거나 심지어 실패하기도 한다. IT 기술자는 일반적으로 이러한 프로젝트를 담당합니다. 즉, 의사 결정을 안내하기 위해 데이터에 대해 올바른 질문을 할 수 없는 경우가 많습니다. 기업 전략과의 충돌이 빅데이터 프로젝트를 성공시키려면 이를 단일' 프로젝트' 로 생각하는 아이디어에서 벗어나 기업이 데이터를 사용하는 핵심 방식으로 삼아야 한다. 문제는 다른 부서의 가치 또는 전략적 목표가 큰 데이터보다 우선 순위가 높을 수 있다는 것입니다. 이러한 충돌은 종종 우리를 무력하게 만듭니다. 빅 데이터 아일랜드 빅 데이터 공급자는 항상 "데이터 호수" 또는 "데이터 허브" 라고 말하지만, 실제로 많은 기업은 "데이터 웅덩이" 로만 간주 될 수 있으며, 웅덩이 사이에는 마케팅 데이터 웅덩이 및 제조 데이터 웅덩이와 같은 분명한 경계가 있습니다. 서로 다른 부서 간의 장벽을 완화하고 각 측의 데이터 흐름을 총괄해야 큰 데이터가 실제로 역할을 할 수 있다는 점을 강조해야 한다. 다른 예상치 못한 상황은 빅 데이터 기술 외부에서 발생했다. 데이터 분석은 큰 데이터 항목의 목적의 일부일 뿐, 데이터를 수집하고 처리하는 능력도 마찬가지로 중요하다. 또한 자주 간과되는 요소는 네트워크 전송 능력과 인력 교육의 제한입니다. 문제의 회피는 때때로 데이터를 결정하거나 의심할 수 있으며, 가능한 한 피하고 싶었던 운영적 조치를 취하도록 강요할 수 있다. (윌리엄 셰익스피어, 템페스트, 희망명언) 예를 들어, 제약 업계는 미국 식품의약청에 부작용을 보고하고 그에 따른 법적 책임을 지고 싶지 않기 때문에 감정 분석 메커니즘을 매우 배제합니다. 이런 이유 목록에서, 당신은 우리가 데이터 자체에 얼마나 신경을 쓰든 간에, 누군가는 요인으로 참여할 수 있다는 공통된 주제를 발견할 수 있을 것이다. (존 F. 케네디, 공부명언) 우리가 데이터에 대한 완전한 통제를 얻으려고 노력하더라도, 큰 데이터 처리 과정은 결국 사람이 관리해야 한다. 여기에는 수집 및 분석을 위해 어떤 데이터를 선택하는지, 어떤 문제를 분석 결론으로 물어야 하는지 등 많은 초기 결정이 포함된다. (윌리엄 셰익스피어, 윈스턴, 데이터, 데이터, 데이터, 데이터, 데이터, 데이터, 데이터) 큰 데이터 프로젝트의 실패를 막기 위해 반복 메커니즘을 도입할 필요가 있다. 유연하고 개방적인 데이터 인프라를 사용하여 직원들이 이상적인 피드백을 받을 때까지 실제 시나리오를 지속적으로 조정할 수 있도록 하고, 결국 반복을 무기로 삼아 대용량 데이터를 효율적으로 활용할 수 있는 반대편으로 나아갈 수 있도록 합니다.