『빅데이터 시대』는 해외 빅데이터 시스템 연구의 선구적인 저서로, 이 책의 저자인 빅터 마이어 숀베르거(Victor Meier Schonberger)는 '빅데이터를 상업적으로 응용한 최초의 인물'로 알려져 있다. 그는 빅 데이터 시스템에 대한 전문 지식을 갖고 있으며 하버드 대학교, 옥스퍼드 대학교, 예일 대학교, 싱가포르 국립 대학교 등 여러 인터넷 연구 센터에서 강의한 경험이 있습니다. The Economist에 게재된 응용 프로그램입니다. 다음은 이 책의 샘플 리뷰입니다. 읽어보세요!
빅데이터 시대 리뷰(1)
우리는 더 이상 인과관계를 찾는 데 관심이 없지만, 사물 관계 사이의 상관 관계를 찾으십시오. 이 제안은 이 책을 읽고 나서 가장 큰 느낌이다. 개인적으로는 이것이 이 책의 핵심 사상이기도 하다고 생각한다. 우선 책은 '원자가 아니라 모든 것의 근원은 정보다'라는 나의 기존 이해를 뒤집는 명제를 내놓는다. 우리는 전례없는 관점을 얻었습니다. 그것은 삶의 모든 영역에 스며드는 세계관입니다. 이 제안은 책의 마지막 부분에 설명되어 있습니다. 맨 위에 놓은 이유는 이것이 디지털 세계를 이야기하기 위한 전제조건이고, 당연히 빅데이터를 이야기하기 위한 전제조건이기도 하기 때문입니다. 책 중간에 데이터화와 디지털화의 차이점을 설명하는 섹션이 있습니다. 나는 내 두뇌를 정리한 후 빅데이터 사고의 두 번째 단계로 데이터 기반 세계라는 명제를 나열했다. 이 글을 쓰면서 책의 첫 번째 문장인 책의 본질(내 생각으로는 본질)을 이해했는지 반성하지 않을 수 없다. 왜냐하면 내 전체 사고 방식을 되돌아보면 여전히 인과 관계 사고의 오래된 모델에 따라 문제에 대해 생각하기 때문입니다. 철학적 관점에서 논의되는 관점이 많다는 것도 이 책에 끌렸던 또 다른 점이다. 비록 뱃속에 잉크가 많지는 않지만 이 설명을 읽으면 저자가 제시한 제안을 더 잘 이해할 수 있을 것입니다. 예를 들어, 책에 나오는 구절이 있습니다
인간이 인과관계를 통해 세상을 이해한다고 말할 때, 우리는 세상의 다양한 현상을 이해하고 설명하기 위해 사용하는 두 가지 기본 방법을 언급합니다. 빠르고 체계적인 원인과 결과를 통한 것이고, 다른 하나는 느리고 체계적인 원인과 결과를 통한 것입니다. 빅 데이터는 우리가 세상을 이해하는 방식에서 이 두 가지 기본 접근 방식이 수행하는 역할을 변화시킬 것입니다.
몇 가지 예를 첨부하고 저자가 제시한 본질을 살펴보면 이것이 사실이라는 것을 쉽게 이해할 수 있습니다. 그렇다면 빅데이터는 우리에게 정확히 어떤 변화를 가져왔는가?
빅데이터의 본질은 우리가 정보를 분석할 때 나타나는 세 가지 변화에 있다. 방법.
첫 번째 변화는 빅데이터 시대에는 더 많은 데이터를 분석할 수 있고 때로는 무작위 샘플링에 의존하지 않고 특별한 현상과 관련된 모든 데이터를 처리할 수도 있다는 점이다(샘플=전체) )
두 번째 교대는 연구 데이터가 너무 많아서 더 이상 정확성을 추구할 필요가 없다는 것입니다.
세 번째 교대는 처음 두 교대에 의해 촉발됩니다. 더 이상 인과관계를 찾는 데 열중하지 않고 사물 간의 상관관계를 찾아야 합니다. 빅데이터는 '왜'가 아닌 '무엇'을 알려줍니다. 빅데이터 시대에 우리는 현상의 원인을 알 필요 없이 데이터 자체가 말하도록 놔두기만 하면 됩니다.
모두가 알고 있듯이 인간의 뇌는 새로 입력된 자극이나 정보를 과거의 경험이나 축적된 부분적인 지식과 비교하고 이를 조정하고 받아들이는 기능을 가지고 있다. 당신 앞에 놓인 새로운 현실이 뇌에 저장된 고유한 정보와 조화될 수 없다면, 당신은 무의식적으로 새로운 현실을 받아들이기를 거부하거나(마치 그것을 본 적이 없는 것처럼) 자신의 절반만 이해한 것으로 임의로 추측하게 될 것입니다. 지식, 당신이 깨닫는 상황을 현실에서 벗어나게 만드는 것(환상을 만들어낸다). 이것은 자신을 침착하게 유지하려는 인간의 본능입니다.
그래서 저자는 그것을 혁명이라고 부른다.
그렇게 말했지만 빅데이터는 우리에게 정확히 무엇을 가져다 주는 걸까요? 여기에서는 제가 가장 깊이 느끼는 것에 대해서만 이야기하고 싶고, 관심 있는 다른 사람들도 그것에 대해 스스로 배울 수 있습니다. 물론 책에서도 많이 언급되는데, 가장 흔한 것은 XXX 기업이나 개인이 빅데이터를 이용해 얼마나 많은 부를 창출했는지에 관한 것입니다.
이것이 빅데이터가 가져다주는 핵심이다. 유혹에 빠지는 이유를 자세히 설명할 필요는 없다. 대박을 터뜨리기 위해 언제 어떤 2색 공을 사야 할지 컴퓨터가 알려줄 것이다. 흥분한. 물론 이것은 제가 만든 과장된 비유일 뿐입니다. 두려움에 관해서는 제가 아주 좋아하는 구절이 있습니다.
공평과 정의의 기본은 사람이 어떤 일을 하면 책임만 지면 된다는 것입니다. 무언가를 하고 싶지만 하지 않는 범죄이며, 사회는 개인과 관련되어 있습니다. 책임의 기본 교리는 사람들이 자신이 선택한 행동에 책임이 있다는 것입니다. 빅데이터 분석이 완전히 정확하다면 우리의 미래는 정확하게 예측될 것이다. 그러므로 미래에 우리는 선택할 권리를 잃을 뿐만 아니라 예측에 따라 행동하게 될 것이다. 정확한 예측이 이루어지면 우리는 자유 의지와 자유롭게 선택할 권리를 잃게 됩니다. 우리에게는 선택의 여지가 없기 때문에 책임을 질 필요가 없습니다. 아이러니하지 않나요?
그런데, 책에는 자유 의지에 대한 또 다른 설명이 있습니다.
철학계에서는 인과 관계의 존재에 대한 논쟁이 수세기 동안 계속되어 왔습니다. 결국, 모든 것에 원인과 결과가 있다면 우리는 무엇이든 결정할 자유가 없을 것입니다. 우리가 내리는 모든 결정이나 우리가 하는 모든 생각이 다른 것의 결과라면. 그리고 이 결과는 다른 이유 때문에 발생합니다. 이 순환이 계속된다면 인간의 자유 의지 같은 것은 존재하지 않습니다. ?모든 삶의 궤적은 원인과 결과에 의해서만 통제됩니다. 따라서 철학자들은 세상에서 인과관계의 역할에 대해 토론하며 때로는 그것이 자유 의지에 반대된다고 주장합니다.
책에는 영화 '마이너리티 리포트'를 예를 들어놨는데, 이걸 보고 '아, 나 이 영화 실제로 봤어. 아직도 생각하면 좀 설렜는데?' 관심이 있다면 읽어보면 된다. 경찰이 예측을 이용해 범인을 사전에 검거한다는 이야기지만 빅데이터가 아닌 초인적인 수단을 통해 이루어진다. 당신의 모든 행동을 예측할 수 있다면 그것은 태양에 완전히 노출되는 것과 같습니다.
마지막으로 결론 두 문단을 첨부하는데, 하나는 책 속의 한 구절이고, 다른 하나는 제가 직접 구성한 것입니다.
빅데이터는 알고리즘과 기계로 가득한 냉랭한 세상이 아니며, 여전히 인간의 역할을 완전히 대체할 수는 없습니다. 빅데이터가 우리에게 제공하는 것은 최종적인 답이 아니라 참고적인 답일 뿐입니다. 도움은 일시적이지만 더 나은 방법과 답은 가까운 미래에 있습니다.
빅 데이터는 결국 우리에게 영향을 미칠 것이며 다른 기술과 마찬가지로 양날의 검이 될 것입니다. 잘 사용하고, 유혹을 받고, 남용하고, 두려워하십시오. 핵 기술과 마찬가지로, 이를 사용하면 지구에 도움이 됩니다. 남용하더라도 지구에 다이아몬드를 주면 여전히 폭발할 것입니다. 저자의 말처럼 앞으로 빅데이터의 발전은 삶과 일, 사고의 혁명이 될 것이라고 믿습니다.
빅데이터 시대에 대한 독서 후의 생각(2)
지난해 '클라우드 컴퓨팅'이 한창이었다면, 올해는 또 다시 '빅데이터'가 돌연 도래했다. 마치 하룻밤 사이에 모든 제조업체가 배너를 바꾸고 '빅데이터'를 홍보했습니다. 이에 따라 다양한 기업의 CIO들 역시 '빅데이터'의 도래에 주목하고 있다. "프로그래머" 웨이보에 아주 생생한 만화가 있습니다. 이 그림은 현재 중소기업의 클라우드 컴퓨팅과 빅데이터 상황을 잘 반영하고 있다고 생각합니다.
그래도 '빅데이터 시대'는 좋은 책이다.
물론 많은 IT 연예인들도 이 책에 대한 애정을 표현하기 위해 많은 댓글을 남겼습니다. 이 책을 읽기 전에는 기본적으로 소위 빅데이터라는 개념에 대해 혼란스러웠습니다. 비록 지금은 꽤 대중화되고 있는 BI에 주목했지만, 더 많은 데이터, 더 자세한 데이터 분석 및 데이터 마이닝을 의미할 수도 있다고 생각합니다. 이 책을 읽고 나면 나의 이전 생각은 성공의 작은 부분, 즉 엄청난 양의 데이터에 불과하다고 생각합니다. 반면에 데이터 정확성보다는 데이터 상관 관계에 초점을 맞추는 것이 데이터 간의 관계의 핵심일 수도 있습니다. 빅데이터와 데이터. 현재 BI의 가장 큰 차이점은 방식뿐 아니라 사고방식이다. 하지만 솔직히 말해서, 데이터의 상관관계가 더 좋은지, 아니면 데이터의 정확성이 더 좋은지 테스트하는 데는 정말 시간이 걸립니다. 적어도 현재의 데이터 분석 방법에서는 데이터의 정확성이 더 좋은 경향이 있습니다.
이 책을 읽고 나서 몇 가지 질문이 떠올랐습니다.
1. 빅데이터란 무엇인가요?
바이두백과사전을 찾아보니 다음과 같이 정의되어 있습니다. 빅데이터(bigdata) 또는 엄청난 양의 데이터란 관련된 데이터의 양이 너무 커서 기업이 보다 긍정적인 비즈니스 결정을 내리는 데 도움이 되도록 현재 주류 소프트웨어 도구를 통해 합리적인 시간 내에 캡처, 관리, 처리 및 구성할 수 없는 것을 의미합니다. 빅데이터의 4V 특성: 볼륨(Volume), 속도(Velocity), 다양성(Variety), 진실성(Veracity) - 이것이 IBM의 정의인 것 같습니다.
개인적인 관점에서 볼 때: 대용량 데이터와 대용량 스토리지는 빅데이터의 기본 프로토타입입니다.
2. 빅데이터는 어떤 기업에 적합한가?
빅데이터의 전제는 대용량 데이터여야만 데이터를 찾을 수 있다는 사실이다. 관련성은 전문적인 처리를 통해 기업의 가치를 창출할 수 있게 해줍니다. 통신사업이나 인터넷 활용의 경우 대규모 사용자 데이터를 보유한 대기업도 빅데이터를 적용하기 위한 독특한 조건이 있는데, 100년 된 매장이 아니라면 매출 주문 데이터는 어떨까? 5. 쓸 수 있는 건 소비자 데이터뿐일 수도 있다. 대부분의 제조사에서는 소비자 구매행동 분석을 예로 들고 있는 것 같습니다. 마찬가지로 공공기관 등 정부기관에서도 빅데이터가 좋은 역할을 할 수 있다. 그에 비해 대부분의 중소기업에서 빅데이터를 적용하는 것은 다소 까다롭다는 느낌이 듭니다. 책에서는 빅데이터가 기업의 경쟁력이라고 말합니다. 데이터가 (잘 활용된다면) 기업의 핵심 무형자원인 것은 사실이지만, 중소기업에서 모든 데이터를 활용하는 것이 과연 타당할까요? 즉, 모든 기업이 빅데이터를 경쟁력으로 활용하는 것일까요? .기업에서는 난리를 피우는 것처럼 보일까요?
3. 빅데이터의 영향
IT 기술 붐이 계속해서 우리를 강타할 때, 때로는 그것이 자신에게 미칠 영향에 대비하지도 못한 경우도 있습니다. 사물인터넷과 클라우드 컴퓨팅의 도움으로 빅데이터가 등장하기 시작했습니다.
1) 책 『미래를 예측하다』는 구글이 미래에 발생할 수 있는 인플루엔자 발생 가능성을 성공적으로 예측한 사례로 시작하며, 빅데이터를 활용해 우리 삶이 어떻게 변할지 보여주고 있다. 개선의 신호 역할을 할 수 있습니다. 본질은 간단합니다. 기술이 세상을 변화시킵니다.
2) 상업용 빅데이터의 전환이 가져온 비즈니스 기회 역시 빅데이터와 관련된 일련의 비즈니스 기회와 비즈니스 모델을 도출할 것입니다. 상상하기 쉽습니다. 미래에 전문적인 데이터 수집, 데이터 분석, 데이터 생성을 갖게 될 데이터 산업 체인입니다. 가장 큰 영향은 물론 IT 기업입니다.
3) 변화 사고에 관한 책에서 언급했듯이, 엄청난 양의 데이터를 기반으로 하기 때문에 앞으로는 더 많은 관심을 가질 수 있습니다. 정확성보다는 데이터의 상관관계에 중점을 둡니다. 나는 이것에 대해 아직 의구심을 가지고 있습니다.
빅데이터 시대의 독서 후 생각(3)
요즘 뉴미디어나 인터넷을 이야기할 때 빅데이터를 꼭 언급해야 할 것 같다. 그렇게 말하지 마세요, 당신은 나갈 것입니다. 더욱이, 대부분의 사람들은 다른 사람들이 말하는 것을 따르며, 많은 평론가들은 이 분야의 고전인 Schönberger의 "빅 데이터 시대"를 주의 깊게 읽지도 않았습니다. Victor Meier Schonberger는 누구입니까? 그는 현재 옥스퍼드 대학교 네트워크 학교 인터넷 연구소의 거버넌스 및 감독 교수이며, 하버드 대학교 케네디 스쿨의 정보 감독 연구 프로젝트 책임자였습니다. 그의 컨설팅 고객으로는 Microsoft, HP, IBM과 같은 세계 최고의 기업이 있습니다. 그는 또한 EU의 공식 인터넷 정책을 수립하고 참여하는 사람이기도 합니다. 빅데이터 시대의 선지자로 알려진 이 옥스퍼드 교수는 그렇다면 이 스승님이 말씀하신 것은 모두 황금률이라는 뜻일까요? 숙제를 충분히 했고 그에 상응하는 이론적 기초를 갖추었다면 그들과 이념적 대화를 나눌 수 있습니다.
Schonberg는 빅데이터를 사고의 변화, 비즈니스의 변화, 경영의 변화라는 세 부분으로 나누어 논의합니다.
첫 번째 부분인 "빅 데이터 시대의 변화에 대한 생각"에서 Schonberger는 자신의 세 가지 관점을 명확하게 밝혔습니다. 1. 더 많은 것: 무작위 샘플이 아니라 모든 데이터 2. 더 많은 기타: 정확성이 아니라 하이브리드성 , 그러나 상관관계. 나는 첫 번째 관점에 동의하지 않습니다. 한편으로는 기술이나 장비 측면에서 모든 데이터를 처리하는 것이 매우 어렵습니다. 반면, 이것이 꼭 필요한가? 단순한 사실을 판단하기 위한 데이터 분석도 모든 데이터를 수집해야 하는가? 홍콩 시립대학교 주젠화(Zhu Jianhua) 교수와 논의한 적이 있다. 주 교수는 커뮤니케이션 연구 방법과 데이터 분석 분야의 전문가다. 그는 분석을 위해 반드시 모든 데이터가 필요한 것은 아니지만 수학적 통계 방법을 찾을 수 있다고 믿는다. Schoenberg의 두 번째 관점에서 언급한 상관관계와 관련하여, 그가 말한 전체 데이터는 양이 아니라 범위를 의미하는 것으로 이해됩니다. 즉, 빅데이터의 무작위 샘플은 대상 데이터에 국한되지 않고 포함됩니다. 대상 이외의 모든 데이터. 빅데이터 분석에서는 무작위 샘플링을 배제할 수는 없지만 샘플링 방법과 범위를 확대할 필요가 있다고 생각합니다.
나는 Schoenberg의 두 번째 관점에 동의합니다. 그의 첫 번째 관점을 보완하는 것도 정밀 커뮤니케이션과 정밀 마케팅에 대한 성찰입니다. ?큰 데이터에 대한 간단한 알고리즘은 작은 데이터에 대한 복잡한 알고리즘보다 더 효율적입니다. ? 더 많은 거시적 비전과 동양 철학적 사고. 나는 Schonberger의 세 번째 관점에 전적으로 동의할 수 없습니다. ?인과관계가 아니라 상관관계다. ?알 필요없어 ?왜?, 그냥 알면 되는데?뭐? 커뮤니케이션은 데이터이고, 데이터는 관계입니다. 스몰데이터 시대에 사람들은 인과관계에만 관심을 갖고 상관관계에 대한 이해가 부족합니다. 빅데이터 시대에 상관관계는 아무리 강조해도 지나치지 않을 만큼 중요하지만 완전히 부정해서는 안 됩니다. 빅데이터는 어디서 오는가? 빅데이터의 인과관계를 완전히 무시하고, 빅데이터의 원인과 결과를 알지 못한다면 빅데이터의 인문학적 가치는 사라진다. 오늘날 많은 학자들은 자신의 견해를 설명하고 전파하기 위해 충격적인 발언을 하거나 낡은 사상을 전면적으로 부정하는 경우가 많습니다.
세상의 모든 것의 복잡성과 다양성은 둘 중 하나 또는 둘 중 하나만큼 간단하지 않습니다. Schonberger도 이런 순진한 생각을 가지고 있습니까? 사실 독자들은 그렇지 않습니다. 읽을 때 어떤 맥락에서 쓰여졌나요? 피상적인 읽기로 인해 맥락을 벗어나 오해하지 마세요. 예를 들어 Schonberger는 인과관계가 아니라 상관관계가 있다고 제안하고 있습니다. ”이러한 주장을 하면서 그는 책에서 다음과 같이 말했습니다. “대부분의 경우 빅데이터의 상관관계 분석을 완료하고 더 이상 아는 것만으로는 만족하지 않는다면, 우리는 계속해서 인과관계를 연구할 것입니다. 더 깊은 수준에서 그 뒤에 숨은 "이유"를 알아보세요. ?[i] 그가 언급한 모든 데이터와 관련 관계는 특정 맥락에 있으며 데이터 마이닝의 옵션임을 알 수 있습니다.
빅데이터 연구의 원동력 중 하나는 상업적 활용이다. 2부에서는 숀베르거가 빅데이터 시대의 비즈니스 변화에 대해 논의했다. Schonberger는 데이터화가 모든 것을 "정량화"할 수 있음을 의미한다고 믿습니다. 빅 데이터의 정량적 분석은 "무엇"이라는 질문에 효과적으로 대답할 수 있지만 여전히 "왜"에 대해서는 완전히 대답할 수는 없습니다. 그러므로 질적 분석과 질적 연구도 배제할 수 없다고 생각합니다. 데이터 혁신이 가치를 창출할 수 있다는 점에는 의심의 여지가 없습니다. 숀버거는 빅데이터의 역할 포지셔닝을 논할 때 여전히 이를 사회 시스템 전체에 두기보다는 데이터 응용이라는 비즈니스 시스템에 두었지만, 빅데이터 시대 경영 변화의 두 번째 부분에서 논의했다. 이 질문입니다. 위험사회에서 정보보안 문제는 점점 더 부각되고 있으며, 데이터 독재와 개인정보 보호는 모순이 되고 있습니다. 빅데이터의 딜레마를 어떻게 해소할 것인가? Schonberger는 마지막 섹션 "Control"에서 답변을 시도했지만 기본적으로 진부한 표현입니다. 케빈 켈리(Kevin Kelly)의 "통제력 상실(Losing Control)"이 이 질문에 답하는 데 도움이 될 수 있을 것 같습니다. 적어도 사고에 대한 더 많은 차원을 제공할 수 있을까요? Schonberger가 결론에서 말했듯이, 빅데이터는 알고리즘과 기계로 가득 찬 차가운 세상이 아니며, 인간의 역할은 여전히 완전히 대체될 수 없습니다. 빅데이터가 우리에게 제공하는 것은 최종적인 답이 아니라 참고적인 답일 뿐입니다. 도움은 일시적이지만 더 나은 방법과 답은 가까운 미래에 있습니다. ?Schonberger님, 감사합니다! 빅데이터 논의가 자연과학에서 인문사회과학으로 다시 돌아가도록 해주세요. 이를 통해 '빅데이터 시대'는 최종 답변도 아니고 표준 답변도 아니며 단지 참고 답변일 뿐임을 유추할 수 있다.
또한, 이 책을 읽기 전에 데이터란 무엇인가? 데이터 분석과 데이터 마이닝, 디지털화와 데이터화의 차이점 등 데이터 과학에 대한 몇 가지 기본 지식과 개념이 있어야 합니다. 차이점이 무엇인가요? 읽기 전에 숙제를 좀 해보시면 이해하기 더 쉬울 거예요.