예를 들어 경제 방면에서 황인우 씨는 송대 경제에 대한 분석에서' 수리' (즉 수량분석) 의 광범위한 응용을 발견했다 (아쉽게도 왕안석 변법이 시작돼 끝이 없다). 군대처럼요. 진실과 거짓에 관계없이,' 임표로부터 데이터 발굴을 배우라' 는 다리 뒤의 수량화 분석 사상은 의심할 여지 없이 현실의 기초가 있으며, 심지어 2000 여 년 전으로 거슬러 올라갈 수도 있다. 손빈은' 10 만개의 난로를 5 만개의 난로로 줄인 다음 3 만개의 난로로 줄인다' 는 데이터를 만들어 방범의 정량 분석 습관을 이용해 유인과 살상을 하고 있다.
1950 년대와 1960 년대에 테이프는 천공 카드 기계를 교체하여 데이터 저장 혁명을 일으켰습니다. 디스크 드라이브는 용량이 아니라 무작위로 읽고 쓰는 능력을 통해 데이터 작업자의 사고 방식을 단번에 해방시켜 데이터의 비선형 표현과 관리를 시작한다는 사실을 즉시 알게 되었습니다. 데이터베이스는 계층형 데이터베이스 (IBM 이 아폴로 달 착륙을 위해 설계한 것으로, 현재 CCB 는 여전히 사용 중), 메쉬 데이터베이스, 그리고 현재의 범용 관계형 데이터베이스에 이르기까지 생겨났다. (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마), 데이터베이스, 데이터베이스) 의사 결정 지원 시스템 (DSS) 은 데이터 관리에서 시작되어 1980 년대에 비즈니스 인텔리전스 (BI) 및 데이터 웨어하우스로 발전하여 데이터 분석을 위한 길을 열었습니다. 즉, 데이터에 의미를 부여합니다.
그 시대에, 데이터 관리 및 분석의 가장 강력한 응용은 업무였다. 첫 번째 데이터 웨어하우스는 프록터 앤 갬블을 위해 만들어졌으며, 첫 번째 1 조 바이트의 데이터 웨어하우스는 월마트에 있습니다. 월마트의 전형적인 응용은 두 가지입니다. 하나는 retaillink 기반 공급망 최적화로, 공급자와 데이터를 공유하고, 제품 설계, 생산, 가격 책정, 배송, 마케팅의 전 과정을 안내하며, 공급자는 재고를 최적화하고 적시에 보충할 수 있습니다. 두 번째는 장바구니 분석입니다. 즉, 흔히 말하는 맥주와 기저귀입니다. 맥주와 기저귀에 관한 거의 모든 마케팅 서적들이 설득력이 있다. 내가 너에게 말하는데, Teradata 의 한 사장이 지어낸 것이다. 인류 역사상 한번도 본 적이 없다. 하지만 시장을 먼저 교육하고 수확을 하는 것은 긍정적이다.
월마트 다음으로 고객 관계 관리 (CRM) 에 집중하고, 고객 집단을 세분화하고, 그들의 행동과 의도를 분석하고, 정밀 마케팅을 한다.
이 모든 것은 1990 년대에 일어났습니다. 2000 년대에 과학 연구는 천문 관측과 입자 충돌과 같은 대량의 데이터를 생산했다. 네 번째 패러다임은 데이터베이스 마스터 짐 그레이가 제시한 것으로, 데이터 방법론의 개선이다. 처음 세 가지 패러다임은 실험 (갈릴레오가 사탑에서 떨어뜨린 것), 이론 (뉴턴은 한 사과에서 영감을 받아 물리학의 고전 법칙을 형성했다), 시뮬레이션 (입자 가속이 너무 비싸고 핵 실험이 너무 더러워서 계산으로 대체됨) 이다. 네 번째 패러다임은 데이터 탐구입니다. 사실 이것은 결코 신선하지 않다. 케플러는 이전 행성 위치의 관측 데이터에 따라 타원 궤도를 맞추는데, 이것이 바로 데이터법이다. 하지만 90 년대에는 과학 연구 데이터가 너무 많아 데이터 탐구가 두드러진 연구가 되었다. 오늘날의 학과에는 쌍둥이 형제 한 쌍이 있어 XX 와 XX 정보학을 계산한다. 전자는 아날로그/컴퓨팅 패러다임이고, 후자는 전산 생물학 및 생물 정보학과 같은 데이터 패러다임입니다. 때때로 계산 XX 에는 계산 사회학, 계산 광고학과 같은 데이터 패러다임이 포함됩니다.
2008 년 크리스 앤더슨 (롱테일 이론의 저자) 은' 연결' 잡지에 문장' 이론의 끝' 을 한 편 써서 큰 파문을 일으켰다. 그의 주된 견해는 데이터가 있으면 모델이 필요하지 않거나 해석할 수 있는 모델을 얻기가 어렵기 때문에 모델이 대표하는 이론은 의미가 없다는 것이다. 데이터, 모델, 이론에 대해 말씀드리겠습니다. 먼저 대략적인 그림을 살펴 보겠습니다.
첫째, 우리는 객관적인 세계를 관찰할 때 세 지점에서 데이터를 수집한다. 이러한 데이터를 바탕으로 객관적인 세계에 대한 이론적 가정을 가질 수 있으며 삼각형과 같은 단순화된 모델로 표현할 수 있습니다. 사변형, 오각형과 같은 더 많은 모델을 가질 수 있습니다. 관찰이 깊어짐에 따라 두 점을 더 채집했다. 이때 삼각형과 사변형의 모델이 모두 틀렸다는 것을 알게 되자, 모델이 오각형이라는 것을 확인했는데, 이 모델은 그 오각형에 반영된 세계를 반영했지만, 진정한 시간이 둥글다는 것을 알지 못했다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 계절명언)
빅 데이터 시대의 문제는 데이터가 많고 복잡하여 더 이상 간단하고 명확한 모델로 표현할 수 없다는 것이다. 이런 식으로 데이터 자체가 모델이 됩니다. 엄밀히 말하면, 데이터와 응용수학, 특히 통계학은 이미 이론을 대체했다. 앤더슨은 구글 번역을 예로 들었다. 통합 통계 모델은 다양한 언어의 이론/모델 (예: 구문) 을 대체합니다. 영어에서 프랑스어로 번역할 수 있다면 스웨덴어에서 중국어로 번역할 수 있습니다. 어료 자료만 있으면 됩니다. 구글은 심지어 Clayton(StarTrek 이 컴파일된 언어) 을 번역할 수도 있다. 앤더슨은 인과성이 아닌 관련성을 제기했고, 훈버그 (이하 라오스) 는 단지 사람의 지혜를 주웠을 뿐이다.
물론 과학계는 이론의 종말에 동의하지 않는다. 과학자의 직감, 인과성, 해석성은 여전히 인류가 돌파하는 중요한 요인이라고 생각한다. 데이터가 있으면 기계는 현재 지식판에 숨겨진 미지의 부분을 발견할 수 있다. 모델이 없으면 지식지도의 상한선은 기계의 선형 성장의 컴퓨팅 능력으로 새로운 공간으로 확장할 수 없다. 인류 역사상 모든 지식 영토의 비약적인 확장은 천재들과 그들의 이론이 먼저 부는 나팔이다.
20 10 정도, 빅데이터 물결이 일면서 이 논쟁들은 곧 물에 잠겼다. 구글 Trends 를 보면,' 빅데이터' 라는 단어가 바로 뛰어올랐다. 작은 나팔수가 몇 명 있는데, 하나는 IDC 입니다. 매년 EMC 에 digitaluniverse 보고서를 보내 Zebyte 범주로 올라갑니다. (개념을 하나 드리겠습니다. 이제 하드 드라이브는 TB, 1000 =/Kloc-0 입니다. 하나는' 빅 데이터: 혁신, 경쟁, 생산성의 다음 개척' 을 출판한 맥킨지입니다. 하나는' 경제학자' 이고, 중요한 작가 중 하나는 케네스로, 그는 라오스와 함께 빅 데이터 시대에 있다. 쿡예 다른 하나는 Gartner 입니다. 3V 를 발명했습니다. 사실, 이 3V 는 200 1 편집이지만, 큰 데이터의 맥락에서 새로운 해석이 있습니다.
우리나라에서도 황총, 역시 20 1 1 정도에 큰 데이터에 대한 관심을 호소하기 시작했다.
20 12 Zipei 의' 빅 데이터' 라는 책은 교육 정부 관리들에게 큰 기여를 했다. 라오스와 쿡예의' 빅 데이터 시대' 는 세 가지 주요 사상을 제시했고, 지금은 규황으로 추앙받고 있지만, 그것들을 전 세계에 널리 퍼져 있는 진리로 여기지 마라. (윌리엄 셰익스피어, 햄릿, 지혜명언)
예를 들어 전체 데이터 세트를 샘플링하지 마십시오. 사실로부터 진리를 찾는 말, 1. 완전한 데이터 세트가 없으면 데이터는 고립 된 섬입니다. 전집은 너무 비싸요. 큰 데이터 정보 밀도가 낮기 때문에 빈광으로 입출률이 반드시 좋은 것은 아니다. 3. 샘플링은 거시적 분석에서 여전히 유용하며 갤럽은 5,000 개의 샘플로 백만 건의 조사를 물리치는 것은 여전히 현실적인 의미를 지닙니다. 샘플링은 무작위성과 대표성을 가져야합니다. 기차의 농민공과의 인터뷰에서 그들이 모두 표를 샀다는 결론을 내렸는데, 이것은 좋은 표본이 아니다. 지금은 고어 샘플링 조사만 하는 것이 좋지 않다. (휴대전화는 대머리다), 외국 트위터 샘플링을 근거로 한 것도 완전히 대표적이지 않다 (노인 제외). 5. 샘플링의 단점은 몇% 의 편차가 있고 심지어 검은 백조의 신호도 손실된다는 것이다. 따라서 전체 데이터 세트가 존재하고 분석할 수 있다는 전제하에 전체가 선호됩니다. 총량 > 좋은 샘플링 >; 품질이 고르지 않다.
게다가 잡합은 정확하기 때문이다. 잡동사니 (이런 객관적 현상) 를 껴안는 것은 좋은 태도이지만, 잡동사니를 좋아하는 것은 아니다. 데이터 정리는 이전보다 더 중요하다. 만약 데이터가 인식성과 유효성을 잃는다면 버려야 한다. 라오스는 구글의 결론을 인용해 소수의 고품질 데이터+복잡한 알고리즘이 대량의 저품질 데이터+간단한 알고리즘에 의해 패배해 이런 사고를 증명한다고 밝혔다. 피터의 연구는 인터넷 텍스트 분석이다, 이것은 사실이다. 그러나 구글의 심도 있는 학습은 이것이 완전히 정확하지 않다는 것을 증명했다. 정보 차원이 풍부한 음성 및 사진 데이터의 경우 대량의 데이터와 복잡한 모델이 필요합니다.
마지막으로 인과성이 아니라 연관성이 있어야 한다. 대량의 작은 결정에 있어서, 연관성은 아마존의 개인화된 추천과 같이 유용하다. 소량의 중대한 결정에 대해 인과관계는 여전히 중요하다. 중의와 마찬가지로 관련 단계에만 이르렀지만 설명도 없고, 어떤 나무껍질과 벌레 껍데기가 치유의 원인이라고 단정할 수도 없다. 서양 의학의 관련성을 발견한 후 무작위 통제 실험을 해' 치유과' 로 이어질 수 있는 모든 간섭 요인을 배제하고 인과관계와 해석성을 얻어야 한다. 비즈니스 의사 결정도 마찬가지입니다. 상관관계는 시작일 뿐이다. 그것은 머리를 두드리는 가설과 직감을 대체했고, 인과관계를 검증하는 과정은 여전히 중요하다.
큰 데이터의 일부 분석 결과를 상관관계에서 실현하는 것도 윤리적 필요이며, 동기는 행동을 나타내지 않는다. 예측 분석도 마찬가지다. 그렇지 않으면 경찰은 사람이 범죄를 저지를 것이라고 예측하고, 보험회사는 사람이 병이 날 것이고, 사회는 매우 번거로울 것이라고 예측했다. 빅 데이터 알고리즘은 우리의 삶에 큰 영향을 미치며 때로는 매우 슬프다. 알고리즘은 빌리지 않으면 돈을 받을 수 있다고 생각한다. 구글이 알고리즘을 조정할 때마다 많은 온라인 업무가 순위가 뒤처져 영향을 받는다.
시간이 얼마 남지 않았다. 나는 가치 차원에 관한 것을 붙일 것이다. 빅데이터의 사상에서 중요한 점은 의사결정의 지능 외에도 데이터 자체의 가치가 있다는 것이다. 이 점은 나는 군더더기를 하지 않겠다. 마윈 한 마디를 인용하자면, "정보의 출발점은 내가 다른 사람보다 똑똑하다고 생각하는 것이고, 데이터의 출발점은 다른 사람이 나보다 똑똑하다는 것이다. 정보는 당신이 데이터를 편집한 후 다른 사람에게 주는 것이고, 데이터는 당신이 수집한 후에 당신보다 똑똑한 사람에게 주는 것이다. (알버트 아인슈타인, 지식명언). " 빅 데이터는 무엇을 할 수 있습니까? 값 v 는 다른 3V 및 시공간 사분면에 어떻게 매핑됩니까? 저는 그림을 그렸습니다.
설명을 붙였다. 볼륨 공간 차원의 "마이크로" 와 "지식" 입니다. 작은 데이터는 미묘하고 개인적이다. 나는' 일대종사' 에서' 나 자신을 본다' 라고 묘사했다. 빅데이터는 자연과 집단의 특징과 추세를 이해하고 반영한다. 나는 그것을' 세상 물정을 보고 중생을 만나다' 에 비유한다. "자" 는 "마이크로" (예: 군중을 통으로 나누는 것), "마이크로" (예: 같은 부류의 사람들의 취향을 개인에게 추천하는 것) 를 촉진한다. "마이크로" 와 "서" 도 시간 차원을 반영합니다. 개인의 가치는 처음에 쇠퇴할 때 가장 크며, 결국 시간이 지남에 따라 집단적 가치로 퇴화한다.
속도의 시간 차원에서 [현재] 및 [모두 지우기] 입니다. 시간의 원점에서, 현재는 빛의 플래시 사이의 실시간 지혜이다. 과거 (음의 축) 와 미래 예측 (양의 축) 을 결합하면 우리는 영원한 지혜를 얻을 수 있다는 것을 이해할 수 있다. 서유기에서 진위미원숭이 왕에 대한 묘사는' 천지지변' 과' 천지지지 전후' 로 딱 들어맞는다. 보편적 지식을 실현하기 위해서는 전반적인 분석, 규정 분석 및 폐기 분석이 필요합니다 (설정 미래를 위해 어떤 조치가 필요합니까).
변형 공간 차원의 "오류 차별화" 와 "의미 이해" 입니다. 대량의 다중 소스 이기종 데이터를 기반으로, 우리는 소음을 선별하고 필터링하고, 누락을 조사하고, 위선을 없앨 수 있다. 이해는 더 높은 수준에 도달하고 구조화되지 않은 데이터에서 의미를 추출하여 기계가 사람의 사상 경지를 엿볼 수 있게 하여 구조화 데이터 분석이 과거에 달성할 수 없었던 높이에 이르렀다.
먼저 그것을 보아라, 거시현상의 법칙에 대한 연구는 이미 있었다. 빅 데이터에 대한 지식에는 두 가지 새로운 특징이 있다. 하나는 샘플링에서 총량까지 입니다. 예를 들어, CCTV 설문 조사 "당신은 행복합니까? 클릭합니다 작년은 거리 샘플이었습니다. 얼마 전 중국 경제생활조사 행복도시 순위에 대한 결론은 654.38+ 만부 설문조사 (654.38+07) 를 근거로 한 것이다. 청화행동과 빅데이터 연구실이 만든 행복지수 (웅정, 나, 우리 그룹의 많은 친구들의 참여) 는 시나닷컴웨이보 데이터 전집 (왕께 감사드립니다) 을 기반으로 합니다. 이 수치들은 사람들의 자연스러운 표현 (설문지에 대한 수동적인 대답이 아님) 으로 문맥이 있어 더욱 사실적이고 해석력이 있다. 공기, 집값, 교육으로 북상이 행복하지 않나요? 웨이보에서 더 쉽게 퍼지는 긍정적인 감정인지 부정적인 감정인지 데이터는 답을 알려준다. "중국 경제생활조사" 는 "우리는 심지어 가장 작은 목소리까지 들을 수 있다" 고 말하는 것은 과장된 말이다. 샘플링 및 기존 통계 분석 방법은 데이터 분포를 위해 몇 가지 단순화된 모델을 사용하며 예외 및 긴 꼬리를 무시합니다. 총분석은 검은 백조를 보고 긴 꼬리 소리를 들을 수 있다.
또 다른 특징은 정성에서 정량으로 하는 것이다. 전산 사회학은 사회학에서의 정량 분석의 응용이다. 수학자와 물리학자들이 경제학자와 자유주의자가 되었고, 이제는 사회학자가 되기로 선택할 수 있게 되었다. 캐세이 패시픽 준안 3I 지수도 그 예이다. 수십만 명의 사용자 데이터를 바탕으로 주로 투자 활동도와 투자 수익 수준을 반영하고 전체 투자 경기도를 추정하는 양적 모델을 수립합니다.
미시를 다시 보면, 큰 데이터의 진정한 차별화 장점은 미시에 있다고 생각한다. 자연과학은 거시적이고, 구체적이고, 미시적이고, 추상적이며, 그렇게 큰 데이터는 중요하다. 우리는 사회 과학에 더 많은 관심을 기울이고 있습니다. 즉, 먼저 미시적이고 구체적이며 거시적으로 추상적입니다. 서소년은 거시경제학을 위선과학으로 여겼다. 시장이 개인적인 행동의 합계 인 경우에, 우리가 보는 것은 추상적인 그림 이다, 우리는 이해할 수 없다. 고객 세분화를 통해 점차 이해할 수 있는 현실적인 그림을 형성할 수 있지만, 모자이크이며, 차별화를 통해 개인을 포지셔닝함으로써 HD 화면을 형성할 수 있다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 자기관리명언) 우리 각자는 현재 소매업자의 통 (앞서 언급한 음악 구매가 이 개념을 발명한 것) 에서 가장 간단한 반영 배경 (예: 고소득과 저소득) 을 반영한 다음' 알뜰살뜰' 과' 마우스 오른쪽 버튼 그룹' (오른쪽 버튼 대비) 과 같은 행동과 생활방식을 반영하고 있다. 반대로, 우리 소비자들도 개인화된 존중을 받기를 원하고, noble 은 오늘의 noble 이 되기를 원한다.
고객을 이해하고 파악하는 것이 그 어느 때보다 중요합니다. 오바마는 조지 클루니가 요르단 강 서안의 40-49 세 여성의 남자 신이라는 것을 알고 있었기 때문에 큰 데이터를 얻었다. 사라 제시카 파커 ('욕망도시' 주인공) 는 동해안 동갑내기 여성의 우상이었다. 그는 또한 더 세분화해야 한다. 각 현의 각 연령마다 어떤 텔레비전을 보고 있는지, 흔들주 (오하이오) 1% 유권자의 일정 기간 투표 성향, Reddit 의 흔들림 유권자.
기업의 경우 제품 지향에서 고객 (구매자) 또는 사용자 지향으로, 사용자 배경에 초점을 맞추는 것에서 사용자의 행동, 의도 및 의도에 초점을 맞추는 것으로, 거래에 초점을 맞추는 것에서 각 상호 작용 지점/접점에 초점을 맞추는 것으로 전환해야 합니다. 사용자가 어떤 경로에서 내 제품을 찾았는지, 그들이 이전에 무엇을 했는지, 구매 후 어떤 피드백이 있는지, 웹 페이지, QQ, 웨이보, 위챗 등을 통해 있는지를 결정한다.
이제 세 번째를 말씀드리겠습니다. 시간은 돈이고, 주식 투기는 빠른 물고기가 느린 물고기를 먹는 것이다. 무료 주식 거래 소프트웨어를 사용하면 몇 초 동안 지연되고 미국 거래량의 60 ~ 70% 를 차지하는 고주파 절차 거래로 1 센트까지 낮은 밀리초 거래 기회를 발견할 수 있다. 시간은 또 생명이다. 미국 국립해양대기관리국의 슈퍼컴퓨터가 일본 3 1 1 지진 이후 9 분 만에 쓰나미 경보를 발령한 것은 이미 늦었다. 시간이나 기회. 지금 소위 장바구니 분석이라고 하는 것은 실제 장바구니가 아니라 이미 결제한 작은 영수증입니다. 정말 가치 있는 것은 고객이 장바구니를 들고, 둘러보고, 입어보고, 상품을 고를 때, 그/그녀의 선택이 모든 접촉에 영향을 받는다는 것이다. 데이터의 가치는 반감기가 있고, 가장 신선할 때는 개인화된 가치가 가장 크며, 점차 집단적 가치로만 퇴화한다. 현재의 지혜는 배를 새기고 검을 구하는 것부터 시기가 무르익었다는 것을 아는 것이다. 원래 10 년의 인구조사는 배를 새기고 검을 구하는 것이었는데, 지금의 바이두 이주 지도는 동관에 사고가 났을 때 드러났다. 물론, 지금의 것이 반드시 완전히 정확한 것은 아니다. 사실, 더 긴 데이터가 없다면 바이두의 이동도를 급하게 해석하는 것은 오해에 빠질 수 있다.
네 번째는 안전합니다. 시간이 제한되어 있으니 간단히 말해 보세요. 즉, 우리는 동풍이 predictiveanalytics 라는 것을 알고 있으며, 화살 대상을 정하고 초선을 빌려주는 처방을 내리는 것이 prescriptiveanalytics 라는 것을 알고 있다. (알버트 아인슈타인, Northern Exposure (미국 TV 드라마), 스포츠명언) 우리는 대응 능력을 향상시키고, 손실률을 낮추고, 신규 고객을 유치하기 위해 처방 분석이 필요하다.
오류 식별은 다중 소스 데이터를 사용하여 소음을 필터링하고, 누락을 조사하고, 거짓을 제거하고, 진실을 보존하는 것이다. 한 가지 예는 20 여개 성의 GDP 합계가 전국 GDP 를 초과한다는 것이다. 우리의 GPS 는 수십 미터의 오차가 있지만 지도 데이터와 결합하면 매우 정확할 수 있다. GPS 는 도시 고층 건물에 신호가 없어 관성 항법과 결합될 수 있다.
작은 I 는 큰 데이터 아래의 기계 지능과 관련이 있는데, 이것은 큰 문제이며 확장되지 않는다. 내 문장 한 토막을 붙이다: 어떤 사람들은' 소예' 분야에서 사람을 대체할 수 없다고 말한다. 이것은 전 빅 데이터 시대의 사실입니다. Moneyball 은 야구에 대한 정량 분석과 예측의 기여도를 말한다. 큰 데이터의 맥락에서 오해가 있습니다. 첫째, 큰 데이터가 아니라 기존 데이터 사고와 방법입니다. 둘째, 의도적으로 무심코 정찰병의 역할을 소홀히 했다. 독자의 관점에서 볼 때, 오클랜드 운동가팀 사장인 빌리 비언은 정량분석으로 스카우트를 대신했다. 사실, 정량화 도구를 사용하는 동시에, 비은도 정찰 비용을 증가시켰다. 군공장 중 절반은 기계이고 반은 인간이다. 스카우트는 선수의 질적 지표 (예: 경쟁력, 스트레스 능력, 의지력 등) 를 측정하기 때문이다. ) 그것은 몇 가지 구조화 된 양적 지표로 설명 할 수 없습니다. 빅데이터는 이 모든 것을 바꾸었습니다. 무의식적으로 사람의 디지털 발자국을 기록하고, 기계 학습 (특히 심도 있는 학습) 이 사상을 이해하는 능력을 높이면 기계의 열세를 점차 바꿀 수 있다. 올해 우리는 큰 데이터를 기반으로 한 감정 분석, 가치 분석, 개인적 묘사를 보았다. 이러한 것들이 인적 자원에 적용될 때, 그들은 스카우트의 약속을 어느 정도 반영한다.