IDC 보고서에 따르면 향후 몇 년간 전 세계 빅 데이터 기술 및 서비스 시장은 연간 복합 성장률 365,438+0.7%, 2065,438+06 년 총 시장 규모는 238 억 달러에 이를 것으로 예상됩니다. 이에 따라 빅 데이터 시장의 성장률은 같은 기간 전체 정보 통신 기술 분야의 7 배에 이를 것으로 전망된다. 이 시장은 각종 기존 시장과 새 시장의 기술과 서비스를 빠르게 흡수하고 있다. 현재 IBM, Microsoft, Oracle, HP, EMC 등 일부 IT 업계 선두 업체들은 이 분야에 대해 낙관적이며 인력, 재력을 투입하고 있습니다.
IDC 에 따르면 지난 5 년 동안 인간 행동으로 인한 데이터의 양은 10 배로 증가했으며 향후 10 년 동안 29 배에 이를 것으로 전망된다. 그러나 데이터의 80% 는 구조화되지 않은 데이터이며, 데이터 마이닝 및 활용 방법은 큰 데이터의 가치와 어려움이 될 것입니다.
중국 컴퓨터대회 운영위원회 의장, 베이징대 교수인 고문 교수는 최근 본지와 인터뷰에서 빅 데이터가 업계의 광범위한 관심을 받을 뿐만 아니라 기술 분야의 이슈이기도 하다고 밝혔다. (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마), 컴퓨터명언) 기술적 관점에서 볼 때, 데이터 마이닝은 큰 데이터의 가치이지만, 데이터 마이닝은 여전히 많은 문제가 있으며, 우리의 기대와는 거리가 멀다. 그는 알리바바가 데이터 발굴 방면에서 시도했고, 알리 금융 물류는 이미 전기상들의 대량 거래 데이터에서 파생되었지만, 이는 상업 분야의 가치일 뿐 사회 변화에서 에너지를 방출하지 않았다고 밝혔다. 앞으로 큰 데이터는 사회에 더 많은 변화를 가져올 것입니다.
빅 데이터의 가치도 업계와 학계에서 광범위하게 논의되고 있다. 최근 몇 년 동안, 큰 데이터는 모든 업종에 끊임없이 침투하여 각 분야에 혁명적인 영향을 미치고 있으며, 각 업종의 혁신의 원동력이자 엔진이 되고 있다. 이 기간 동안 인터넷 소셜 기술이 발달하고 혁신함에 따라 사람들은 웨이보, 위챗, 블로그, 포럼 등 소셜 플랫폼을 통해 다양한 정보와 데이터를 공유하고 호소를 표현하고 조언하는 데 점점 더 익숙해졌습니다. 매일 이러한 플랫폼에 전파되는 데이터의 양은 수백 억, 심지어 수천억에 이른다. 이러한 방대한 사회 데이터는 큰 데이터의 중요한 구성 요소로, 정부가 여론의 동향을 수집하고, 기업이 제품 입소문을 이해하고, 회사 개발 시장 수요 등에 중요한 역할을 한다.
오늘날 인터넷은 이미 민의를 수집하고 정부와 기업의 업무 효과를 이해하는 매우 효과적인 방법이 되었지만. 하지만 필요한 인터넷 게시 규제 조치가 부족해 민정 위기 발생 후 심도 있고 고품질의 인터넷 여론 정보를 적시에 효과적으로 얻기가 어려워 민정 위기 사건 처리에 수동적인 경우가 많다. 따라서 인터넷 여론 대응을 중시하고' 모니터링, 대응, 요약, 아카이빙' 의 여론 대응 체계를 구축하는 것이 빅 데이터 시대 정무의 중요한 내용 중 하나가 되었다.
이러한 맥락에서, 대규모 데이터 시대의 여론 모니터링과 서비스에 적응하기 위해 여론 모니터링과 분석 산업이 생겨났다. 주로 대량 정보 수집, 지능형 의미 분석, 자연어 처리, 데이터 마이닝, 기계 학습 등의 기술을 통해 웹 사이트, 포럼, 블로그, 블로그, 웨이보, 인쇄 미디어, 위챗 등의 정보를 지속적으로 모니터링하고, 모든 종류의 정보와 네트워크 역학을 적시에 포괄적이며 정확하게 파악하고, 광대한 데이터 우주에서 사건의 징후를 탐구하고 있습니다.
여론 모니터링에서 빅 데이터의 적용 가치
(a) 빅 데이터 가치의 핵심: 여론 예측
전통적인 인터넷 여론 지도의 출발점은 이미 발생한 인터넷 여론을 감시하는 것이다. 그러나 이 방법의 한계는 그것의 지연성에 있다. 빅 데이터 기술의 응용은 인터넷 여론 관련 데이터의 발굴 분석으로, 모니터링의 목표 시간을 인터넷 민감한 뉴스 전파의 초기 단계로 앞당기고, 설정된 모델을 통해 실제 인터넷 여론의 진화 과정을 시뮬레이션하여 인터넷 돌발 여론의 예측을 실현하는 것이다.
(2) 빅 데이터가 가치를 발휘하는 조건: 포괄적 인 여론
빅데이터 기술 예측 여론의 첫 번째 조건은 각종 관련 종합 데이터를 분석하고 계산하는 것이다. 전통적인 데이터 시대에는 네티즌의 관점이나 여론 추세를 분석할 때 네티즌의 태도와 감정에만 초점을 맞추고 네티즌의 심리적 변화를 무시했다. 문자 정보에만 집중하고 사진, 비디오, 음성 등에 대한 관심은 적습니다. 국부적인 여론의 변화만 관찰하고, 다른 집단의 여론의 변화는 무시한다. 네티즌의 글만 해석하지만 복잡하고 변화무쌍한 사회관계망은 간과하고 있다. 여론 분석의 관점에서 볼 때, 누리꾼은 정보해양의' 외로운 좀비' 에 지나지 않는다. 마치 개미떼가 높은 지능을 뿜어낼 수 있는 것처럼, 개미는 샤브샤브처럼 뛰어다닌다.
빅 데이터 시대, 전통적인 데이터 시대의 일방적, 단일적, 정적인 사고를 돌파하고 인터넷 여론 데이터에 대한 입체적, 글로벌, 동적 연구를 시작하여 중요하지 않은 여론 데이터를 분석 계산의 범위에 포함시키기 시작했다.
(c) 빅 데이터 가치의 기초: 여론 정량화
빅 데이터 예측 여론의 가치의 실현은 수학적 모델을 사용하여 발굴된 대량의 정보를 과학적으로 계산하고 분석하는 데 기초해야 한다. 단, 각종 관련 데이터의 수량화, 즉 모든 여론 정보를 수량화할 수 있다는 전제하에 해야 한다. 그러나 데이터 정량화는 단순한 디지털화가 아니라 데이터의 계산 가능성입니다. 네티즌의 논평을 지켜보면서 이 의견을 고수하는 사람들의 수를 집계해야 한다. 네티즌의 발언 내용을 해석하는 동시에 네티즌이 상호 작용하는 소셜네트워크의 수를 집계한다. 누리꾼 감정의 변화는 양적 지표로 식별할 수 있다.
(d) 빅 데이터 가치의 열쇠: 여론 상관 관계
데이터 뒤에는 네트워크가 있고, 네트워크 뒤에는 사람이 있다. 인터넷 데이터를 연구하는 것은 사실 연구원으로 구성된 소셜 네트워크이다. 빅 데이터 기술은 여론의 가치 실현을 예측하는 핵심 기술은 여론 간의 관계를 연관시키는 것입니다. 이는 전통적인 인과 관계뿐만 아니라 데이터 간의 관련성에도 초점을 맞출 것입니다. 빅 데이터 사고에 따르면, 각 데이터는 다른 관련 데이터와 함께 여론 체인에 곱셈 효과를 무한히 형성 할 수있는 노드입니다. 마이크로 블로깅 핵분열 전파 경로와 마찬가지로, 데이터의 핵분열 관련 상태는 무한한 가능성을 포함합니다.
빅 데이터 시대의 여론 모니터링 병목 현상
현재, 여론 모니터링 작업의 주요 수단은 여전히 수동 검색이다. 시장에서 비교적 성숙한 검색 소프트웨어를 사용하여 보조 검색을 수행하지만, 여전히 전통적인 2 차원 검색 방법, 즉 주제 키워드와 인터넷 플랫폼의 2 차원 좌표를 이용하여 여론 검색을 하고, 여론 직원들이 수집한 정보를 여론 제품으로 가공한다. 그러나, 여론 정보의 결과는 대부분 일등급 텍스트 정보이다. 뉴스, 웨이보 후평, 네티즌의 사회관계, 한 사건에 대한 네티즌의 논평에 반영된 정서적 변화, 네티즌의 선동성과 행동적 발언, 암시 등 심층적인 다단계 여론정보에 대해서는 심층 발굴을 할 수 없고, 여전히 인공수집, 분석, 판단에 의존하고 있다. 여론 직원의 지식 수준과 가치 판단에 따라 가치 있는 여론 정보를 잃을 가능성이 높고, 여론의 추세를 정확하게 예측할 수 없고, 여론 모니터링 작업의 효율성과 정확성을 크게 떨어뜨리고, 가치 있는 여론 정보를 발견하는 우연성과 추측성을 증가시켜 중대한 돌발사건에 대한 여론 예측에 숨겨진 위험을 초래할 가능성이 높다.
빅 데이터를 배경으로 한 여론 모니터링 구현
빅 데이터 수집 및 처리는 여론 모니터링의 기본이다. 데이터 파악 능력을 익히고' 가공' 을 통해 데이터의' 부가가치' 를 실현하는 것은 여론 모니터링 분석에 필수적인 기술이다. Dorrico 여론 데이터 분석 스테이션 시스템이 개발한 고급 수집 기술로 인해 사용자는 다양한 텍스트 정보를 모니터링할 수 있을 뿐만 아니라, 시스템 수집을 구성하고 일부 주제에 대한 최신 응답 내용 (예: 조회수, 응답 수, 댓글, 응답 시간 등) 을 얻을 수 있습니다. 많은 웹 사이트는 구조가 복잡하거나 프레임 또는 JavaScript 를 사용하여 컨텐츠를 동적으로 작성하거나 Frame 기술을 사용하여 실시간으로 컨텐츠를 자동으로 새로 고치는 등 일반 파충류 기술이 어렵거나 처리할 수 없는 경우가 많습니다. 수집 및 모니터링되는 정보의 경우 시스템이 자동으로 분류되어 부정적인 여론, 관련, 내 관심, 주제 추적 등의 열로 분류되어 사용자가 주제로 바로 가서 필요한 정보를 빨리 찾을 수 있도록 합니다.
추세에 대한 연구는 빅 데이터 시대의 여론 모니터링의 목표이다. 이제 사람들은 방대한 양의 데이터에서 정보를 발굴하고, 추세를 판단하고, 효율성을 높일 수 있지만, 그것으로는 충분하지 않다. 정보가 폭발한 시대에는 관련 여론 정보에 대한 분석과 예측을 지속적으로 강화하고 단순한 효과적인 데이터 수집에서 여론에 대한 심도 있는 연구까지 모니터링에 중점을 둘 것을 요구했다. 도리코 여론 데이터 분석소 시스템은 모니터링된 부정적 정보를 전문적으로 중점적으로 추적하고, 중점 홈페이지에 대한 정기 스크린 캡처 모니터링 및 특집 페이지 증거 보존을 실시한다. 감시자는 시스템이 자동으로 인식하고 분류한 정보를 다시 선택하고 분류할 수 있으며, 업무 요구에 따라 분석 데이터 차트가 포함된 여론 일간지 및 주간지를 쉽게 내보낼 수 있어 여론 데이터 분석 및 통계 매핑의 복잡성을 줄일 수 있습니다. 일부 민감한 정보의 경우, SMS 와 메일을 통해 사용자에게 적시에 통지할 수 있어 사용자가 언제든지 원격으로 중요한 여론의 동태를 파악할 수 있습니다.
빅 데이터 시대는 데이터 폭발을 배경으로 한 데이터 처리 및 애플리케이션 요구 사항의 구현인 빅 수집, 빅 분석이 필요합니다. 기존의 수동 수집 및 수동 모니터링은 대규모 데이터 배경에서 데이터 요구 사항 및 응용 프로그램의 요구 사항을 충족하기가 분명히 어렵습니다. Doreco 여론 데이터 분석 스테이션 시스템은 인터넷 대량 여론에 대한 자동 실시간 모니터링, 자동 콘텐츠 분석, 자동 경보 등의 기능을 성공적으로 구현했습니다. 여론 모니터링의 전통적인 수동 구현 문제를 효과적으로 해결하고, 인터넷 여론의 규제 효율성을 가속화하고, 조직력이 정보 정리, 분석, 지도 및 대응에 도움을 주며, 인터넷 여론의 돌발 공공 사건에 대처하는 사용자의 능력을 향상시키고, 인터넷' 빅 데이터' 에 대한 분석 및 판단을 강화했다.