방법은 대략 다음과 같습니다.
검색 포털을 바로 가기로 사용
검색 포털에는 두 가지 유형이 있습니다. 하나는 검색 엔진 포털이고 다른 하나는 사이트 검색입니다.
여론 모니터링은 종종 하나의 주제와 방향으로 이루어지므로 모니터링되는 대상과 관련된 키워드를 쉽게 찾아 다양한 검색 포털에서 데이터를 수집할 수 있습니다.
물론, 너도 반표절 문제를 겪게 될 것이다. 예를 들어, 검색 엔진의 결과 페이지를 오랫동안 자주 캡처하면 사이트의 반표절 전략이 트리거되어 인증 코드를 입력하고 사람의 행동인지 확인하라는 요청을 받을 수 있습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 검색명언)
검색 포털을 지름길로 이용하는 것도 몇 가지 장점이 있다. 언덕을 오르는 문턱이 낮은 것 외에는 각종 사이트 정보를 직접 수집할 필요가 없다. 또 다른 분명한 장점은 검증성이 매우 좋다는 점이다. 프로그램 검색 결과가 수동 검색 결과와 일치하기 때문에 사람들이 얻은 데이터가 빗나갔는지 확인하기 어렵다는 것이다. (빌 게이츠, 컴퓨터명언)
파충류는 웹 포털에 따라 웹 사이트 콘텐츠를 트래버스합니다.
첫 번째 단계는 잡을 사이트입니다. 업무 시나리오에 따라 서로 다른 사이트 목록을 정리한다. 예를 들어, 주제에서는 핫 토픽만 모니터링하면 포털과 핫 사이트를 찾아 홈 페이지 추천, 문장 집계 등을 통해 어떤 것이 가장 더운지 쉽게 알 수 있습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 스포츠명언) 아이디어는 간단합니다. 사람들이 관심을 갖는 것은 인기입니다. 콘텐츠 사이트의 인기도를 판단하는 방법에 대해서는 피드백 메커니즘이 있을 수 있습니다. 하나는 편집 추천입니다. 하나는 사용자 행동 클릭 수집이고 피드백은 첫 페이지로 정리됩니다.
두 번째 단계는 파충류를 사용하여 데이터를 얻는 것입니다. 파충류가 어떻게 쓰는지는 매우 큰 화제인데, 여기서는 설명하지 않는다. 파충류는 문지방은 낮지만 상승 곡선은 매우 높은 기술이라는 점을 언급해야 한다. 어려움은 다음과 같습니다. 다양한 웹 사이트; 소매치기 방지 전략은 다르다. 데이터 수집 후 원하는 컨텐츠를 어떻게 추출합니까?
데이터 검색 및 요약
데이터 수집 후, 어떤 것이 당신의 관심사이고, 어떤 것이 쓰레기 소음이며, 당신은 이러한 문제를 해결하기 위해 몇 가지 NLP 처리 알고리즘을 사용해야 합니다. 이 방면의 문턱은 높고 난이도가 크다. 첫째, 대규모 데이터를 효과적으로 검색하고 사용하는 방법은 어려운 문제입니다. 예를 들어, 하루에 백만 개의 페이지 (실제 환경은 종종 이 수준보다 훨씬 높음) 를 포함하는 경우 수백 기가바이트의 데이터를 저장하고 검색하는 방법은 어려운 문제입니다. 다행스럽게도 업계에는 Solr 또는 es 를 사용한 저장 및 검색과 같은 검증된 방안이 있지만 데이터의 양이 증가함에 따라 여러 가지 문제가 발생할 수 있습니다.
보통 유행하는 판단 논리는 각종 사이트에 전재된 보도이기 때문에 NLP 로 유사성을 계산해야 한다. 업계에서 일반적으로 사용되는 방법은 Simhash 또는 코사인 유사 각도를 계산하는 것입니다. 일부 장면은 유사 문장 뿐만 아니라 모든 유사 문장 수렴도 필요하므로 LDA 알고리즘과 같은 클러스터 알고리즘이 필요합니다. 실제 경험으로 볼 때, 클러스터 알고리즘의 효과는 매우 다양하며, 텍스트 특징에 따라 테스트해야 한다.
현재 여론 모니터링에는 개선이 필요한 곳이 많다. 첫째, 수동 모니터링에는 자연스러운 한계가 있습니다. 고정인원이 24 시간 당직을 서도록 배정하고, 목표 사이트를 계속 둘러보고, 목표 키워드를 검색하며, 자동화 시스템이 누락된 경우 가장 직접적이고 초보적인 여론 모니터링 방식이다. 모든 사람의 주관적 사고의 제한으로 인해 수동 감시에는 항상 맹점이 있고, 항상 중요하지는 않지만 나중에 증명되는 심각한 부분이 있으며, 수동 감시는 일부 사이트나 원격 웹 페이지의 변화를 감지할 수 없습니다. 동시에, 사람은 기계가 아니며, 장기간의 반복적인 감시는 피로로 이어지기 쉬우며, 종종 자칫하면 판단한 여론이 누락될 수 있다. 이것들은 실시간성과 정확성에 큰 변동이 있을 것이다.
두 번째는 검색 엔진에 지나치게 의존하는 것이다. 검색 엔진만이 인터넷 여론의 바다에서 바늘을 찾을 수 있다고 생각하는 경우가 많다. 그러나 검색 엔진에는 여전히 많은 제한이 있습니다. 검색 결과가 키워드의 영향을 많이 받는 것 외에도 검색 엔진에서 반환된 결과는 액세스 제한이 없는 사이트에서 오는 경우가 많으며 포럼 등 로그인이 필요한 사이트는 완전히 제외됩니다. 하지만 누리꾼들이 의견을 가장 많이 표현한 곳은 바로 상호 작용 기능을 제공하는 사이트들이다. 또한 검색 엔진의 웹 크롤러는 일정 기간 지연되어 최신 웹 업데이트를 실시간으로 검색할 수 없습니다. 따라서 검색 엔진은 키워드에만 초점을 맞추고, 문제에 초점을 맞추지 않기 때문에 문제의 전모를 우리에게 제공할 수 없다. (윌리엄 셰익스피어, 검색어, 검색어, 검색어, 검색어, 검색어, 검색어, 검색어) 검색 엔진은 컨텐츠 업데이트가 빠르지 않을 뿐만 아니라 적시에 서비스를 제공할 수 없기 때문에 원하는 결과를 즉시 얻을 수 없습니다. 검색 엔진은 하나의 방대한 웹 페이지에서만 또 다른 대량의 결과를 반환할 수 있으며, 혼란스러운 형식이다. 그것은 우리가 염려하는 것에 대해 아무것도 모르기 때문에, 그것이 주는 결과는 모두가 관심을 가지고 있는 것이지, 내가 관심을 가지고 있는 것이 아니기 때문에 정확하지 않다. 우리는 인터넷 여론을 감시하기 위해 검색 엔진에 전적으로 의존해서는 안 되며, 인터넷 여론을 배우고 추적 분석을 할 수 있는 새로운 기술적 수단을 제시해야 한다는 것을 알 수 있다.
따라서 여론모니터링의 실시간성, 포괄성, 정확성을 보장하기 위해 가장 신뢰할 수 있는 방법은 도예객 여론 데이터 분석소 시스템의 자동화된 여론 모니터링 시스템을 사용하고, 소프트웨어 시스템에 의존하여 인공방식의 부족을 없애고, 소프트웨어 시스템에 의존하여 목표 사이트와 전체 네트워크를 감시하며, 각종 여론 주제의 발전 궤적을 추적하고, 일간지/주간지를 자동으로 정리하여 민의와 정부의 일상적인 업무 및 업무 유기농을 융합시키는 것이다.
입소문 모니터링, 그럼 시중에 나와 있는 모니터링 제품은 기본적으로 유료입니다. 내가 아는 한, 집행유예의 역할도 매우 제한적이다. 여론 모니터링 제품을 도입하여 월' 다예객 여론 데이터 분석소 시스템' 을 지불하다. 수습기간만 개방했기 때문에 일부 기능은 나에게 개방되지 않은 것 같다. 1 주일의 시용 기간을 거쳐 전반적으로 괜찮은 것 같아요. 화장품 산업이기 때문에 웨이보에 너무 많이 들어있어요. 진실량에 대해 여전히 만족하고 있어요. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 남녀명언) 사용자 초상화와 데이터 보고서에는 기본적으로 데이터가 있습니다. 특히 데이터 보고서 차트는 매우 풍부해서 계속 사용되고 있습니다.
시중에 나와 있는 시스템, 탱크, 인민망 등이 더 잘하는데 가격이 너무 비싸서 피를 토합니다.