I. 데이터 수집
오늘날 빅 데이터 시대가 도래함에 따라 기업은 사용자 행동 분석, 제품의 단점 분석, 경쟁사의 정보 분석 등의 데이터를 필요로 합니다. 이 모든 것이 데이터 수집입니다. 일반적으로 사용되는 데이터 수집 방법에는 데이터 웨어하우징 및 운영 로그, 모니터링 및 크롤링 (예: 파충류), 채우기, 매장 지점 및 계산이 있습니다.
1, 데이터 웨어하우스 및 운영 로그
데이터 웨어하우스는 컴퓨터에 장기간 저장되는 조직적인 공유 데이터 세트이며 의사 결정 지원 시스템에 기본 데이터를 제공하는 분석 데이터베이스입니다.
데이터 웨어하우스에는 다음과 같은 몇 가지 정의 특성이 있습니다.
권장 읽기: 1. 데이터웨어 하우스-건축 예술-블로그 가든
로그는 데이터 웨어하우스와 같은 역할을 하지만, 로깅은 데이터 웨어하우스보다 간결하고 장애 발생 시 문제를 쉽게 찾을 수 있습니다.
2. 모니터링 및 크롤링
파충류는 브라우저 인터넷을 시뮬레이션한 다음 인터넷에서 데이터를 캡처하도록 프로그램을 작성하는 과정입니다.
사용 장면에 따라 웹 파충류는 범용 파충류와 테마 파충류로 나눌 수 있습니다.
범용 파충류는 검색 엔진 (바이두, 구글 등) 검색 시스템의 중요한 구성 요소이다. ). 주요 목적은 인터넷상의 웹 페이지를 로컬로 다운로드하여 인터넷 콘텐츠의 이미지 백업을 형성하는 것입니다. 간단히 말해서, 가능한 한 많이; 인터넷에서 모든 웹 페이지를 다운로드하고 로컬 서버에 배치하여 백업 지점을 만든 다음 해당 웹 페이지를 관련 처리 (키워드 추출, 광고 제거) 하고 마지막으로 사용자 검색 인터페이스를 제공합니다.
초점 파충류는 "특정 주제 요구 사항" 을 위한 웹 크롤러 프로그램입니다. 일반 검색 엔진 파충류와는 달리 초점 파충류는 웹 페이지를 잡을 때 콘텐츠를 처리하고 필터링하여 요구 사항과 관련된 페이지만 캡처할 수 있도록 합니다.
추천 읽기: 파충류 (파충류 원리 및 데이터 캡처) -lclc- 블로그 정원
파충류 -Z-J-H- 블로그 정원
3. 매립지
둘 다 사용자 행동의 기록입니다.
작성은 사용자가 등록할 때 정보를 채우거나 관련 설문지를 작성하는 것을 말합니다. 설문 조사 및 샘플링 조사를 통해 얻은 데이터는 제한적이며 때로는 신뢰성을 보장하지 못할 수도 있습니다.
매몰 지점은 주로 app 또는 웹 페이지의 매몰 지점으로 APP 또는 웹 페이지의 사용을 추적하여 최적화합니다. 일반적으로 방문자, 페이지 조회수, 점프율 등의 페이지 통계 및 작동 동작을 기록합니다. ). 인터넷 제품과의 상호 작용 과정을 직접 기록하여 거의 재현할 수 있어 사용자의 행동 패턴, 구매 기록, 검색 습관 등을 얻을 수 있다. 이러한 데이터는 사용자가 직접 생성하여 데이터의 신뢰성을 보장합니다.
추천 읽기: 6 단계: 데이터를 신속하게 묻는 방법을 배웁니다.
계산
많은 데이터는 직접 얻을 수 없으며 기존 데이터에서 추정해야 합니다. 예를 들어, 기업의 입/출력 비율.
마지막으로, 데이터 분석에 사용되는 데이터는 진실하고 정확하며 시기적절해야 한다는 점을 강조해야 합니다. 데이터를 얻은 후 개인 정보를 사용할 때 다음 다섯 가지 원칙을 준수해야 합니다.
(1) 법적 공개 원칙.
(2) 목적 제한 원칙.
(3) 최소 데이터 원칙.
(4) 데이터 보안 원칙.
(5) 한정 저장 원칙.
다음 문장 에서는 데이터 분석에서 데이터 사전 처리를 간단하게 정리할 것입니다.