파충류:
웹 크롤러 (Web crawler, web spider 라고도 함, web robot, FOAF 커뮤니티에서는 web chaser 라고도 함) 는 특정 규칙에 따라 월드 와이드 웹의 정보를 자동으로 수집하는 프로그램 또는 스크립트입니다. 기타 자주 사용하지 않는 이름은 개미, 자동 색인, 시뮬레이터 또는 웜입니다.
(권장 튜토리얼: 파이썬 입문 튜토리얼)
일반적으로 프로그램을 통해 웹 페이지에서 원하는 데이터를 얻습니다. 즉, 자동으로 데이터를 캡처합니다.
파이썬 파충류는 무엇을 할 수 있습니까?
기술적으로 프로그램을 통해 브라우저 요청 사이트의 동작을 시뮬레이션하고 사이트에서 반환된 HTML 코드 /JSON 데이터/바이너리 데이터 (그림 및 비디오) 를 로컬로 크롤링한 다음 필요한 데이터를 추출하여 저장합니다.
파충류를 사용하면 다음과 같은 감성적 인식에서 얻을 수 없는 정보를 얻을 수 있는 귀중한 데이터를 많이 얻을 수 있습니다.
알 수 있는 양질의 답안을 기어올라, 각 화제 아래의 가장 좋은 내용을 선별해 드립니다. (조지 버나드 쇼, 자기관리명언)
타오바오와 JD.COM 의 상품, 리뷰 및 판매 데이터를 캡처하여 다양한 상품과 사용자의 소비 시나리오를 분석합니다.
부동산 판매 및 임대 정보를 포착하고, 집값 변화 추세를 분석하고, 다른 지역의 집값 분석을 하다.
각종 직위 정보를 수집하여 각 업종의 인재 수요와 임금 수준을 분석하다.
파충류의 본성:
파충류의 본질은 브라우저를 시뮬레이션하여 웹 페이지를 열고 웹 페이지에서 원하는 데이터를 얻는 것입니다.