1. 파이썬의 기초를 배우고 기본적인 크롤링 과정을 실현하다.
데이터 수집 프로세스는 일반적으로 요청 전송, 페이지 피드백 얻기, 데이터 해결 및 저장이라는 세 가지 프로세스를 따릅니다. 이 프로세스는 실제로 수동 탐색 프로세스의 시뮬레이션입니다.
파이썬에는 urllib, requests, bs4, scrapy, pyspider 등 파충류와 관련된 가방이 많이 있습니다. 웹 사이트에 연결하여 요청에 따라 웹 페이지로 돌아가서 Xpath 로 웹 페이지를 구문 분석하여 데이터를 쉽게 추출할 수 있습니다.
2. 구조화되지 않은 데이터의 저장 이해
파충류가 기어오르는 데이터 구조는 비교적 복잡하기 때문에 전통적인 구조화 데이터베이스는 반드시 우리에게 적합하지 않을 수 있습니다. 사전 추천 MongoDB.
몇 가지 일반적인 파충류 기술을 습득하십시오.
에이전트 IP 풀, 캡처 패킷 및 확인 코드 OCR 처리를 통해 대부분의 웹 사이트의 반파충류 전략을 해결할 수 있습니다.
4. 분산 스토리지 이해
이 물건을 분산시키는 것은 무섭게 들릴지 모르지만, 실제로는 멀티 스레딩의 원리를 이용하여 여러 파충류가 동시에 작업할 수 있도록 하는 것입니다. 스크래피+Mongodb+Redis 라는 세 가지 도구를 익혀야 합니다.