기본 파충류: (1) 기본 라이브러리: urllib 모듈 /requests 제 3 자 모듈 먼저 파충류는 웹 페이지에서 필요한 정보를 캡처하기 때문에 웹 페이지를 캡처하는 urllib/requests 모듈을 배워야 합니다. 여기서, 너는 네가 사용한다고 생각하는 어떤 습관도 사용할 수 있다. 단지 능숙한 습관을 선택하기만 하면 된다. (존 F. 케네디, 습관명언) Requests 모듈을 사용하는 것이 좋습니다. 훨씬 간단하고 조작하고 이해하기 쉽기 때문에 requests 를' 인간화 모듈' 이라고 합니다. (2) 다중 프로세스, 다중 스레드, 공동 작업 프로세스, 분산 프로세스: 왜 네 가지 주요 지식을 배워야 합니까? 2 백만 개의 데이터를 캡처하려면 일반적인 단일 프로세스나 단일 스레드를 사용하여 해당 데이터를 캡처하고 다운로드하는 데 1 주일 이상 걸릴 수 있습니다. 이것이 당신이 보고 싶은 결과입니까? 분명히, 단일 프로세스 단일 스레드는 효율성에 대한 우리의 추구에 부합하지 않으며 시간 낭비입니다. 많은 프로세스와 멀티 스레딩을 설정하면 데이터 크롤링 속도가 10 배 이상 빨라질 수 있습니다. (3) 웹 페이지 확인 추출 라이브러리: xpath/BeautifulSoup4/ 정규식은 앞 (1) 과 (2) 를 통해 웹 소스 코드를 아래로 캡처합니다. 여기에 우리가 원하는 것이 아닌 많은 정보가 있기 때문에 우리는 쓸모없는 정보를 걸러내고 우리에게 가치 있는 정보를 남겨야 한다. 해석기에는 세 가지가 있는데, 각기 다른 장면에서 각각 특징과 결함이 있다. 일반적으로 융통성 있게 운용하는 법을 배우는 것이 비교적 편리할 것이다. 잘 모르거나 방금 파충류를 시작한 친구에게 추천합니다. BeautifulSoup4 를 배우기 쉽고, 실전에 빠르게 적용할 수 있으며, 기능도 매우 강하다. (4) 차단 방지: 홈페이지를 잡을 때 요청 헤드/프록시/쿠키가 실패하는 경우가 있다. 다른 사람의 사이트가 캡처 방지 조치를 설정했기 때문에, 이때 우리는 자신의 행동을 위장하여 상대 사이트가 우리가 파충류라는 것을 알아차리지 못하게 해야 한다. 요청 헤더 설정, 주로 브라우저의 동작을 시뮬레이션합니다. IP 가 봉인되면 프록시 서버로 해독해야 합니다. 쿠키는 로그인 동작으로 웹 사이트에 들어가는 것으로 시뮬레이션됩니다.