파이썬 파충류를 사용하여 웹 콘텐츠를 캡처하려면 어떻게 해야 합니까?

기어가는 과정

실제로 추상 웹 크롤러는 다음 단계를 포함합니다.

시뮬레이션 요청 페이지 브라우저를 시뮬레이션하고 대상 웹 사이트를 엽니 다.

데이터를 가져옵니다. 웹사이트를 열면, 우리는 우리가 필요로 하는 사이트 데이터를 자동으로 얻을 수 있다.

데이터를 저장합니다. 데이터를 가져온 후에는 로컬 파일 또는 데이터베이스와 같은 스토리지 장치에 데이터를 지속해야 합니다.

파이썬으로 자신의 파충류 프로그램을 어떻게 쓸 수 있을까요? 여기서 저는 파이썬 라이브러리: 요청에 초점을 맞추고 싶습니다.

사용을 요청하다

Requests 라이브러리는 Python 에서 HTTP 요청을 시작하는 라이브러리로서 사용하기 매우 쉽습니다.

HTTP 요청 전송 시뮬레이션

가져오기 요청 보내기

우리가 브라우저로 콩꽃잎의 홈페이지를 열었을 때, 우리가 보낸 원래 요청은 사실 GET 요청이었다. (알버트 아인슈타인, Northern Exposure (미국 TV 드라마), 브라우저명언)

가져오기 요청

Res = requests.get ('') 입니다

인쇄 (해상도)

인쇄 (유형 (해상도))

& gt& gt& gt

& lt 회신 [200] >

& lt class' requests.models.response' >