현재 위치 - 회사기업대전 - 기업 정보 조회 - 캡처 시 IP 제한 문제를 어떻게 해결합니까?

캡처 시 IP 제한 문제를 어떻게 해결합니까?

인터넷 시대에 우리는 각종 정보 자원을 쉽게 교환할 수 있다. 데이터가 증가함에 따라 파충류는 이미 데이터를 얻는 주류가 되었다. 대량의 데이터를 수집해야 한다면 대규모 파충류 IP 가 사이트에 의해 봉쇄되는 것은 필연적이다. 대부분의 사이트에는 반파충류 전략이 있다. 우리는 그들을 어떻게 처리해야 합니까? 아이피 고랑 같이 보러 오세요 ~

방법 1: 캡처 압력을 제어하면 IPIPGO 를 사용하여 타겟 사이트에 액세스하는 것을 고려해 볼 수 있습니다.

Proxy _ list = list (pd.read _ CSV ('IP _ list.csv') ['IP'])

Spider _ header = list (pd.read _ CSV ('spider _ header _ list.csv') ['header'])

Proxy = random.choice(proxy_list)

Header = random.choice (거미 _ 머리)

Urlhandle = urllib.request.proxyhandler ({'http': proxy}) 입니다

Opener = urllib.request.build _ opener (urlhandle)

Urllib.request.install _ opener (opener)

Req = urllib.request.Request(url)

Req.add_header ('사용자 에이전트', 헤더)

Author_poem = []

Response _ result = urllib.request.urlopen (req) 입니다. 읽기 ()

Html = response _ result.decode ('utf-8')

Html = etree 입니다. HTML(html)

방법 2: 사용자 에이전트를 자주 전환합니다.

브라우저 버전마다 서로 다른 user_agent 가 있습니다. user _ agent 는 브라우저 유형에 대한 세부 정보이며 브라우저가 Http 요청을 제출할 때 중요한 헤더 정보입니다. 각 요청에 대해 서로 다른 user_agent 를 제공하여 웹 사이트를 우회하여 클라이언트의 반파충류 메커니즘을 감지할 수 있습니다. 예를 들어 많은 user_agent 를 한 번에 하나씩 무작위로 선택하여 액세스 요청을 제출할 수 있습니다.

copyright 2024회사기업대전