방법 1: 캡처 압력을 제어하면 IPIPGO 를 사용하여 타겟 사이트에 액세스하는 것을 고려해 볼 수 있습니다.
Proxy _ list = list (pd.read _ CSV ('IP _ list.csv') ['IP'])
Spider _ header = list (pd.read _ CSV ('spider _ header _ list.csv') ['header'])
Proxy = random.choice(proxy_list)
Header = random.choice (거미 _ 머리)
Urlhandle = urllib.request.proxyhandler ({'http': proxy}) 입니다
Opener = urllib.request.build _ opener (urlhandle)
Urllib.request.install _ opener (opener)
Req = urllib.request.Request(url)
Req.add_header ('사용자 에이전트', 헤더)
Author_poem = []
Response _ result = urllib.request.urlopen (req) 입니다. 읽기 ()
Html = response _ result.decode ('utf-8')
Html = etree 입니다. HTML(html)
방법 2: 사용자 에이전트를 자주 전환합니다.
브라우저 버전마다 서로 다른 user_agent 가 있습니다. user _ agent 는 브라우저 유형에 대한 세부 정보이며 브라우저가 Http 요청을 제출할 때 중요한 헤더 정보입니다. 각 요청에 대해 서로 다른 user_agent 를 제공하여 웹 사이트를 우회하여 클라이언트의 반파충류 메커니즘을 감지할 수 있습니다. 예를 들어 많은 user_agent 를 한 번에 하나씩 무작위로 선택하여 액세스 요청을 제출할 수 있습니다.