요청 라이브러리 re 라이브러리를 통해 Taobao 제품을 크롤링할 수 있습니다.
요청 가져오기
다시 가져오기
def getHTMLText(url):
시도해 보세요:
r=requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
r.text 반환
제외:
"" 반환
def parsPage(ilt,html):< / p>
시도해 보세요:
plt = re.findall(r'\"view_price\":\"[\d+\.]*\"',html)
tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
for i in range(len(plt)):
price = eval(plt[i].split(':')[1])
title = eval(tlt[i].split(':')[1])
ilt.append([price,title])
제외:
print("F")
def printGoodsList(ilt):< / p>
tplt = "{:4}\t{:8}\t{:16}"
print(tplt.format("일련번호","가격","제품명 "))
count = 0
for g in ilt:
count = count +1
print(tplt.format( count,g[0],g[1]))
def main():
상품 = 'schoolbag'
깊이 = 2
start_url = "/search?q="+ 상품
infoList = []
범위(깊이)에 있는 경우:
다음을 시도해 보세요.
url = start_url +'&s='+str(44*i)
html = getHTMLText(url)
parsePage(infoList,html)
p>p>
제외:
계속
printGoodsList(infoList)
main()
이 코드 예전에는 타오바오 제품 정보를 크롤링해도 괜찮았지만, 타오바오의 대똥 방지 기술 업그레이드로 인해 더 이상 자유롭게 출입할 수 없습니다.
또한 컬렉션의 도움을 받아 컬렉션을 달성할 수도 있습니다