현재 위치 - 회사기업대전 - 기업 정보 조회 - 크롤러 기술을 사용하여 Taobao 검색 페이지에서 제품 정보를 캡처하는 방법

크롤러 기술을 사용하여 Taobao 검색 페이지에서 제품 정보를 캡처하는 방법

요청 라이브러리 re 라이브러리를 통해 Taobao 제품을 크롤링할 수 있습니다.

요청 가져오기

다시 가져오기

def getHTMLText(url):

시도해 보세요:

r=requests.get(url,timeout=30)

r.raise_for_status()

r.encoding = r.apparent_encoding

r.text 반환

제외:

"" 반환

def parsPage(ilt,html):< / p>

시도해 보세요:

plt = re.findall(r'\"view_price\":\"[\d+\.]*\"',html)

tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)

for i in range(len(plt)):

price = eval(plt[i].split(':')[1])

title = eval(tlt[i].split(':')[1])

ilt.append([price,title])

제외:

print("F")

def printGoodsList(ilt):< / p>

tplt = "{:4}\t{:8}\t{:16}"

print(tplt.format("일련번호","가격","제품명 "))

count = 0

for g in ilt:

count = count +1

print(tplt.format( count,g[0],g[1]))

def main():

상품 = 'schoolbag'

깊이 = 2

start_url = "/search?q="+ 상품

infoList = []

범위(깊이)에 있는 경우:

다음을 시도해 보세요.

url = start_url +'&s='+str(44*i)

html = getHTMLText(url)

parsePage(infoList,html)

p>

p>

제외:

계속

printGoodsList(infoList)

main()

이 코드 예전에는 타오바오 제품 정보를 크롤링해도 괜찮았지만, 타오바오의 대똥 방지 기술 업그레이드로 인해 더 이상 자유롭게 출입할 수 없습니다.

또한 컬렉션의 도움을 받아 컬렉션을 달성할 수도 있습니다

copyright 2024회사기업대전