기본 작업:
내장 요소 선택기
데이터 직렬화 및 저장
쿠키, HTTP 헤더 등을 처리하는 미들웨어
사이트맵 또는 RSS 크롤링
기타
나의 요구 사항은 페이지 링크를 크롤링하고 Google Play 마켓에 있는 모든 앱의 수를 다운로드하는 것입니다.
먼저 Python 2.7, MongoDB 데이터베이스, Python의 pip 패키지 관리 시스템을 구성해야 합니다.
그런 다음 해당 Python 패키지를 설치하고 프로젝트 템플릿을 생성합니다.
pip install scrapy scrapy-mongodb
scrapy startproject app
cd app
scrapy genspider google
그런 다음 app/spider/google.py를 다음 콘텐츠로 바꾸세요:
`# -*- 코딩: utf-8 - *-
scrapy 가져오기
scrapy.contrib.spiders import CrawlSpider, 규칙
scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
scrapy.contrib.linkextractors import LinkExtractor
from app.items import GoogleItem
class GoogleSpider(CrawlSpider):
name = "google" p>
allowed_domains = ["play.google.com"]
start_urls = [