30줄의 코드로 Google Play에 있는 1백만 개의 앱에서 데이터를 크롤링하는 방법

기본 작업:

내장 요소 선택기

데이터 직렬화 및 저장

쿠키, HTTP 헤더 등을 처리하는 미들웨어

사이트맵 또는 RSS 크롤링

기타

나의 요구 사항은 페이지 링크를 크롤링하고 Google Play 마켓에 있는 모든 앱의 수를 다운로드하는 것입니다.

먼저 Python 2.7, MongoDB 데이터베이스, Python의 pip 패키지 관리 시스템을 구성해야 합니다.

그런 다음 해당 Python 패키지를 설치하고 프로젝트 템플릿을 생성합니다.

pip install scrapy scrapy-mongodb

scrapy startproject app

cd app

scrapy genspider google

그런 다음 app/spider/google.py를 다음 콘텐츠로 바꾸세요:

`# -*- 코딩: utf-8 - *-

scrapy 가져오기

scrapy.contrib.spiders import CrawlSpider, 규칙

scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor

scrapy.contrib.linkextractors import LinkExtractor

from app.items import GoogleItem

class GoogleSpider(CrawlSpider):

name = "google"

allowed_domains = ["play.google.com"]

start_urls = [