이 문서에서는 스키마에 따라 Scrapy 의 주요 구성 요소와 해당 기능에 대해 설명합니다.
Scrapy Engine: 시스템의 모든 구성 요소에서 데이터 흐름의 흐름을 제어하며 해당 동작에서 이벤트가 발생하도록 트리거합니다.
스케줄러: 엔진에서 요청을 수신하고 나중에 엔진이 요청할 때 엔진에 제공할 수 있도록 대기열에 넣습니다.
다운로더: 페이지 데이터를 가져와 엔진에 제공한 다음 거미에게 제공합니다.
Spider:Scrapy 사용자는 응답을 분석하고 추가 후속 조치를 위해 항목 (즉, 얻은 항목) 또는 URL 을 추출하는 클래스를 작성합니다. 각 거미는 특정 (또는 일부 웹 사이트) 를 처리합니다.
프로젝트 파이프: 거미 추출을 담당하는 프로젝트입니다. 일반적인 처리에는 정리, 검증 및 지속성이 포함됩니다 (예: 한 데이터베이스에 저장, 나중에 MySQL 에서 설명, 다른 데이터베이스도 유사).
다운로더 미들웨어 (Downloader middlewares): 다운로더가 엔진에 보낸 응답을 처리하는 엔진인 다운로더 사이의 특수 후크입니다. 사용자 정의 코드를 삽입하여 Scrapy 의 기능을 확장하는 간단한 메커니즘을 제공합니다 (나중에 일부 중간체를 구성하고 반파충류를 처리하기 위해 활성화하는 방법에 대해 설명합니다).
거미 미들웨어: 거미의 입력 (응답) 및 출력 (항목, 요청) 을 처리하는 엔진과 거미 사이의 특수 갈고리입니다. 사용자 정의 코드를 삽입하여 Scrapy 함수를 확장하는 간단한 메커니즘을 제공합니다.