도구 설치
파이썬, 파이썬, 레퀴스트, 베아트리움 소스 라이브러리를 설치해야 합니다. 우리는 Requests 라이브러리를 사용하여 웹 페이지의 내용을 캡처하고, BeautifulSoup 라이브러리를 사용하여 웹 페이지에서 데이터를 추출합니다.
파이썬 설치
Pipinstallrequests 를 실행합니다
PipinstallBeautifulSoup 을 실행합니다
홈페이지를 잡다
필요한 도구를 설치한 후, 우리는 정식으로 우리의 파충류를 쓰기 시작했다. 우리의 최우선 과제는 콩잎에 있는 모든 도서 정보를 잡는 것이다. /subject/26986954/ 를 예로 들어 보겠습니다. 먼저, 어떻게 웹페이지의 내용을 잡을 수 있는지 봅시다.
Python 의 requests 에서 제공하는 get () 메서드를 사용하면 다음 코드와 같이 지정된 웹 페이지의 내용을 매우 간단하게 얻을 수 있습니다.
추출율
웹 내용을 캡처한 후 우리가 해야 할 일은 우리가 원하는 내용을 추출하는 것이다. 우리의 첫 번째 예에서, 우리는 단지 책 제목만 추출하면 된다. 먼저 BeautifulSoup 라이브러리를 가져옵니다. BeautifulSoup 을 사용하면 웹 페이지의 구체적인 내용을 매우 간단하게 추출할 수 있습니다.
웹 페이지를 지속적으로 캡처하다
지금까지 개별 웹 페이지의 컨텐츠를 캡처할 수 있었습니다. 이제 전체 웹 사이트의 내용을 캡처하는 방법을 살펴 보겠습니다. 우리는 웹 페이지가 하이퍼링크를 통해 서로 연결되어 있다는 것을 알고 있으며 링크를 통해 전체 네트워크에 액세스할 수 있습니다. 따라서 각 페이지에서 다른 페이지에 대한 링크를 추출한 다음 새 링크를 반복해서 캡처할 수 있습니다.
위의 단계를 통해 우리는 원시 파충류를 쓸 수 있다. 파충류의 원리를 이해하는 기초 위에서 파충류를 더욱 개선할 수 있다.
파충류에 관한 일련의 문장:/I6567289381185389064/. 관심이 있는 사람은 가 볼 수 있다.
파이썬 기본 환경 구축, 파충류의 기본 원리, 파충류의 원형.
파이썬 파충류 소개 (일부 1)
BeautifulSoup 을 사용하여 웹 컨텐츠를 추출하는 방법
파이썬 파충류 소개 (2 부)
파충류 런타임 데이터의 저장된 데이터 (예: SQLite 및 MySQL) 입니다.
파이썬 파충류 소개 (3 부)
Seleniumwebdriver 를 사용하여 동적 웹 페이지 캡처
파이썬 파충류 소개 (4 부)
이 기사에서는 웹 사이트의 안티 크롤러 전략에 대처하는 방법에 대해 설명합니다.
파이썬 파충류 소개 (5 부)
이 문서에서는 Python 의 Scrapy 파충류 프레임워크에 대해 설명하고 Scrapy 에서 개발하는 방법에 대해 간략하게 설명합니다.
파이썬 파충류 소개 (6 부)