< P > 1. 먼저 원본 웹 페이지를 엽니다. 다음과 같이 올라갈 필드에 별명, 내용, 웃기는 수, 댓글 수가 포함되어 있다고 가정합니다. < 모든 데이터는 웹 페이지에 중첩됩니다:
2. 그런 다음 위의 웹 구조에 대해 파충류 코드를 직접 작성하고, 웹 페이지를 분석하고, 필요한 데이터를 추출할 수 있습니다. 테스트 코드는 다음과 같습니다. 매우 간단합니다. 주로 requests+BeautifulSoup 조합을 사용합니다. BeautifulSoup 은 웹 페이지 추출 데이터 구문 분석에 사용됩니다:
이 프로그램을 클릭하여 실행합니다. 효과는 다음과 같습니다. 필요한 데이터를 성공적으로 등반했습니다.
동적 웹 데이터
여기 데이터 데이터를 로드할 수 있습니다. 이 방법에 대해 간단히 설명하겠습니다. 인명대출 위의 데이터를 등반하는 예를 들어보겠습니다.
1. 먼저 원본 웹 페이지를 엽니다. 다음과 같이 올라갈 데이터에 연율, 대출 제목, 기간, 금액 및 진도가 포함되어 있다고 가정합니다. "XHR", F5 새로 고침 페이지를 통해 동적으로 로드된 JSON 파일을 찾을 수 있습니다. 즉,
2. 그런 다음 이 JSON 파일을 기반으로 해당 코드를 작성하여 필요한 필드 정보를 확인할 수 있습니다. 테스트 코드는 아래와 같이 간단합니다. Json 은 JSON 파일 추출 데이터를 구문 분석하는 데 사용됩니다.
이 프로그램을 클릭하여 실행합니다. 효과는 다음과 같습니다.
지금까지 python 웹 크롤러를 사용하여 웹 사이트 데이터를 얻었습니다. 전반적으로, 전체 과정은 매우 간단합니다. 파이썬에는 많은 웹 파충류 가방과 프레임워크 (scrapy 등) 가 내장되어 있어 웹 사이트 데이터를 빠르게 얻을 수 있습니다. 초보자의 학습과 파악에 적합합니다. 일정한 파충류 기초가 있는 한, 위의 프로세스와 코드에 익숙해지면 곧 파악할 수 있습니다. 물론 기성 파충류 소프트웨어를 사용할 수도 있습니다.