현재 위치 - 회사기업대전 - 기업 정보 조회 - 파이썬을 사용하여 웹 사이트 데이터를 캡처하려면 어떻게 해야 합니까?

파이썬을 사용하여 웹 사이트 데이터를 캡처하려면 어떻게 해야 합니까?

아래에 간단히 소개해 드리겠습니다. 웹 사이트의 정적 및 동적 데이터를 예로 들어 보겠습니다. 실험 환경은 win10+파이썬 3.6+pycharm 5.0 입니다. 주요 내용은 다음과 같습니다.

웹 사이트의 정적 데이터 캡처 (데이터는 웹 소스 코드에 있음): 백과 사이트의 데이터를 예로 들어 보겠습니다

1. 사용자의 별명, 내용, 농담 수, 댓글 수 등 다음과 같은 데이터를 수집한다고 가정합니다.

해당 웹 소스 코드는 다음과 같습니다. 여기에는 필요한 데이터가 포함됩니다.

2. 웹 구조에 해당합니다. 주요 코드는 다음과 같습니다. 매우 간단합니다. 주로 requests+BeautifulSoup 을 사용합니다. 여기서 requests 는 요청 페이지에 사용되고 BeautifulSoup 은 페이지 구문 분석에 사용됩니다.

프로그램 실행 스크린 샷은 다음과 같습니다. 데이터가 성공적으로 등반되었습니다.

웹 사이트 동적 데이터 수집 (데이터는 웹 소스 코드, JSON 등 파일에 없음): 인적 대출 사이트 데이터를 예로 들어 보겠습니다.

1. 연간 이자율, 대출 제목, 기간, 금액, 진행 5 개 필드를 포함한 채권 데이터를 수집하고 있다고 가정합니다. 스크린 샷은 다음과 같습니다.

웹 소스 코드를 열면 이 데이터가 웹 소스 코드에 없다는 것을 알 수 있습니다. F 12 를 눌러 패킷 분석을 수행하면 다음과 같이 JSON 파일에서 찾을 수 있습니다.

2. JSON 파일의 URL 을 얻은 후 해당 데이터를 수집할 수 있습니다. 여기에 사용된 가방은 위와 비슷하다. Json 파일이기 때문에 JSON 패키지 (JSON 구문 분석) 도 사용합니다. 주요 내용은 다음과 같습니다.

프로그램 실행 스크린 샷은 다음과 같습니다. 데이터가 성공적으로 캡처되었습니다.

이 문서에서는 정적 및 동적 데이터를 포함하여 이러한 두 가지 유형의 데이터 캡처에 대해 설명합니다. 전반적으로 이 두 가지 예는 어렵지 않다. 모두 초급 파충류로, 웹 구조가 비교적 간단하다. 가장 중요한 것은 페이지를 분석하고 추출하는 것이다. 나중에 익숙해지면 스크래치로 데이터를 캡처하여 더욱 편리하고 효율적으로 사용할 수 있습니다. 물론, 캡처 된 페이지가 인증 코드, 암호화와 같은 비교적 복잡하다면, 이번에는 신중하게 분석해야하며 인터넷에도 몇 가지 자습서가 있습니다.

copyright 2024회사기업대전