이 네 가지 유형의 데이터 소스에는 오픈 데이터 소스, 파충류 크롤링, 센서 및 로그 수집이 포함됩니다.
오픈 데이터 소스는 일반적으로 산업별 데이터베이스입니다. 국내에서 구이저우는 과감한 시도를 많이 해 클라우드 플랫폼을 구축하고 매년 여행 교통 상업 등의 데이터 양을 개방했다.
파충류 캡처는 일반적으로 특정 웹 사이트 또는 앱을 대상으로 합니다. 지정된 사이트 데이터 (예: 쇼핑 사이트의 쇼핑 리뷰) 를 캡처하려면 특정 캡처가 필요합니다.
세 번째 데이터 소스는 센서이며 기본적으로 물리적 정보를 수집하는 것입니다. 이미지, 비디오 또는 물체의 속도, 열 및 압력과 같은 것들이죠.
마지막으로 로그 수집은 통계 사용자의 작업입니다. 프런트엔드에 매장하고 백엔드에서 통계 스크립트를 수집하여 웹 사이트의 액세스 및 사용 병목 현상을 분석할 수 있습니다.
오픈 데이터 소스 사용 방법
하나는 정부, 기업, 대학과 같은 단위의 차원입니다. 하나는 교통, 금융, 에너지 등 산업 차원이다
파충류를 사용하여 기어다니는 법
파이썬 파충류에는 기본적으로 세 가지 과정이 있습니다.
1. 요청된 콘텐츠를 크롤링합니다. 요청 라이브러리를 사용하여 웹 정보를 얻을 수 있습니다. 요청 라이브러리는 파이썬 파충류, 파이썬의 HTTP 라이브러리라고 할 수 있습니다. 이 라이브러리를 통해 웹 페이지의 데이터를 쉽게 잡을 수 있어 많은 시간을 절약할 수 있다.
2. XPath 를 사용하여 콘텐츠를 구문 분석합니다. XPath 는 XML path 의 약어이자 XML Path 언어입니다. XML 문서에서 섹션의 위치를 결정하는 데 사용되는 언어이며 일반적으로 개발에 작은 쿼리 언어로 사용됩니다. XPath 는 요소 및 속성을 통해 인덱스화할 수 있습니다.
팬더를 사용하여 데이터를 저장하십시오. Pandas 는 데이터 분석을 쉽게 할 수 있는 고급 데이터 구조입니다. 우리는 판다로 잡은 데이터를 보관할 수 있다. 마지막으로 판다를 통해 XLS 또는 MySQL 과 같은 데이터베이스에 씁니다.
요청, XPath, 팬더는 파이썬의 세 가지 큰 도구이다. 물론, Python 파충류를 만드는 데는 Selenium, PhantomJS, Puppteteer 의 머리없는 패턴과 같은 많은 무기가 있습니다.