1.Scrapy
Scrapy 는 웹 사이트 데이터를 캡처하여 구조화된 데이터를 추출하기 위해 작성된 응용 프로그램 프레임워크입니다. 데이터 마이닝, 정보 처리 또는 기록 데이터 저장 등 다양한 프로그램에서 사용할 수 있습니다. 이 프레임워크를 통해 아마존 상품 정보와 같은 데이터를 쉽게 아래로 올라갈 수 있습니다. (권장 학습: 파이썬 비디오 자습서)
프로젝트 주소: /binux/pyspider
3. 크롤리
Crawley 는 해당 웹 사이트의 콘텐츠를 고속으로 캡처하여 관계형 및 비관계형 데이터베이스를 지원하며 데이터를 JSON, XML 등으로 내보낼 수 있습니다.
프로젝트 주소:/
4. 신문
신문은 뉴스, 문장 및 콘텐츠 분석을 발췌하는 데 사용할 수 있습니다. 멀티 스레드를 사용하여 10 개 이상의 언어 등을 지원합니다.
프로젝트 주소: /code Lucas/newspaper
5. 맛있는 국물
아름다운 Soup 은 HTML 또는 XML 파일에서 데이터를 추출할 수 있는 파이썬 라이브러리입니다. 좋아하는 변환기를 통해 일반적인 문서 탐색, 검색 및 수정 방법을 구현할 수 있습니다. 맛있는 수프는 몇 시간, 심지어 며칠의 근무 시간을 절약할 수 있다.
프로젝트 주소:/소프트웨어/미탕 /BS4/Doc/
6. 탈취
Grab 는 웹 캡쳐를 만드는 파이썬 프레임워크입니다. Grab 를 사용하면 간단한 5 행 스크립트에서 수백만 페이지를 처리하는 복잡한 비동기 웹 크롤링 도구에 이르기까지 다양한 복잡한 웹 크롤링 도구를 구축할 수 있습니다. Grab 는 HTML 문서의 DOM 트리와의 상호 작용과 같은 네트워크 요청을 수행하고 수신 콘텐츠를 처리하는 API 를 제공합니다.
프로젝트 주소: /chineking/cola
더 많은 파이썬 관련 기술 문장, 파이썬 자습서 섹션을 방문하여 공부하세요!