웹 크롤러 (Web crawler, web spider 라고도 함, web robot, FOAF 커뮤니티에서는 web chaser 라고도 함) 는 특정 규칙에 따라 월드 와이드 웹의 정보를 자동으로 수집하는 프로그램 또는 스크립트입니다. 주요 기능은 다음과 같습니다.
1. 시장 분석: 전자상 분석, 상권 분석, 1 차 2 차 시장 분석 등.
시장 모니터링: 전자 상거래, 뉴스, 주택 모니터링 등.
3. 영업 기회 발견: 입찰 정보 발견, 고객 정보 발견, 기업 고객 발견 등
웹 크롤러의 전반적인 프레임 워크
1. 시드 URL 을 선택합니다.
2. 크롤링을 위해 이러한 URL 을 URL 대기열에 넣습니다.
3. 추출할 URL 을 꺼낸 후 다운로드한 웹 라이브러리에 저장합니다. 또한 이러한 URL 을 URL 대기열에 넣어 캡처하여 다음 루프로 이동합니다.
4. 크롤링된 대기열의 URL 을 분석하고 크롤링할 URL 대기열에 URL 을 배치하여 다음 루프로 이동합니다.