현재 위치 - 회사기업대전 - 기업 정보 공시 - 팔각형 물고기 수집기 사용법을 아는 사람이 있나요?

팔각형 물고기 수집기 사용법을 아는 사람이 있나요?

1단계? 웹페이지를 엽니다.

Octopus 7.0 컬렉터에 로그인 → 왼쪽 상단의 '+' 아이콘 클릭 → 맞춤 컬렉션 선택(아래를 클릭할 수도 있음) 홈페이지의 "지금 사용"에서 사용자 정의 컬렉션을 선택하여 작업 구성 페이지로 들어갑니다. 그런 다음 URL을 입력하고 → URL을 저장하면 시스템이 프로세스 디자인 페이지로 들어가고 이전에 입력한 URL이 자동으로 열립니다.

웹페이지가 열린 후 작업 이름을 수정할 수 있습니다. 수정하지 않으면 기본적으로 웹페이지 제목을 따라 이름이 지정됩니다. 작업 이름은 컬렉션을 실행하기 전에 언제든지 수정할 수 있습니다.

2단계? 데이터 추출

웹페이지에서 추출해야 하는 데이터를 선택하면 창 오른쪽 상단에 해당 메시지가 표시됩니다. 이 튜토리얼에서는 뉴스 제목, 날짜, 텍스트 추출을 예로 들어 설명합니다. 필요에 따라 유연하게 사용하세요.

추출 데이터를 설정한 후 저장을 클릭하고 컬렉션 실행을 시작하세요. 그러나 이때 필드명은 시스템에 의해 자동으로 생성됩니다. 귀하의 요구 사항을 더 잘 충족하려면 오른쪽 상단에 있는 "프로세스"를 클릭하여 프로세스 페이지로 들어가서 필드 이름을 수정할 수 있습니다. 먼저 수정할 필드 이름을 선택하세요. 이때 드롭다운 상자에 직접 선택하여 사용할 수 있는 대체 필드 이름이 표시됩니다. 원하는 내용을 찾지 못한 경우 새 필드 이름을 입력하세요. 필드명을 수정한 후 "확인"을 클릭하여 저장하세요. 저장한 후 컬렉션을 실행할 수 있습니다.

모든 버전은 로컬 수집을 실행할 수 있으며 Ultimate 버전 이상에서는 클라우드 수집을 실행하고 예약된 클라우드 수집을 설정할 수 있지만 클라우드 수집을 실행하기 전에 테스트를 위해 로컬 수집을 실행합니다. 작업이 실행되고 수집이 완료된 후 Excel, CSV, HTML 및 기타 형식을 선택하여 데이터베이스로 내보내거나 가져올 수 있습니다. 데이터를 내보낸 후 링크를 ​​클릭하여 데이터 저장 폴더에 들어가 데이터를 볼 수 있습니다. 파일 이름은 기본적으로 작업 이름을 따서 지정됩니다.

1. Octopus 수집 원리

Octopus 웹 데이터 수집 클라이언트에서 사용하는 개발 언어는 C#이며 Windows 시스템에서 실행됩니다. 클라이언트 메인 프로그램은 작업 구성 및 관리, 작업의 클라우드 수집 제어, 클라우드 통합 데이터 관리(내보내기, 정리, 릴리스)를 담당합니다. 데이터 내보내기 프로그램은 데이터를 Excel, SQL, TXT, MYSQL 등으로 내보내는 작업을 담당하며 한 번에 수백만 개의 데이터 내보내기를 지원합니다. 로컬 수집 프로그램은 워크플로우에 따라 웹페이지의 데이터 열기, 크롤링, 수집을 담당하며, 정규식과 Xpath 원칙을 통해 웹페이지 데이터를 빠르게 얻습니다. 전체 수집 프로세스는 Firefox 커널 브라우저를 기반으로 하며, 이는 인간의 사고 및 조작 방법(예: 웹 페이지 열기 및 웹 페이지에서 버튼 클릭)을 시뮬레이션하여 웹 콘텐츠를 완전 자동으로 추출합니다. 시스템은 프로세스 운영을 완전히 시각화하고 전문 지식이 필요하지 않으며 데이터 수집을 쉽게 실현할 수 있습니다. Octopus는 웹 페이지 소스 코드에 있는 각 데이터의 XPath 경로를 정확하게 배치함으로써 사용자가 요구하는 데이터를 일괄적으로 정확하게 수집할 수 있습니다.

2. Octopus가 구현하는 기능 Octopus 웹 데이터 수집 시스템은 완전히 독립적으로 개발된 분산형 클라우드 컴퓨팅 플랫폼을 기반으로 하며, 이를 통해 짧은 시간 내에 다양한 웹 사이트 또는 웹 페이지에서 쉽게 데이터를 수집할 수 있습니다. 대량의 표준화된 데이터를 확보할 수 있어 웹페이지에서 정보를 얻어야 하는 모든 고객이 자동으로 데이터를 수집, 편집, 표준화할 수 있도록 도와주며 수동 검색 및 데이터 수집에 대한 의존도를 없애고 정보 획득 비용을 절감하고 효율성 향상. 정부, 대학, 기업, 은행, 전자상거래, 과학 연구, 자동차, 부동산, 미디어 등 다양한 산업 및 분야가 참여합니다.

Octopus는 일반적인 웹페이지 데이터 수집기로서 특정 웹사이트나 업계의 데이터를 수집하지 않으며, 웹페이지에서 볼 수 있거나 웹페이지 소스코드에 포함된 거의 모든 데이터만 수집합니다. 텍스트 정보를 수집할 수 있으며, 시중에 나와 있는 웹페이지의 98%를 Octopus로 수집할 수 있습니다.

로컬 수집(독립형 수집)을 사용하면 대부분의 웹페이지 데이터를 크롤링하는 것 외에도 수집 프로세스 중에 데이터를 사전 정리할 수도 있습니다. 예를 들어, 정규식을 사용하여 데이터 형식을 지정하려면 프로그램과 함께 제공되는 일반 도구를 사용하십시오. 공백 제거, 날짜 필터링 등 다양한 작업을 데이터 원본에서 구현할 수 있습니다. 둘째, Octopus는 웹 페이지의 정보가 예, 아니오인지 논리적으로 판단하고 사용자 필터링 요구를 실현할 수 있는 분기 판단 기능도 제공합니다.

클라우드 수집은 로컬 수집(독립형 수집)의 모든 기능 외에도 예약 수집, 실시간 모니터링, 자동 데이터 중복 제거 및 저장, 증분 수집, 인증코드 자동 인식 등을 구현할 수 있습니다. , API 데이터를 내보내고 매개변수를 수정할 수 있도록 인터페이스가 다양해졌습니다.

동시에 클라우드의 여러 노드를 사용하여 동시에 실행하면 로컬 수집(단일 머신 수집)보다 수집 속도가 훨씬 빨라집니다. 작업 시작 시 여러 IP를 자동으로 전환하면 IP 차단도 방지할 수 있습니다. 웹사이트를 운영하고 데이터 수집을 극대화합니다.

copyright 2024회사기업대전