1, 웹사이트를 이용하세요. 이 단계는 소프트웨어에서 검색해야 할 웹 페이지 수를 알려주고 구체적인 웹 주소를 제공하는 것입니다.
2, 내용을 채택하다. 웹사이트가 있으면 이 사이트에 가서 정보를 수집할 수 있지만, 사이트에 정보가 너무 많아서 소프트웨어는 당신이 무엇을 수집해야 할지 모릅니다. 콘텐츠 선택 섹션에서 규칙을 만들어야 합니다. 소프트웨어에 내가 무엇을 고르고 싶은지 말해라.
1, 웹사이트를 이용하세요.
웹 페이지의 제품 정보는 당신이 원하는 것, 즉 목표입니다.
즐겨찾기 링크 페이지에서 즐겨찾기 주소 목록 페이지로 이동하여 쓸모없는 링크를 필터링합니다.
그런 다음 테스트 버튼을 클릭하여 정보의 정확성을 테스트합니다.
테스트가 정확하면 주소를 확장합니다. 이제 우리는 목록 페이지의 문장 주소만 취하고, 다른 목록은 수집해야 한다. 다른 목록 페이지는 모두 해당 페이지에 있습니다. 우리는 이러한 분포의 링크 형식을 관찰하고, 법칙을 찾은 다음, URL 규칙을 대량으로 채웁니다.
2, 콘텐츠 수집
위의 처리를 거쳐 대상 제품 페이지에 대한 링크가 수집되었습니다. 콘텐츠 모음으로 들어가겠습니다.
수집할 내용을 정의한 후, 우리는 수집 규칙을 쓰기 시작했다. 기관차 수집 내용은 수집 웹 페이지의 소스 코드이므로 제품 페이지의 소스 코드를 열어 정보를 수집할 위치를 찾아야 합니다. 예를 들어, 설명 필드 컬렉션은 다음과 같습니다.
설명의 위치를 찾아 찾은 후 컬렉션 규칙을 채우는 방법. 간단히 컬렉션의 해당 위치에 컬렉션 대상의 시작 및 끝 문자열을 채우기만 하면 됩니다. 여기서 우리는
채운 후에 정확하게 채집할 수 있는 것은 아니다. HTML 태그 제외 및 컨텐츠 제외에서 수행할 수 있는 불필요한 데이터를 제외하기 위해 테스트가 필요합니다. 테스트가 성공하면 이런 라벨이 완성됩니다.
여기서는 와일드카드를 사용하여 이 요구 사항을 충족합니다. 흔하지 않은 곳을 나타내기 위해 (*) 와일드카드를 사용합니다. 수집할 주소는 매개변수 (변수) 로 표시됩니다. 마지막으로, 우리는이 단락을 다음과 같이 바꿀 것입니다:
테스트에 실패하면 작성한 내용이 유일하고 일반적인 기준에 맞지 않으므로 디버깅해야 합니다. 테스트가 성공하면 저장하고 라벨 제작에 들어갈 수 있습니다.
여기 라벨 제작은 위와 같습니다. 정보를 수집할 위치를 찾아 시작 및 끝 문자열을 채우고 걸러냅니다. 유일한 차이점은 방금 만든 모듈을 페이지 옵션에서 선택해야 한다는 것입니다. 여기서는 군말을 하지 않고 결과를 직접 표시한다는 것입니다.
이렇게 꼬리표가 완성되었습니다. 업데이트를 클릭한 후 게시 옵션을 제거하면 작업을 수집할 수 있습니다.