로봇 프로토콜-"도둑도 방법이 있다"

프로토콜에 따라 역장은 웹 사이트의 도메인 이름 루트에 텍스트 파일 robots.txt 를 넣을 수 있으며, 서로 다른 웹 파충류가 액세스할 수 있는 페이지와 액세스가 금지된 페이지를 지정할 수 있으며, 지정된 페이지는 정규 표현식으로 표시됩니다. 웹 크롤러는 이 사이트를 수집하기 전에 먼저 이 파일을 입수한 다음 그 안의 규칙을 분석한 다음 규칙에 따라 웹 사이트의 데이터를 수집합니다.

이 프로토콜은 파충류를 예방하는 기능보다는 웹 파충류의 규정 준수에 더 많이 의존하고 있습니다.

인터넷의 웹 페이지는 하이퍼링크를 통해 서로 연결되어 웹 페이지의 웹 구조를 형성합니다. 파충류는 거미가 인터넷 링크를 따라 기어가는 것처럼 작동합니다. 가장 기본적인 프로세스는 다음과 같이 단순화 될 수 있습니다.

위의 과정을 알면 웹 사이트가 파충류에 대해 수동적이고 정직하게 기어오르는 것을 알 수 있다. (존 F. 케네디, 공부명언)

따라서 웹 사이트 관리자에게는 다음과 같은 요구 사항이 있습니다.

일부 경로는 개인 정보 보호 또는 웹 사이트 관리에 사용되며 일계 사랑 액션 영화와 같은 검색 엔진에 의해 캡처되기를 원하지 않습니다.

나는 검색 엔진을 좋아하지 않는다, 그에게 잡히고 싶지 않다. 가장 유명한 것은 타오바오가 바이두에 잡히고 싶지 않다는 것이다.

작은 사이트는 공용 가상 호스트를 사용하며, 트래픽이 제한적이거나 유료로 검색 엔진이 부드러워지길 바랍니다.

일부 웹 페이지는 동적으로 생성되며 직접 링크가 없지만 검색 엔진에서 컨텐츠를 캡처하여 인덱싱하기를 원합니다.

사이트 콘텐츠의 소유자는 역장이므로 검색 엔진은 소유자의 뜻을 존중해야 한다. 이를 만족시키기 위해서는 웹 사이트에 파충류와 소통할 수 있는 방법을 제공하고 역장에게 의지를 표현할 수 있는 기회를 줄 필요가 있다. 수요가 있는 곳마다 공급이 있고 로봇 합의가 탄생했다.

JD.COM 의 로봇 프로토콜

/robots.txt

바이두의 로봇 프로토콜

위 그림에서 * 는 모두를 나타내고/는 루트 디렉토리를 나타냅니다.

웹 파충류는 웹 사이트를 잡기 전에 파일을 가져와서 그 규칙을 분석해야 하므로 로봇에는 공통된 문법 규칙이 있어야 합니다.

가장 간단한 robots.txt 에는 두 가지 규칙만 있습니다.

사용자 에이전트: 적용될 파충류를 지정합니다.

허용되지 않음: 차단할 URL 을 지정합니다.

사용자 에이전트에 대해 이야기 해 봅시다. 파충류는 기어갈 때 자신의 신분을 선언한다. 이것은 User-agent 입니다. 네, 바로 /culture 입니다. ...

사이트 맵: /hostedn ...

그나저나, 한 사이트에 많은 페이지가 있다는 것을 감안하면, 수동으로 sitemap 를 유지하는 것은 그다지 믿을 수 없다. 구글은 사이트 지도를 자동으로 생성하는 도구를 제공합니다.

메타 태그

사실 엄밀히 말하면, 이 부분은 robots.txt 에 속하지 않는다.

Robots.txt 의 원래 의도는 역장이 검색 엔진에 나타날 수 있는 웹 사이트 콘텐츠를 관리할 수 있도록 하는 것이었습니다. 그러나 검색 엔진은 robots.txt 파일을 사용하여 파충류가 이러한 내용을 캡처할 수 없는 경우에도 다른 방법으로 페이지를 찾아 인덱스에 추가할 수 있습니다. 예를 들어, 다른 웹 사이트는 여전히 이 웹 사이트에 링크되어 있을 수 있습니다. 따라서 웹 사이트 주소 및 기타 공개 정보 (예: 관련 웹 사이트 링크의 포지셔닝 텍스트 또는 오픈 디렉토리 관리 시스템의 제목) 가 엔진 검색 결과에 나타날 수 있습니다. 검색 엔진에서 전혀 발견되지 않으려면 어떻게 해야 합니까? 대답은 메타 태그, 메타 태그입니다.

예를 들어, 다른 웹 사이트가 해당 웹 페이지에 링크되어 있더라도 한 웹 페이지의 내용이 검색 엔진 인덱스에 나열되지 않도록 하려면 noindex meta 태그를 사용할 수 있습니다. 검색 엔진이 웹 페이지를 볼 때마다 noindex meta 태그가 표시되어 웹 페이지가 색인에 표시되지 않도록 합니다. Noindex meta 태그는 웹 사이트에 대한 페이지별 액세스를 제어하는 방법을 제공합니다.

모든 검색 엔진 색인 웹 사이트의 페이지를 방지하려면 다음을 추가하십시오.

여기서 name 의 값은 검색 엔진의 사용자 에이전트로 설정하여 검색 엔진을 차단해야 함을 지정할 수 있습니다.

Noindex 외에 다른 메타 태그 (예: nofollow) 가 있어 파충류가 이 페이지의 링크를 추적하는 것을 금지합니다. 자세한 내용은 구글에서 지원하는 메타 태그를 참조하십시오. 여기서는 HTML4.0 1 사양에서 noindex 와 nofollow 를 설명하지만 다른 태그는 엔진마다 다양한 수준의 지원을 받고 있습니다. 각 엔진의 설명서를 직접 참고하세요.

크롤링 지연

Robots.txt 는 무엇을 잡을 수 있는지 잡을 수 없을 뿐만 아니라 파충류의 크롤링 속도도 조절할 수 있다. 어떻게 하죠? 크롤링 프로그램이 크롤링 사이에서 기다리는 시간 (초) 을 설정합니다. 이 작업은 서버의 스트레스를 줄일 수 있다.

이번 캡쳐 후 다음 캡쳐 전에 5 초 정도 기다려야 한다는 뜻입니다.

참고: 구글은 더 이상 이러한 방식을 지원하지 않으며 웹 마스터 도구에서 캡처 속도를 보다 직관적으로 제어할 수 있는 기능을 제공합니다.

몇 년 전 robots.txt 는 복잡한 매개변수도 지원했습니다. visit-time, 파충류는 Visit-time 에 지정된 기간 동안에만 액세스할 수 있습니다. 요청 비율: URL 읽기 빈도를 제한하고 기간마다 다른 캡처 속도를 제어하는 데 사용됩니다. 나중에 지지하는 사람이 너무 적어서 점차 폐지된 것으로 추정된다. 현재 구글과 바이두는 더 이상 이 규칙을 지지하지 않으며, 다른 작은 엔진 회사들도 결코 지지하지 않는 것 같다.

웹 크롤러:

Robots.txt 를 자동 또는 수동으로 식별하고 내용을 캡처합니다.

바인딩:

Robots 프로토콜은 제안적이지만 구속력이 없으며 웹 크롤러는 준수하지 않을 수 있지만 법적 위험이 있습니다.

원칙: 인간의 행동은 로봇 프로토콜을 인용할 수 없다.

로봇 합의는 기술 장벽이 아니라 상호 존중의 합의다. 예를 들어, 개인 정원 입구에는' 한가한 사람은 들어오지 마라' 가 걸려 있고, 존경하는 사람은 우회할 수 있고, 존중하지 않는 사람은 여전히 문을 열고 들어갈 수 있다. 현재, Robots 프로토콜은 실제 사용에도 몇 가지 문제가 있다.

숨겨진 물건

Robots.txt 자체도 캡처해야 합니다. 효율성을 위해 일반 파충류는 웹 페이지를 잡을 때까지 매번 robots.txt 를 캡처하지 않습니다. 또한 robots.txt 업데이트는 빈번하지 않으며 컨텐츠를 구문 분석해야 합니다. 보통 파충류는 한 번 기어오르고, 한 번 분석하고, 한 번 캐시하는데 시간이 오래 걸린다. 역장이 robots.txt 를 업데이트하고 일부 규칙을 수정했지만 파충류에게는 즉시 적용되지 않는다고 가정해 봅시다. 파충류가 다음에 robots.txt 를 잡을 때만 최신 내용을 볼 수 있다. 죄송합니다. 다음에 파충류가 robots.txt 를 기어오르는 것은 역장의 통제를 받지 않습니다. 물론 웹 도구를 제공하는 검색 엔진도 있습니다. 이를 통해 역장이 검색 엔진 웹 주소가 변경되었음을 알리고 다시 캡처할 것을 제안합니다. 이것은 제안입니다. 검색 엔진에 통보해도 검색 엔진이 언제 뺏기는지는 확실하지 않지만 전혀 알리지 않는 것보다 낫다. 얼마나 좋은지 검색 엔진의 양심과 기술 능력에 달려 있다.

소홀히 하다

무의식인지 고의인지 모르겠다. 어쨌든 일부 파충류는 robots.txt 를 전혀 신경쓰지 않거나 완전히 무시하며, 예를 들어 robots.txt 를 전혀 이해하지 못하는 등 개발자의 능력 문제를 배제하지 않습니다. 게다가, robots.txt 자체는 강제적인 조치가 아니다. 웹 사이트에 기밀이 필요한 데이터가 있는 경우 사용자 인증, 암호화, IP 차단, 액세스 빈도 제어 등의 기술적 조치를 취해야 합니다.

악성 파충류

인터넷 세계에서는 매일 수많은 파충류가 밤낮으로 기어다니고 있으며, 악의적인 파충류의 수는 심지어 악의가 없는 파충류보다 훨씬 더 많습니다. Robots 프로토콜을 준수하는 파충류는 좋은 파충류이지만, 모든 파충류가 Robots 협정을 자발적으로 준수하는 것은 아니다.

악의적인 파충류는 많은 잠재적 위협을 가져올 수 있다. 예를 들어, 전자상거래 사이트의 상품 정보는 잡히면 경쟁사에 의해 이용될 수 있다. 파충류가 너무 많으면 대역폭 자원을 차지하게 되고, 심지어 사이트 다운타임까지 초래할 수 있다.

너 배웠어 ~ ~ ~?

짱 시키세요! ! !

上篇: 새 회사의 초기 비밀번호를 잊어버린 경우 어떻게 해야 하나요? 下篇: 직업을 찾는 방법은 무엇입니까? 직업을 찾는 방법?