디렉토리:
1. PC 웹 크롤러
2. H5 웹 크롤러
3. WeChat 애플릿 크롤러
4. 모바일 APP 크롤러
슈퍼 오랑우탄의 수업 일정을 크롤링하기 위해 플랫폼에서는 HTML 웹 페이지에 대한 이전 두 가지 크롤링 방법을 더 이상 적용할 수 없습니다.
패킷 캡처 분석을 사용하는 것은 계획 수립의 첫 번째 단계입니다.
제가 사용하는 Mac 컴퓨터에는 Fiddler의 단순화된 버전만 있어서 Charles라는 유사한 소프트웨어를 찾았습니다. Charles의 에이전트를 시작하고 휴대폰 WIFI에 해당 에이전트를 설정한 후 잡기를 시작하세요. 그런데 캡쳐된 https 패킷의 내용이 모두 깨져있습니다. 어떻게 해야 하나요?
Charles는 SSL 인증서를 제공하므로 휴대폰에 인증서를 설치하기만 하면 됩니다. 아이폰을 사용하시고, 설명파일을 직접 설치하시는 것을 권장합니다. 안드로이드 폰은 7.0 이하의 시스템 버전을 사용해야 하며, 7.0 이상에서는 디컴파일을 해야 하는데 너무 번거롭습니다.
수업 일정을 로드하기 위한 슈퍼 오랑우탄 WeChat 애플릿의 백엔드 인터페이스를 쉽게 찾을 수 있습니다. 브라우저에서 이 URL에 액세스하면 json 결과가 직접 반환됩니다! 슈퍼 고릴라는 친절해요!
해당 URL을 추출하여 확인을 위해 브라우저에 넣습니다. 또한 json 패키지 반환도 지원할 수 있습니다. 나머지는 이 json의 데이터 구조를 분석하고 필요에 따라 내보내는 것입니다.
인터페이스를 통해 직접 크롤링 효율성이 매우 높으며 전국 여러 매장의 수업 일정을 몇 초 만에 가져올 수 있어 매우 편안합니다. (아래 사진의 화면 녹화는 가속되지 않습니다.)
마지막 과제는 Android/iOS 전용 앱의 애플리케이션 데이터를 크롤링하는 것입니다. 다음 장을 읽어주세요
클릭하세요: <다음 페이지>