Excel 웹 데이터 JSON 데이터 수집 방법

Chrome 을 열고 Lagou.com 에서 "데이터 분석" 위치를 검색하고 검사 기능을 사용하여 웹 소스 코드를 확인합니다. Lagou.com 에는 위치 정보가 소스 코드에 없는 반파충류 메커니즘이 있는 것으로 밝혀졌으며, JSON 파일에 저장되었기 때문에 JSON 을 직접 다운로드하여 사전 방식으로 직접 데이터를 읽었습니다.

웹 페이지를 캡처할 때 필요한 데이터를 얻기 위해 제목 정보를 추가해야 합니다.

검색 결과의 첫 페이지에서 JSON 에서 총 위치 수를 읽고 페이지당 15 개 위치에 따라 캡처해야 할 페이지 수를 얻을 수 있습니다. 그런 다음 루프를 사용하여 페이지별로 캡처하고, 위치 정보를 요약하고, CSV 형식으로 출력합니다.

프로그램이 다음 그림과 같이 실행됩니다.

결과를 다음과 같이 캡처합니다.

데이터 정리는 데이터 분석 작업 로드의 대부분을 차지합니다. 후크에서 선전의' 데이터 분석' 직위를 찾다. 우리는 369 개의 위치가 있다. 내가 직위명을 보았을 때, 나는 네 개의 인턴 직위가 있다는 것을 발견했다. 우리가 정규직을 배웠기 때문에, 먼저 인턴직을 제거한다. 업무 경험과 임금은 모두 문자열 형식의 간격이기 때문에 먼저 정규식으로 값을 추출하여 목록으로 출력합니다. 평균 근무 경험과 사분위 임금이 현실에 가깝다.

4. 단어 구름

우리는 직업 복지 열의 데이터를 요약하고 문자열을 생성하고 단어 빈도에 따라 단어 구름을 생성하여 파이썬 시각화를 실현합니다. 다음은 원도와 운이라는 단어의 대비입니다. 오보험일금이 근무복지에서 가장 자주 나타나는 것을 볼 수 있고, 그 다음은 플랫폼, 복지, 발전공간, 탄력적인 작업이라는 것을 알 수 있다.

5. 통계 설명

데이터 분석가의 평균은 14.6K 이고 중앙값은 12.5K 로 유망한 직업임을 알 수 있습니다. 데이터 분석은 여러 업종에 분산되어 있지만 고급 수준에서 데이터 마이닝 및 기계 학습을 통해 IT 업계에서 큰 발전을 이루었습니다.

임금 분배를 다시 보면, 이것은 구직을 위한 중요한 참고 자료입니다.

급여 10- 15K 의 직위가 가장 많고, 그 다음은 급여 15-20K 의 직위이다. 제 소견에 따르면 10- 15K 의 일자리는 모델링을 위주로 하고, 20K 이상의 일자리는 데이터 마이닝과 빅 데이터 아키텍처를 위주로 합니다.

각 지구의 직책 분포를 살펴 보겠습니다.

데이터 분석직은 남산구 62.9%, 후쿠다 구 25.8%, 나머지는 용강구, 나호구, 보안구, 용화신구에 분포한다. 우리는 남산구와 후쿠다 구가 선전 과학기술산업의 중심이라는 것을 알 수 있다.

우리는 급여, 업무 경험, 학력 사이의 관계를 얻기를 원한다. 교육은 세 가지 범주로 나뉘기 때문에 전문, 학부, 석사 등 세 가지 벙어리 변수를 설정해야 합니다. 다중 회귀 결과는 다음과 같습니다.

0.05 의 중요도 수준에서 F 값은 82.53 으로 회귀 관계가 현저하다는 것을 나타냅니다. T 검사와 해당 P 값은 모두 0.05 미만이며, 이는 근무경력과 세 가지 학력이 통계적으로 의미가 있음을 보여준다. 또한 R 제곱의 값은 0.4 1 이며, 이는 직장 경험과 교육 수준이 4 1% 의 임금 변동성만 설명한다는 것을 의미합니다. 일자리가 데이터 분석가라고 해도 실제 업무 내용은 크게 다르다는 것을 이해하기 어렵지 않다. 일부는 엑셀로만 기초분석을 하고, 일부는 파이썬과 R 로 데이터 마이닝을 한다. 게다가, 회사마다 규모와 제공하고자 하는 보수가 다르다. 그러나 업무 내용의 차이와 회사의 관대함으로 채용 웹페이지의 홍보만으로는 실제 데이터를 얻기가 어려워 모델의 맞춤 우수도가 좋지 않은 현실이다.

上篇: 정보 보안 문제를 어떻게 인식하느냐는 오늘날 정보화 과정에서 두드러지고 시급한 문제이다. 下篇: 화장품 FDA 인증에 필요한 자료는 무엇입니까?