1. 지식 프레임워크 및 학습 경로를 정의합니다.
데이터 분석, 데이터 분석가가 되고 싶다면 채용 사이트에 가서 해당 직위의 요구 사항이 무엇인지 확인할 수 있습니다. 일반적으로, 너는 자신이 파악해야 할 지식 구조에 대해 초보적인 이해를 가질 것이다. 데이터 분석가라는 직위를 볼 수 있다. 기술에 대한 기업의 요구는 다음과 같이 요약할 수 있다.
SQL 데이터베이스 기본 작업, 기본 데이터 관리;
Excel/SQL 을 사용하여 기본 데이터를 추출, 분석 및 표시할 수 있습니다.
스크립트 언어, 파이썬 또는 R 을 사용하여 데이터를 분석합니다. 을 눌러 섹션을 인쇄할 수도 있습니다
파충류나 공용 데이터 세트와 같은 외부 데이터를 얻을 수 있는 능력이 향상되었습니다.
데이터 보고서를 작성할 수 있는 기본적인 데이터 시각화 기술을 갖추고 있습니다.
회귀 분석, 의사 결정 트리, 분류 및 클러스터 방법 등 일반적으로 사용되는 데이터 마이닝 알고리즘에 익숙합니다.
효율적인 학습 방법이란 무엇입니까? 데이터 분석 과정입니다. 일반적인 데이터 분석가의 학습 여행은 "데이터 수집-데이터 저장 및 추출-데이터 사전 처리-데이터 모델링 및 분석-데이터 시각화" 단계를 통해 수행할 수 있습니다. 이 순서에 따라 단계별로, 당신은 각 부분이 무엇을 완성해야 하는지, 어떤 지식을 배워야 하는지, 어떤 지식이 일시적으로 필요하지 않은지 알게 될 것이다. 한 부분을 연구할 때마다, 실제적인 결과물, 긍정적인 피드백, 성취감을 느낄 수 있다면, 그 안에 더 많은 시간을 할애할 수 있을 것이다. (존 F. 케네디, 공부명언) 문제 해결을 목표로 하면 효율성이 떨어지지 않을 것이다.
위 프로세스에 따라 외부 데이터를 획득해야 하는 분석가와 외부 데이터를 획득할 필요가 없는 분석가의 두 가지 범주로 나뉩니다. 학습 경로는 다음과 같이 요약됩니다.
1. 외부 데이터가 필요한 분석가:
파이썬 파운데이션
아나콘다 파충류
SQL 언어
파이썬 과학 컴퓨팅 패키지: 판더스, numpy, scipy, scikit-learn.
기본 통계
회귀 분석 방법
데이터 마이닝의 기본 알고리즘: 분류 및 클러스터링
모형 최적화: 피쳐 추출
데이터 시각화: seaborn, matplotlib
2. 외부 데이터를 얻을 필요가 없는 분석가:
SQL 언어
파이썬 파운데이션
파이썬 과학 컴퓨팅 패키지: 판더스, numpy, scipy, scikit-learn.
기본 통계
회귀 분석 방법
데이터 마이닝의 기본 알고리즘: 분류 및 클러스터링
모형 최적화: 피쳐 추출
데이터 시각화: seaborn, matplotlib
다음으로, 각 부분에서 무엇을 배워야 하는지, 어떻게 배워야 하는지 이야기해 봅시다.
데이터 수집: 오픈 데이터, 파이썬 크롤러
엔터프라이즈 데이터베이스의 데이터에만 접근하고 외부 데이터를 가져올 필요가 없는 경우 이 섹션을 무시할 수 있습니다.
외부 데이터를 가져오는 두 가지 주요 방법이 있습니다.
첫 번째는 외부 공용 데이터 세트를 가져오는 것입니다. 일부 과학연구기관, 기업, 정부는 데이터를 개방할 것이며, 특정 웹사이트에 가서 다운로드해야 합니다. 이러한 데이터 세트는 일반적으로 비교적 완전하고 품질이 비교적 높습니다.
외부 데이터를 얻는 또 다른 방법은 파충류입니다.
예를 들어, 파충류를 통해 채용 사이트의 한 직위에 대한 채용 정보, 임대 사이트의 한 도시에 대한 임대 정보, 콩꽃잎 점수가 가장 높은 영화 목록, 잘 알려진 점찬, 넷이즈 클라우드 뮤직 댓글 목록을 얻을 수 있습니다. 인터넷에서 수집한 데이터를 바탕으로 어떤 업종, 어떤 인파를 분석할 수 있다.
기어가기 전에 요소 (목록, 사전, 튜플 등 Python 의 기본 사항을 이해해야 합니다. ), 변수, 루프, 함수 (연결된 초보자 자습서가 좋음) ... 그리고 성숙한 파이썬 라이브러리 (URL, BeautifulSoup, requests, scrapy) 를 사용하여 웹 파충류를 구현하는 방법. 초보자인 경우 urllib 와 BeautifulSoup 부터 시작하는 것이 좋습니다. (PS: 후속 데이터 분석에도 파이썬 지식이 필요합니다. 향후 발생하는 문제도 이 자습서에서 볼 수 있습니다.)
온라인 파충류 자습서를 너무 많이 하지 마세요. 파충류는 콩잎 홈페이지를 추천해서 잡을 수 있어요. 한편으로는 웹 페이지 구조가 비교적 간단하지만, 다른 한편으로는 콩잎은 파충류에게 비교적 우호적이다.
기본 파충류를 파악한 후에는 정규식, 사용자 로그인 시뮬레이션, 프록시 사용, 크롤링 빈도 설정, 쿠키 정보 사용 등과 같은 고급 기술도 필요합니다. , 다른 웹 사이트의 안티 크롤러 제한을 처리 할 수 있습니다.
또한 자주 사용하는 전자상거래 사이트, 문답 사이트, 댓글 사이트, 중고 거래 사이트, 결혼 사이트, 채용 사이트의 자료는 모두 좋은 연습 방법이다. 이 사이트들은 매우 분석적인 데이터를 얻을 수 있으며, 가장 중요한 것은 많은 성숙한 코드를 참고할 수 있다는 것이다.
데이터 액세스: SQL 언어
왜 Excel 에 대해 얘기하지 않았는지에 대한 의문이 있을 수 있습니다. 10,000 개 이내의 데이터를 처리할 때 Excel 일반 분석에는 문제가 없습니다. 일단 데이터의 양이 크면 부족할 것이고, 데이터베이스는 이 문제를 잘 해결할 수 있다. 또한 대부분의 기업은 SQL 형식으로 데이터를 저장합니다. 분석가라면 데이터를 조회하고 추출할 수 있는 SQL 의 작업도 이해해야 합니다.
SQL 은 가장 고전적인 데이터베이스 도구로서 대용량 데이터의 저장 및 관리를 가능하게 하며 데이터 추출의 효율성을 크게 향상시킵니다. 다음과 같은 기술을 습득해야 합니다.
특정 상황에서 데이터 추출: 엔터프라이즈 데이터베이스의 데이터는 매우 크고 복잡해야 합니다. 필요한 부분을 추출해야 합니다. 예를 들어, 20 18 의 모든 판매량 데이터, 올해 판매량 상위 50 위 제품 데이터, 상하이, 광둥 사용자의 소비 데이터 ... SQL 은 간단한 명령으로 이러한 작업을 수행할 수 있습니다.
데이터베이스 추가, 삭제, 쿼리, 수정: 데이터베이스에서 가장 기본적인 작업이지만 간단한 명령으로 수행할 수 있으므로 명령만 기억하면 됩니다.
데이터 그룹화 및 합산, 여러 테이블 간의 관계 설정 방법: 이 부분은 SQL 의 고급 작업이며, 여러 테이블 간의 관계는 큐브를 처리할 때 유용하며, 이를 통해 보다 복잡한 데이터를 처리할 수 있습니다.
데이터 전처리: 파이썬 (팬더)
많은 경우, 우리가 얻은 데이터는 깨끗하지 않고, 데이터 중복, 누락, 이상치 등이 있다. 이때 데이터를 정리하고 분석에 영향을 미치는 데이터를 잘 처리해야 보다 정확한 분석 결과를 얻을 수 있다.
예를 들어, 공기질 데이터, 여러 날 동안의 데이터는 장비로 인해 모니터링되지 않고, 일부 데이터는 중복되며, 일부 데이터는 장비 장애 시 유효하지 않습니다. 예를 들어, 사용자 행동 데이터 중 많은 잘못된 작업이 분석에 의미가 없으므로 삭제해야 합니다.
그런 다음 불완전한 데이터와 같은 적절한 방법으로 처리해야 합니다. 이 데이터를 직접 빼거나 인접한 값으로 보완해야 합니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 예술명언) 이것들은 모두 고려해야 할 문제들이다.
데이터 사전 처리의 경우 판다의 사용법을 배우고 일반적인 데이터 세척을 처리합니다. 파악해야 할 지식 포인트는 다음과 같습니다.
선택: 데이터 액세스 (레이블, 특정 값, 부울 인덱스 등). ) 을 참조하십시오
누락된 값 처리: 누락된 데이터 행을 제거하거나 채웁니다.
중복 값 처리: 중복 값 결정 및 삭제
공백 및 예외 처리: 불필요한 공백과 극단적인 예외 데이터를 지웁니다.
관련 작업: 기술 통계, 응용 프로그램, 히스토그램 등
병합: 다양한 논리적 관계를 따르는 병합 작업입니다.
그룹화: 데이터 분할, 개별 실행 기능 및 데이터 재구성
새로 고침: 빠른 피벗 테이블 생성
확률론과 통계 지식
데이터의 전체 분포는 무엇입니까? 전체와 샘플이란 무엇입니까? 중앙값, 대중 수, 평균, 분산 등 기본 통계를 어떻게 적용합니까? 시간 차원이 있다면, 그것은 어떻게 시간에 따라 변하는가? 다른 장면에서는 어떻게 가정 테스트를 합니까? 데이터 분석 방법의 대부분은 통계학의 개념에서 비롯되기 때문에 통계학 지식도 필수적이다. 파악해야 할 지식 포인트는 다음과 같습니다.
기본 통계: 평균, 중앙값, 대중 수, 백분위수, 극값 등.
기타 기술 통계: 편향, 분산, 표준 편차, 중요도 등
기타 통계 지식: 전체와 샘플, 매개변수와 통계, 오차선.
확률 분포 및 가설 검정: 다양한 분포 및 가설 검정 과정
확률 이론 기타 지식: 조건 확률, 베이지안 등.
통계학의 기초지식을 통해 이러한 통계를 이용하여 기초분석을 할 수 있다. 데이터의 지표를 시각화로 설명하면 100 순위가 상위권에 있는 것, 평균수준이 어떠한지, 최근 몇 년 동안의 변화 추세가 어떤지 등 많은 결론을 내릴 수 있다. ...
Python 패키지 Seaborn(python) 을 사용하여 이러한 시각화 분석을 할 수 있습니다. 다양한 시각화 그래픽을 쉽게 그려 지도적인 결과를 얻을 수 있습니다. 가설 검사를 이해하면 샘플 지표와 가정의 전체 지표가 다른지, 검증 결과가 허용 범위 내에 있는지 확인할 수 있습니다.
파이썬 데이터 분석
만약 당신이 어떤 지식을 가지고 있다면, 현재 Python 데이터 분석에 관한 책이 많다는 것을 알게 될 것입니다. 하지만 각 책은 두껍고 학습 저항이 매우 큽니다. 하지만 사실 가장 유용한 정보는 이 책들 중 일부에 불과합니다. 예를 들어, Python 을 사용하여 다양한 경우의 가설을 테스트하면 실제로 데이터를 잘 검증할 수 있습니다.
예를 들어 회귀 분석을 파악하는 방법은 선형 회귀와 논리적 회귀를 통해 실제로 대부분의 데이터에 대한 회귀 분석을 수행하여 비교적 정확한 결론을 도출할 수 있다. 예를 들어 DataCastle 의 훈련 대회' 집값 예측' 과' 창고 예측' 은 모두 회귀 분석을 통해 이뤄질 수 있다. 이 섹션에서 파악해야 할 지식 포인트는 다음과 같습니다.
회귀 분석: 선형 회귀 및 논리적 회귀.
기본 분류 알고리즘: 의사 결정 트리, 무작위 숲 ...
기본 클러스터링 알고리즘: k-means ...
피쳐 공학 기초: 피쳐 선택을 통해 모형을 최적화하는 방법
매개 변수 조정 방법: 매개 변수 최적화 모델을 조정하는 방법
파이썬 데이터 분석 패키지: scipy, numpy, scikit-learn 등.
데이터 분석의 이 단계에서 대부분의 문제는 회귀 분석에 집중하여 해결할 수 있으며, 설명적인 통계 분석과 회귀 분석을 통해 좋은 분석 결론을 얻을 수 있습니다.
물론, 실천이 증가함에 따라 복잡한 문제가 발생할 수 있습니다. 따라서 분류 및 클러스터링과 같은 고급 알고리즘을 이해해야 할 수도 있습니다. 그러면 어떤 알고리즘 모델이 다른 유형의 문제에 더 적합한지 알 수 있을 것입니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 과학명언) 모형 최적화의 경우 피쳐 추출 및 매개변수 조정을 통해 예측 정확도를 높이는 방법을 배워야 합니다. 이것은 데이터 마이닝 및 기계 학습과 약간 비슷합니다. 사실 좋은 데이터 분석가는 초급 데이터 마이닝 엔지니어라고 할 수 있다.
시스템이 실전하다
이때, 너는 이미 기본적인 데이터 분석 능력을 갖추었다. 그러나 사례에 따라 업무 시나리오에 따라 실전을 해야 한다. 만약 당신이 독립적으로 분석 임무를 완수할 수 있다면, 당신은 이미 시장의 대부분의 데이터 분석가를 물리쳤습니다.
실전은 어떻게 진행합니까?
위에서 언급 한 공개 데이터 세트, 관심있는 방향으로 몇 가지 데이터를 찾을 수 있습니다. 다른 관점에서 분석하고 가치있는 결론을 도출 할 수 있는지 확인하십시오.
또 다른 관점은 당신이 당신의 삶과 일에서 분석에 사용할 수 있는 몇 가지 문제를 찾을 수 있다는 것이다. (존 F. 케네디, 일명언) 예를 들어, 위에서 언급한 전자상, 채용, 사교 등의 플랫폼 방향은 논의할 수 있는 많은 문제들이 있습니다.
처음에는 모든 문제를 철저히 고려하지 않을 수도 있지만, 경험이 축적됨에 따라 분석의 방향을 점차 찾을 수 있습니다. 분석의 대략적인 차원은 순위, 평균 수준, 지역 분포, 연령 분포, 상관 분석, 미래 추세 예측 등이다. 경력이 증가함에 따라, 당신은 데이터에 대해 약간의 느낌을 갖게 될 것입니다. 즉, 우리가 흔히 말하는 데이터 사고입니다.
업계 분석 보고서를 보고, 우수한 분석가의 관점을 보고, 문제의 차원을 분석할 수도 있다. 사실 이것은 결코 어려운 일이 아니다.
초급 분석 방법을 파악한 후 데이터 분석대회 (예: 데이터 분석가를 위한 데이터 캐스틀의 3 개 경기) 를 시도해 볼 수도 있습니다. 답안을 제출하면 점수와 순위를 얻을 수 있습니다.
직원 이직 예측 교육 대회
미국 Jinxian 주택 가격 예측 훈련 대회
베이징 PM2.5 농도 분석 훈련 대회
나무 한 그루를 심는 가장 좋은 시간은 10 년 전이고, 그 다음은 현재이다. 이제 데이터 세트를 찾아 시작합시다! !