현재 위치 - 회사기업대전 - 기업 정보 조회 - 어떻게 데이터 분석가가 될 수 있을까요? 어떤 기술을 갖추어야 합니까

어떻게 데이터 분석가가 될 수 있을까요? 어떤 기술을 갖추어야 합니까

데이터 분석가를 배우기 전에 달성하고자 하는 목표를 알아야 합니다. 즉, 이 기술을 통해 어떤 문제를 해결하거나 어떤 계획을 달성하고자 하는 것입니다. 이 목표를 통해 자신의 학습 계획을 명확하게 전개하고 그 지식 체계를 명확히 할 수 있다. 명확한 목표 지향만 있고, 학습 필수도 가장 유용한 부분이어야 유효하지 않은 정보를 피하고 학습 효율을 낮출 수 있다.

1, 명확한 지식 프레임 워크 및 학습 경로 < P > 데이터 분석, 데이터 분석가가되고 싶다면 채용 웹 사이트를 방문하여 해당 직책에 대한 요구 사항이 무엇인지 확인할 수 있습니다. 일반적으로 파악해야 할 지식 아키텍처에 대한 예비 이해가 있습니다. 데이터 분석가 직위를 볼 수 있습니다. 기업의 기술 요구 사항은 다음과 같이 요약할 수 있습니다.

SQL 데이터베이스의 기본 운영, 기본적인 데이터 관리 < P > 는 Excel/SQL 을 기본 데이터 추출, 분석 및 전시에 사용합니다.

는 스크립팅 언어, 파이썬 또는 R; < P > 파충류나 공개 데이터 세트와 같은 외부 데이터를 얻을 수 있는 능력 추가 점 < P > 는 데이터 보고서를 작성할 수 있는 기본적인 데이터 시각화 기술을 제공합니다. < P > 회귀 분석, 의사 결정 트리, 분류, 클러스터링 방법 등 일반적으로 사용되는 데이터 마이닝 알고리즘에 익숙합니다.

효율적인 학습 경로는 무엇입니까? 데이터 분석 프로세스입니다. 일반적으로 "데이터 수집-데이터 저장 및 추출-데이터 사전 처리-데이터 모델링 및 분석-데이터 시각화" 와 같은 단계에 따라 데이터 분석가의 학습 여행을 실현할 수 있습니다. 이런 순서로 점진적으로 진행하면 각 부분에서 완성해야 할 목표가 무엇인지, 어떤 지식 포인트를 배워야 하는지, 어떤 지식이 일시적으로 필요하지 않은지 알 수 있을 것이다. (존 F. 케네디, 공부명언) 그런 다음 한 부분을 공부할 때마다 실제 성과 출력, 긍정적인 피드백, 성취감을 가질 수 있어야 더 많은 시간을 투자할 수 있습니다. 문제 해결을 목표로 하면 효율성이 떨어지지 않을 것이다.

위 절차에 따라 외부 데이터를 획득할 필요가 없고 외부 데이터를 획득할 필요가 없는 두 가지 유형의 분석가가 있습니다. 요약 학습 경로는 다음과 같습니다.

1. 외부 데이터 분석가 필요:

파이썬 기본 사항

파이썬 파충류

SQL 언어

파이썬 과학 컴퓨팅 패키지: pandas, scipy 클러스터

모델 최적화: 피쳐 추출

데이터 시각화: seaborn, matplotlib

2. 외부 데이터 분석가 필요 없음:

SQL 언어

python 기본 사항 <; Scikit-learn

통계 기반

회귀 분석 방법

데이터 마이닝 기본 알고리즘: 분류, 클러스터링

모형 최적화: 피쳐 추출

데이터 시각화: seaborn, matploon < P > 데이터 수집: 공개 데이터, Python 파충류 < P > 는 기업 데이터베이스의 데이터만 접하고 외부 데이터를 가져올 필요가 없는 경우 이 섹션을 무시할 수 있습니다.

외부 데이터를 가져오는 방법에는 크게 두 가지가 있습니다. < P > 첫 번째는 외부 공개 데이터 세트를 얻는 것입니다. 일부 과학연구기관, 기업, 정부가 일부 데이터를 공개합니다. 특정 웹사이트에 가서 다운로드해야 합니다. 이러한 데이터 세트는 일반적으로 비교적 완벽하고 품질이 비교적 높다. < P > 외부 데이터 요금을 받는 또 다른 방법은 파충류입니다. < P > 예를 들어 파충류를 통해 채용 사이트의 한 직위에 대한 채용 정보를 얻을 수 있고, 임대 사이트의 한 도시에서 임대 정보를 얻을 수 있으며, 콩꽃잎 점수가 가장 높은 영화 목록을 오르고, 점찬순위, 넷이즈 클라우드 뮤직 평론 순위 목록을 얻을 수 있습니다. 인터넷 등반에 기반한 데이터를 바탕으로, 당신은 어떤 업종, 어떤 집단을 분석할 수 있다. (윌리엄 셰익스피어, 윈스턴, 인터넷명언) < P > 파충류를 하기 전에 요소 (목록, 사전, 튜플 등), 변수, 루프, 함수 (연결된 초보 자습서가 매우 좋음). 그리고 성숙한 파이썬 라이브러리 (urllib, Beauuu) 를 사용하는 방법 초급인 경우 urllib 와 BeautifulSoup 으로 시작하는 것이 좋습니다. (PS: 후속 데이터 분석에도 Python 의 지식이 필요합니다. 앞으로 발생하는 문제도 이 튜토리얼에서 볼 수 있습니다.) < P > 인터넷상의 파충류 자습서는 너무 많지 않습니다. 파충류는 콩잎을 추천하는 웹 페이지 크롤링을 추천합니다. 한편으로는 웹 구조가 비교적 간단하며, 두 번째는 콩잎이 파충류에게 비교적 우호적이라는 것입니다. < P > 기본 파충류를 파악한 후에는 정규 표현식, 사용자 로그인 시뮬레이션, 에이전트 사용, 크롤링 빈도 설정, 쿠키 정보 사용 등 여러 사이트의 반파충류 제한에 대처하기 위한 고급 기술도 필요합니다. < P > 이 외에도 많이 쓰이는 전자상거래 사이트, 문답 사이트, 리뷰 사이트, 중고 거래 사이트, 결혼 사이트, 채용 사이트의 자료는 모두 좋은 연습수다. 이러한 사이트는 매우 분석적인 데이터를 얻을 수 있으며, 가장 중요한 것은 참조할 수 있는 성숙한 코드가 많다는 것입니다. < P > 데이터 액세스: SQL 언어 < P > 왜 Excel 에 대해 얘기하지 않았는지 궁금하실 겁니다. 1, 개 이내의 데이터를 처리할 때 Excel 은 일반 분석에 문제가 없습니다. 일단 데이터의 양이 많으면 힘이 떨어지고 데이터베이스는 이 문제를 잘 해결할 수 있습니다. 그리고 대부분의 기업은 SQL 형식으로 데이터를 저장합니다. 분석가라면 SQL 의 작동을 이해하고 데이터를 조회하고 추출할 수 있어야 합니다.

SQL 은 대용량 데이터의 저장 및 관리를 가능하게 하는 가장 고전적인 데이터베이스 도구로서 데이터 추출의 효율성을 크게 향상시킵니다. 다음과 같은 기술을 습득해야 합니다. < P > 특정 상황에서 데이터 추출: 엔터프라이즈 데이터베이스의 데이터는 반드시 크고 복잡하며 필요한 부분을 추출해야 합니다. 예를 들어, 218 년 모든 판매 데이터 추출, 올해 가장 많이 판매된 5 개 상품의 데이터 추출, 상하이, 광둥 지역 사용자의 소비 데이터 추출 ... SQL 은 간단한 명령을 통해 이러한 작업을 수행할 수 있습니다. < P > 데이터베이스의 추가, 삭제, 검사, 변경: 데이터베이스에서 가장 기본적인 작업이지만 간단한 명령으로 수행할 수 있으므로 명령만 기억하면 됩니다. < P > 데이터의 그룹화 합산, 여러 테이블 간의 연결 설정 방법: 이 섹션은 SQL 의 고급 작업, 여러 테이블 간의 연결이며 다차원, 여러 데이터 세트 작업을 할 때 유용합니다. 더 복잡한 데이터를 처리할 수 있습니다. < P > 데이터 사전 처리: Python(pandas)

우리가 얻은 데이터는 깨끗하지 않고, 데이터의 중복, 누락, 이상치 등이 있는 경우가 많으며, 이 경우 데이터를 세척하고 분석에 영향을 미치는 데이터를 잘 처리해야 보다 정확한 분석 결과를 얻을 수 있다. < P > 예를 들어, 대기 질 데이터 중 상당수는 장비 때문에 모니터링되지 않고, 일부 데이터는 중복으로 기록되고, 일부 데이터는 장비 고장 시 모니터링이 유효하지 않습니다. 예를 들어, 사용자 행동 데이터, 분석에 의미가 없는 많은 잘못된 작업이 있으므로 삭제해야 합니다. < P > 그렇다면 우리는 적절한 방법으로 처리해야 한다. 예를 들면, 장애 데이터, 우리가 직접 이 데이터를 제거할 것인지, 아니면 가까운 값으로 보완할 것인지, 이것들은 모두 고려해야 할 문제이다. < P > 데이터 사전 처리의 경우 pandas 사용법을 배우면 일반 데이터 세척에 전혀 문제가 없습니다. 알아야 할 지식 포인트는 다음과 같습니다.

선택: 데이터 액세스 (레이블, 특정 값, 부울 인덱스 등)

누락 값 처리: 누락 데이터 행 삭제 또는 채우기

중복 값 처리: 중복 값 결정 및 삭제

공백 및 예외 처리: 명확함 히스토그램 등

통합: 다양한 논리적 관계에 맞는 통합 작업

그룹: 데이터 분할, 개별 실행 함수, 데이터 재구성

Reshaping: 빠른 피벗 테이블 생성

확률 이론 및 통계 지식

데이터 전체 분포는 어떻게 됩니까? 전체와 샘플이란 무엇입니까? 중앙값, 중수, 평균, 분산 등 기본적인 통계량은 어떻게 적용됩니까? 시간 차원이 있다면 시간에 따라 변하는 게 어떤 건가요? 어떻게 다른 장면에서 가설 테스트를 할 수 있습니까? 데이터 분석 방법의 대부분은 통계학의 개념에서 비롯되기 때문에 통계학의 지식도 필수적이다. 파악해야 할 지식 포인트는 < P > 기본 통계: 평균, 중앙값, 대중 수, 백분위수, 극값 등 < P > 기타 설명 통계: 편차, 분산, 표준 편차, 중요도 등 < P > 기타 통계: 전체 및 샘플 시각화를 통해 데이터의 지표를 설명하면, 상위 1 위권, 평균수준이 어떤지, 최근 몇 년 동안의 변화 추세가 어떤지 등 많은 결론을 내릴 수 있다. < P > python 의 패키지 Seaborn(python 패키지) 을 사용하여 이러한 시각화 분석을 할 수 있습니다. 쉽게 각 그림을 그릴 수 있습니다. 가정 검사를 이해한 후 샘플 지표와 가정의 전체 지표 간에 차이가 있는지 여부를 판단하고 결과가 허용 가능한 범위 내에 있는지 확인할 수 있습니다.

python 데이터 분석 < P > 좀 알고 계시다면 현재 시중에 Python 데이터 분석 책이 많이 있다는 것을 알 수 있습니다. 하지만 각각 두껍고 학습 저항이 매우 큽니다. 하지만 실제로 가장 유용한 정보 부분은 이 책들 중 극히 일부에 불과하다. (알버트 아인슈타인, 지식명언) 예를 들어, Python 을 사용하여 다른 사례에 대한 가설 검증을 하면 실제로 데이터를 잘 검증할 수 있습니다. < P > 예를 들어 회귀 분석 방법을 익히면 선형 회귀와 논리적 회귀를 통해 대부분의 데이터를 회귀 분석하고 비교적 정확한 결론을 내릴 수 있습니다. 예를 들어 DataCastle 의 훈련 대회' 집값 예측' 과' 직위예측' 은 모두 회귀 분석을 통해 이뤄질 수 있다. 이 섹션에서 파악해야 할 지식 포인트는 다음과 같습니다. < P > 회귀 분석: 선형 회귀, 논리적 회귀 < P > 기본 분류 알고리즘: 의사 결정 트리, 임의 숲 ... < P > 기본 클러스터링 알고리즘: K-Means ... < P > 피쳐 엔지니어링 기초:. Scikit-learn 등 < P > 는 데이터 분석 단계에서 회귀 분석 방법을 중점적으로 이해하고, 대부분의 문제를 해결할 수 있으며, 설명적인 통계 분석과 회귀 분석을 통해 좋은 분석 결론을 얻을 수 있습니다. < P > 물론, 실천량이 증가함에 따라 복잡한 문제가 발생할 수 있습니다. 분류, 클러스터링 등의 고급 알고리즘을 이해해야 할 수도 있습니다. 그런 다음 다양한 유형의 문제에 직면할 때 어떤 알고리즘 모델을 사용하는 것이 더 적합한지 알 수 있습니다. 모델 최적화에 대해 피쳐 추출, 매개변수 조정을 통해 예측의 정확도를 높이는 방법을 배워야 합니다. 이것은 약간의 데이터 마이닝과 기계 학습의 맛이지만, 사실 좋은 데이터 분석가는 초급 데이터 마이닝 엔지니어라고 할 수 있을 것이다. < P > 시스템 실전 < P > 이 시점에서 당신은 이미 데이터 분석의 기본 능력을 갖추게 되었습니다. 그러나 사례별, 업무 시나리오별로 실전을 해야 한다. 분석 임무를 독립적으로 완수할 수 있다면, 이미 시중의 대부분의 데이터 분석가를 물리칠 수 있을 것이다. (윌리엄 셰익스피어, 윈스턴, 분석, 분석, 분석, 분석, 분석)

실전은 어떻게 진행할까? < P > 위에서 언급한 공개 데이터 세트는 관심 있는 방향의 데이터를 찾아 다양한 각도에서 분석해 보고 어떤 가치 있는 결론을 얻을 수 있는지 확인할 수 있습니다. < P > 또 다른 시각은 생활이나 업무에서 분석에 사용할 수 있는 몇 가지 문제를 발견할 수 있다는 것이다. 예를 들면 위에서 언급한 전기상, 채용, 사교 등 플랫폼 등에서 발굴할 수 있는 많은 문제가 있다. < P > 를 시작할 때 고려할 수 있는 문제는 그다지 주도면밀하지 않지만, 경험이 축적됨에 따라 분석 방향, top 목록, 평균 수준, 지역 분포, 연령 분포, 관련성 분석, 미래 추세 예측 등 어떤 일반 분석 차원을 찾을 수 있습니다. 경험이 증가함에 따라, 당신은 데이터에 대한 자신의 느낌을 갖게 될 것입니다. 이것이 바로 우리가 흔히 말하는 데이터 사고입니다. < P > 업계의 분석 보고서도 볼 수 있고, 우수한 분석가가 문제를 바라보는 관점과 문제의 차원을 볼 수 있지만, 사실 이것은 결코 어려운 일이 아니다.

초급 분석 방법을 숙지한 뒤 데이터 분석 콘테스트 (예: 데이터 분석가를 위한 DataCastle 의 맞춤형 3 개 콘테스트) 를 시도해 보고 답안을 제출하면 점수와 순위를 얻을 수 있다.

직원 이직 예측 훈련 대회

미국 킹컨티 집값 예측 훈련 대회

베이징 지금 가서 데이터 세트를 찾아 시작합시다! !

copyright 2024회사기업대전