현재 위치 - 회사기업대전 - 중국 기업 정보 - 데이터 분석가가 되려면 어떻게 해야 하나요? 어떤 기술이 필요합니까?

데이터 분석가가 되려면 어떻게 해야 하나요? 어떤 기술이 필요합니까?

데이터 분석가가 되기 전에 무엇을 달성하고 싶은지 알아야 합니다. 즉, 이 기술을 통해 어떤 문제나 계획을 해결하고 싶으신가요? 이 목표를 통해 자신의 학습 계획을 명확하게 개발하고 지식 시스템을 명확하게 할 수 있습니다. 명확한 목표 지향성과 학습에 필요하고 가장 유용한 부분만이 학습 효율성을 저하시키는 잘못된 정보를 피할 수 있습니다.

1. 지식 프레임워크와 학습 경로를 명확히 합니다.

데이터 분석을 위해 데이터 분석가가 되고 싶다면 채용 웹사이트에 가서 요구 사항을 확인할 수 있습니다. 해당 직위란 무엇입니까? 일반적으로 마스터해야 할 지식 구조에 대한 사전 이해가 있게 됩니다. 데이터 분석가 직위를 살펴보면 회사의 기술 요구 사항을 다음과 같이 요약할 수 있습니다.

SQL 데이터베이스의 기본 운영, 기본 데이터 관리

Excel/SQL Basic을 사용할 수 있습니다. 데이터 추출, 분석 및 표시

데이터 분석을 위한 스크립트 언어(Python 또는 R)를 사용할 수 있어야 합니다.

크롤러와 같은 외부 데이터를 얻을 수 있는 능력이나 공공 데이터에 대한 친숙도, 플러스 컬렉션입니다.

기본적인 데이터 시각화 기술을 알고 데이터 보고서를 작성할 수 있습니다.

일반적으로 사용되는 데이터 마이닝 알고리즘에 익숙합니다. 회귀 분석, 의사 결정 트리, 분류 및 클러스터링 방법;

효율적인 학습 경로는 무엇입니까? 데이터를 분석하는 과정입니다. 일반적으로 데이터 분석가의 학습 여정은 "데이터 수집 - 데이터 저장 및 추출 - 데이터 전처리 - 데이터 모델링 및 분석 - 데이터 시각화" 단계를 따라 실현될 수 있습니다. 이 순서대로 단계별로 각 부분의 목표가 무엇인지, 어떤 지식 포인트를 배워야 하는지, 어떤 지식이 일시적으로 불필요한지 알게 될 것입니다. 그러면 부품을 배울 때마다 실제 출력 결과, 긍정적인 피드백 및 성취감을 얻을 수 있으며, 그러면 기꺼이 해당 부품에 더 많은 시간을 투자하게 될 것입니다. 문제 해결을 목표로 한다면 효율성은 당연히 낮지 않을 것입니다.

위 프로세스에 따라 분석가를 외부 데이터를 얻을 필요가 없는 사람과 외부 데이터를 얻을 필요가 없는 사람의 두 가지 유형으로 분류합니다. 학습 경로를 요약하면 다음과 같습니다.

p>

1. 외부 데이터를 확보해야 하는 분석가:

Python 기본 지식

Python 크롤러

SQL 언어

Python 과학 컴퓨팅 패키지: pandas, numpy, scipy, scikit-learn

통계의 기초

회귀 분석 방법

데이터 마이닝을 위한 기본 알고리즘: 분류, 클러스터링

모델 최적화: 특징 추출

데이터 시각화: seaborn, matplotlib

2. 외부 데이터 분석가가 필요하지 않습니다:

SQL 언어

Python의 기본 지식

Python 과학 컴퓨팅 패키지: pandas, numpy, scipy, scikit-learn

통계 기본

회귀 분석 방법

기본 데이터 마이닝 알고리즘: 분류, 클러스터링

모델 최적화: 특징 추출

데이터 시각화: seaborn, matplotlib

다음 , 각 부분에서 무엇을 배워야 하는지에 대해 이야기하겠습니다.

데이터 획득: 공개 데이터, 파이썬 크롤러

기업 데이터베이스에 있는 데이터만 건드리고 외부 데이터를 얻을 필요가 없다면 이 부분은 무시해도 된다.

외부 데이터를 얻는 두 가지 주요 방법은 다음과 같습니다.

첫 번째는 외부 공개 데이터 세트를 얻는 것입니다. 일부 과학 연구 기관, 기업 및 정부에서는 이러한 데이터를 다운로드하려면 특정 웹사이트로 이동해야 합니다. 이러한 데이터 세트는 일반적으로 완전하고 상대적으로 품질이 높습니다.

외부 데이터 요금을 받는 또 다른 방법은 크롤러를 이용하는 것입니다.

예를 들어, 크롤러를 사용하면 채용 웹사이트에서 특정 직위에 대한 채용 정보를 얻을 수 있고, 대여 웹사이트에서 특정 도시의 대여 정보를 크롤링하고, 가장 높은 순위를 기록한 영화 목록을 크롤링할 수 있습니다. Douban에서 평가를 받고 Zhihu 좋아요 순위, NetEase Cloud 음악 리뷰 순위 목록을 얻으세요. 인터넷에서 크롤링된 데이터를 기반으로 특정 산업, 특정 집단을 분석할 수 있습니다.

크롤링하기 전에 요소(목록, 사전, 튜플 등), 변수, 루프, 함수(링크된 초보자 튜토리얼이 매우 훌륭함) 등 Python에 대한 몇 가지 기본 지식을 이해해야 합니다. 성숙한 Python 라이브러리(urllib, BeautifulSoup, 요청, scrapy)를 사용하여 웹 크롤러를 구현하는 방법. 초보자라면 urllib, BeautifulSoup으로 시작하는 것을 추천합니다. (PS: 후속 데이터 분석에도 Python에 대한 지식이 필요합니다. 나중에 직면하는 문제도 이 튜토리얼에서 볼 수 있습니다.)

크롤러를 시작하려면 인터넷에 크롤러 튜토리얼이 너무 많아서는 안 됩니다. 저는 Douban의 웹 크롤링을 추천합니다. 한편으로는 웹페이지 구조가 비교적 단순하고, 다른 한편으로는 Douban은 크롤러에게 비교적 친숙합니다.

기본 크롤러를 마스터한 후에도 안티 크롤러를 처리하려면 정규식, 시뮬레이션된 사용자 로그인, 프록시 사용, 크롤링 빈도 설정, 쿠키 정보 사용 등과 같은 몇 가지 고급 기술이 필요합니다. 다른 웹 사이트 제한.

이 밖에도 자주 이용하는 전자상거래 사이트, Q&A 사이트, 리뷰 사이트, 중고 거래 사이트, 데이트 사이트, 채용 사이트 등의 데이터도 모두 좋은 연습 방법이다. 이러한 웹사이트는 매우 분석적인 데이터를 얻을 수 있습니다. 가장 중요한 것은 참조할 수 있는 성숙한 코드가 많다는 것입니다.

데이터 액세스: SQL 언어

왜 Excel이 언급되지 않는지 궁금하실 수 있습니다. 10,000개 이내의 데이터를 다룰 때 엑셀은 일반적인 분석에는 문제가 없습니다. 데이터의 양이 많으면 감당하기 힘들겠지만, 데이터베이스는 이 문제를 아주 잘 해결합니다. 그리고 대부분의 회사는 데이터를 SQL 형식으로 저장합니다. 분석가라면 SQL의 작동 방식도 이해하고 데이터를 쿼리하고 추출할 수 있어야 합니다.

가장 고전적인 데이터베이스 도구인 SQL은 대용량 데이터의 저장 및 관리 가능성을 제공하고 데이터 추출 효율성을 크게 향상시킵니다. 다음 기술을 숙달해야 합니다.

특정 상황에서 데이터 추출: 기업 데이터베이스의 데이터는 크고 복잡해야 하며 필요한 부분을 추출해야 합니다. 예를 들어, 필요에 따라 2018년 전체 판매 데이터를 추출하고, 올해 가장 많이 판매된 50개 제품의 데이터를 추출하고, 상하이와 광동 지역 사용자의 소비 데이터를 추출할 수 있습니다. SQL은 다음을 통해 이러한 작업을 완료하는 데 도움을 줄 수 있습니다. 간단한 명령.

데이터베이스 추가, 삭제, 쿼리, 수정: 데이터베이스의 가장 기본적인 작업이지만 간단한 명령어로도 가능하므로 명령어만 기억하면 됩니다.

데이터 그룹화 및 집계, 여러 테이블 간의 연결 설정 방법: 이 부분은 SQL의 고급 작업, 여러 테이블 간의 연결, 다차원 및 다중 데이터 세트를 처리할 때 매우 유용합니다. 때로는 더 복잡한 데이터를 처리할 수도 있습니다.

데이터 전처리: Python(pandas)

우리가 얻는 데이터는 중복, 누락된 데이터, 이상치 등으로 깨끗하지 않은 경우가 많습니다. 데이터를 정제하고 분석에 영향을 미치는 데이터를 처리함으로써 보다 정확한 분석 결과를 얻을 수 있습니다.

예를 들어 대기 질 데이터의 경우 장비 문제로 모니터링되지 않는 데이터가 많고, 일부 데이터는 반복적으로 기록되고, 일부 데이터는 장비 고장으로 인해 모니터링에 유효하지 않은 경우도 있습니다. 예를 들어, 사용자 행동 데이터에는 분석에 의미가 없어 삭제가 필요한 잘못된 연산이 많이 있습니다.

그러면 불완전한 데이터 등 상응하는 방법을 사용하여 처리해야 합니다. 이 데이터를 직접 제거해야 할까요, 아니면 가까운 값을 사용하여 완료해야 할까요? .

데이터 전처리의 경우 팬더 사용법을 배우면 일반적인 데이터 정리를 다루는 데 문제가 없습니다.

마스터해야 할 지식 포인트는 다음과 같습니다:

선택: 데이터 액세스(라벨, 특정 값, 부울 인덱스 등)

누락된 값 처리: 삭제 또는 누락 채우기 데이터 행

중복 값 처리: 중복 값 판단 및 삭제

공간 및 이상값 처리: 불필요한 공백 및 극단적이고 비정상적인 데이터 삭제

관련 작업: 설명 통계, 적용, 히스토그램 등

병합: 다양한 논리적 관계를 따르는 병합 작업

그룹: 데이터 분할, 별도 함수 실행, 데이터 재구성

재구성: 신속한 피벗 테이블 생성

확률 이론 및 통계에 대한 지식

데이터의 전반적인 분포는 어떻습니까? 모집단과 표본이란 무엇입니까? 중앙값, 최빈값, 평균, 분산 등 기본 통계를 어떻게 적용하나요? 시간 차원이 있다면 시간이 지남에 따라 어떻게 변합니까? 다양한 시나리오에서 가설 검정을 수행하는 방법은 무엇입니까? 대부분의 데이터 분석 방법은 통계의 개념에서 파생되므로 통계에 대한 지식도 필수적입니다. 마스터해야 할 지식 포인트는 다음과 같습니다:

기본 통계: 평균, 중앙값, 최빈값, 백분위수, 극단값 등.

기타 기술 통계: 왜도, 분산, 표준편차, 유의성 등

기타 통계 지식: 모집단 및 표본, 모수 및 통계, ErrorBar

확률 분포 및 가설 검정: 다양한 분포, 가설 검정 프로세스

기타 확률 이론 지식: 조건부 확률, 베이즈 등

통계에 대한 기본 지식이 있으면 이러한 통계를 활용하여 기본적인 분석을 수행할 수 있습니다. 데이터 지표를 시각적으로 설명하면 어느 것이 상위 100위 안에 있는지, 평균 수준은 무엇인지, 최근 몇 년간 변화하는 추세는 무엇인지 등 실제로 많은 결론을 도출할 수 있습니다...

이러한 시각적 분석을 위해 Python 패키지인 Seaborn(python 패키지)을 사용하면 다양한 시각적 그래픽을 쉽게 그릴 수 있고 유익한 결과를 얻을 수 있습니다. 가설검정을 이해한 후에는 표본지표와 가정된 전체지표 사이에 차이가 있는지 판단하고, 그 결과가 수용 가능한 범위 내에 있는지 검증할 수 있습니다.

파이썬 데이터 분석

어느 정도 지식이 있으면 시중에 파이썬 데이터 분석 서적이 실제로 많다는 것을 알 수 있지만, 하나하나의 두께가 너무 두껍고 학습 저항이 크다. 매우 높다. 그러나 사실 가장 유용한 정보는 이 책들의 극히 일부일 뿐입니다. 예를 들어 Python을 사용하여 다양한 사례에 대한 가설 테스트를 구현하면 실제로 데이터를 매우 잘 확인할 수 있습니다.

예를 들어 선형회귀, 로지스틱 회귀 등 회귀분석 방법을 익히면 실제로 대부분의 데이터에 대해 회귀분석을 수행해 비교적 정확한 결론을 도출할 수 있다. 예를 들어 DataCastle의 교육 대회인 "집값 예측"과 "일자리 예측"은 모두 회귀 분석을 통해 구현될 수 있습니다. 이 부분에서 마스터해야 할 지식 포인트는 다음과 같습니다.

회귀 분석: 선형 회귀, 로지스틱 회귀

기본 분류 알고리즘: 의사 결정 트리, 랜덤 포레스트...

기본 클러스터링 알고리즘: k-평균...

특성 추출의 기본: 특성 선택을 사용하여 모델을 최적화하는 방법

매개변수 조정 방법: 방법 매개변수를 조정하여 모델 최적화

Python 데이터 분석 패키지: scipy, numpy, scikit-learn 등.

데이터 분석의 이 단계에서는 회귀 분석 방법을 이해하는 데 중점을 둡니다. 대부분의 문제는 기술 통계 분석을 사용하여 해결할 수 있으며 회귀 분석을 사용하면 확실히 좋은 분석 결론을 얻을 수 있습니다.

물론 연습이 늘어나면서 몇 가지 복잡한 문제에 직면할 수 있으며 분류, 클러스터링과 같은 고급 알고리즘을 이해해야 할 수도 있으며, 그러면 다양한 문제를 처리하는 방법을 알게 될 것입니다. 알고리즘 모델은 다양한 유형의 문제에 더 적합합니까? 모델 최적화를 위해서는 특징 추출 및 매개변수 조정을 통해 예측 정확도를 높이는 방법을 배워야 합니다. 이는 데이터 마이닝 및 기계 학습과 비슷합니다. 실제로 훌륭한 데이터 분석가는 주니어 데이터 마이닝 엔지니어로 간주되어야 합니다.

시스템 전투

이때 당신은 이미 데이터 분석의 기본 능력을 갖추고 있습니다. 하지만 여전히 다양한 사례와 다양한 비즈니스 시나리오를 기반으로 구현해야 합니다.

분석 작업을 독립적으로 완료할 수 있다면 시장에 있는 대부분의 데이터 분석가를 물리칠 수 있을 것입니다.

실제 전투는 어떻게 진행하나요?

위에서 언급한 공개 데이터 세트의 경우, 관심 있는 방향으로 일부 데이터를 찾고 이를 다각도로 분석해 어떤 가치 있는 결론을 얻을 수 있는지 확인할 수 있습니다.

또 다른 관점은 당신의 삶과 일에서 분석에 활용될 수 있는 문제들을 찾을 수 있다는 것입니다. 예를 들어 전자상거래, 채용, 소셜 분야에서 탐구할 수 있는 문제들이 많이 있습니다. 위에서 언급한 네트워킹 및 기타 플랫폼.

처음에는 그 이슈를 그다지 종합적으로 고려하지 않았을 수도 있지만, 경험이 쌓이면서 점차적으로 상위리스트, 평균레벨 등 일반적인 분석 차원은 무엇인지 찾아보게 될 것입니다. , 지역분포, 연령분포, 상관관계 분석, 미래 동향 예측 등 경험이 늘어남에 따라 데이터에 대해 어느 정도 감정을 가지게 됩니다. 이것이 우리가 일반적으로 데이터 사고라고 부르는 것입니다.

또한 업계 분석 보고서를 보면 훌륭한 분석가들이 어떻게 문제를 바라보고 문제의 차원을 분석하는지 확인할 수 있습니다. 사실 이는 어려운 일이 아닙니다.

기본 분석 방법을 익힌 후에는 DataCastle이 데이터 분석가를 위해 특별히 맞춤화한 세 가지 대회와 같은 일부 데이터 분석 대회에 참가해 점수와 순위를 얻을 수도 있습니다.

p>

직원 이직률 예측 훈련 대회

미국 킹카운티 주택 가격 예측 훈련 대회

베이징 PM2.5 농도 분석 훈련 대회

나무 심기 가장 좋은 때는 10년 전이고, 두 번째로 좋은 때는 지금입니다. 지금 바로 데이터세트를 찾아 시작해 보세요! !

copyright 2024회사기업대전