현재 위치 - 회사기업대전 - 기업 정보 조회 - 데이터 분석 단계는 무엇입니까?

데이터 분석 단계는 무엇입니까?

1. 문제 정의

일반적인 시나리오는 우리가 판매 데이터, 사용자 데이터, 운영 데이터, 제품 생산 데이터 등 기업의 데이터를 분석해야 한다는 것입니다. 전략 개발을 안내하기 위해 이 데이터로부터 어떤 유용한 정보를 얻어야 합니까? 예를 들어, 당신이 해야 할 일은 시장 조사나 산업 분석입니다. 그래서 당신은 이 산업에 대해 어떤 정보를 얻어야 하는지 알아야 합니다.

우선, 분석의 문제가 무엇인지 확인해야 합니다. 당신은 어떤 결론을 내고 싶습니까?

예를 들어, 특정 지역의 대기 질 변화 추세는 무엇입니까?

왕자영요 플레이어의 사용자 초상화는 무엇입니까? 어떤 사람이 돈을 많이 쓰나요?

회사의 판매 성장에 영향을 미치는 핵심 요소는 무엇입니까?

생산 과정에서 생산성과 품질에 영향을 미치는 핵심 지표는 무엇입니까?

어떻게 사용자 초상화를 분석하고 정밀 마케팅을 합니까?

과거 데이터를 기준으로 향후 한 단계의 사용자 행동을 어떻게 예측할 수 있습니까?

이러한 문제는 기존 경험과 지식에서 비롯 될 수 있습니다. 예를 들어, 사용자가 일주일에 서로 다른 시간에 구매하는 양이 다르다는 것을 이미 알고 있다면, 판매량과 시간의 정확한 관계를 분석하여 정확하게 상품을 준비할 수 있습니다. 예를 들어, 최근 몇 년 동안 베이징의 대기 질이 점점 나빠지고 있다는 것을 알고 있습니다. 가능한 요인으로는 공장 배출, 황사, 주민 배출, 날씨 요인 등이 있습니다. 따라서 문제를 정의할 때, 어떤 요소들이 중점적으로 고려되어야 하는지 명확하게 생각해야 한다.

예를 들어, 생산 과정에서 품질에 영향을 미치는 핵심 지표는 무엇입니까, 아니면 원자재입니까? 장비 수준? 노동자 등급? 날씨가 어때요? 프로세스의 복잡성? 수술은 몇 번이나 반복해야 합니까? 이러한 점들은 분명하지 않을 수도 있고, 새로운 분야에 발을 들여놓고 매우 전문적인 지식이 없다면, 더 많은 가능성을 포괄하기 위해 더 넓은 정의가 필요할 수도 있다. (윌리엄 셰익스피어, 햄릿, 지식명언)

문제의 정의는 업무의 핵심 지식을 이해하고 분석에 도움이 될 수 있는 경험을 얻어야 할 수도 있다. 어느 정도까지, 이것은 또한 우리가 종종 데이터 사고라고 부르는 것입니다. 데이터 분석은 종종 우리가 쉽게 찾을 수 없는 관련성을 찾는 데 도움이 되지만, 문제의 정확한 정의는 데이터 분석의 효율성을 크게 높일 수 있다.

어떻게 문제를 더 잘 정의할 수 있을까요?

이를 위해서는 장기 훈련에서 데이터를 찾는 느낌이 필요합니다. 처음에는 많은 필드가 포함된 매우 큰 데이터를 얻을 수 있으며, 이는 매우 어색할 수 있습니다. 어디서부터 시작해야 합니까?

그러나 경험이 있다면 훨씬 좋을 것입니다. 예를 들어, 주자의 속도에 영향을 미치는 신체 요인을 연구하고 싶다면, 우리는 운동선수의 키, 다리 길이, 체중, 심지어 심박수, 혈압, 팔 길이까지 연구할 수 있지만, 운동선수의 겨드랑이 길이를 연구하지는 않을 것이다. 이것은 우리의 기존 지식을 바탕으로 한 것이다. 예를 들어, 지역 집값의 영향 요인을 분석하려는 경우, 도시 인구, 지리적 위치, GDP, 땅값, 물가 수준 등 상식이 있을 수 있습니다. 산업 구조, 문화 상황, 기후 상황 등이 있을 수 있지만, 일반적으로 도시에 있는 여학생의 외모, 미인 비율을 연구하지는 않을 것이다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 남녀명언)

그래서 문제를 많이 분석하면 데이터에 민감하게 되어 데이터 분석으로 말하는 습관을 형성하게 됩니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 데이터명언) 이때 일부 데이터와 자신의 경험을 바탕으로 초보적인 판단과 예측을 할 수도 있다 (물론 전체 샘플의 정확한 예측을 대신할 수는 없다). 이때 너는 기본적으로 데이터 사유가 있다.

2. 데이터 수집

구체적인 문제를 가지고 관련 데이터를 얻어야 한다. 예를 들어 베이징의 공기질 변화 추세를 탐구하려면 최근 몇 년간 베이징의 공기질 데이터, 날씨 데이터, 심지어 공장 데이터, 가스 배출 데이터, 중요한 일정 데이터 등을 수집해야 할 수도 있습니다. 회사 판매에 영향을 미치는 핵심 요소를 분석하려면 회사의 역사적 판매 데이터, 사용자 초상화 데이터, 광고 데이터 등을 호출해야 합니다.

데이터를 얻는 방법에는 여러 가지가 있습니다.

첫째, 회사의 판매 및 사용자 데이터는 엔터프라이즈 데이터베이스에서 직접 가져올 수 있으므로 데이터 추출과 같은 데이터베이스 관리를 완료하려면 SQL 기술이 필요합니다. 예를 들어, 20 17 의 모든 판매량 데이터, 올해 판매량 상위 50 위 제품 데이터, 상하이, 광둥 사용자의 소비 데이터 ... SQL 은 간단한 명령으로 이러한 작업을 수행할 수 있습니다.

두 번째는 외부 공용 데이터 세트를 가져오는 것입니다. 일부 과학연구기관, 기업, 정부는 데이터를 개방할 것이며, 특정 웹사이트에 가서 다운로드해야 합니다. 이러한 데이터 세트는 일반적으로 비교적 완전하고 품질이 비교적 높습니다. 물론 이 방법에는 몇 가지 결함이 있습니다. 일반적으로 데이터는 나중에 발표되지만 객관성과 권위성으로 인해 여전히 큰 가치가 있습니다.

세 번째는 웹 파충류를 쓰고 인터넷에서 데이터를 수집하는 것이다. 예를 들어, 파충류를 통해 채용 사이트의 한 직위에 대한 채용 정보, 임대 사이트의 한 도시에 대한 임대 정보, 콩꽃잎 점수가 가장 높은 영화 목록, 잘 알려진 점찬, 넷이즈 클라우드 뮤직 댓글 목록을 얻을 수 있습니다. 인터넷에서 수집한 데이터를 바탕으로 한 업종, 한 사람을 분석할 수 있습니다. 이는 매우 신뢰할 수 있는 시장 조사 및 경쟁 제품 분석 방법입니다.

물론, bug 를 비교하는 것은 일반적으로 필요한 모든 데이터를 얻을 수 없다는 것입니다. 이는 분석 결과에 어느 정도 영향을 미치지만, 제한된 가용 데이터로 더 많은 유용한 정보를 추출할 수 있는 데는 영향을 미치지 않습니다.

3. 데이터 전처리

현실 세계에서 대부분의 데이터는 불완전하고 일관되지 않은 더러운 데이터이므로 데이터를 직접 분석할 수 없거나 분석 결과가 만족스럽지 않습니다. 데이터 사전 처리 방법에는 데이터 정리, 데이터 통합, 데이터 변환, 데이터 감소 등 여러 가지가 있습니다. 분석에 영향을 미치는 이러한 데이터를 처리해야 보다 정확한 분석 결과를 얻을 수 있습니다.

예를 들어, 공기질 데이터, 여러 날 동안의 데이터는 장비로 인해 모니터링되지 않고, 일부 데이터는 중복되며, 일부 데이터는 장비 장애 시 유효하지 않습니다.

그런 다음 불완전한 데이터와 같은 적절한 방법으로 처리해야 합니다. 이 데이터를 직접 빼거나 인접한 값으로 보완해야 합니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 예술명언) 이것들은 모두 고려해야 할 문제들이다.

물론 여기에는 데이터 그룹화, 기본 설명 통계 계산, 기본 통계 그래프 그리기, 데이터 값 변환, 데이터 정규화 등이 있을 수 있습니다. , 데이터의 분포 특성을 파악하는 데 도움이 되며, 추가 분석 및 모델링의 기초입니다.

4. 데이터 분석 및 모델링

이 섹션에서는 기본 데이터 분석 방법 및 데이터 마이닝 알고리즘, 다양한 방법의 적용 가능한 시나리오 및 적용 가능한 문제를 이해해야 합니다. 분석에서 통계 분석 방법의 남용과 오용은 피해야 한다. 통계 분석 방법의 남용과 오용은 주로 다른 방법으로 해결할 수 있는 문제, 이 방법의 적용의 전제 조건, 이 방법의 데이터 요구 사항이 명확하지 않기 때문이다.

또한 몇 가지 통계 분석 방법을 선택하여 데이터 탐색 및 반복 분석을 수행하는 것도 매우 중요합니다. 각 통계 분석 방법에는 고유한 특성과 한계가 있다. 따라서 일반적으로 몇 가지 방법을 선택하여 반복적으로 분석을 확인해야 하는데, 단순히 하나의 분석 방법의 결과에 근거하여 결론을 도출하는 것은 비과학적이다.

예를 들어, 특정 조건 하에서 판매량이 가격에 비례한다는 것을 알게 되면 이를 바탕으로 선형 회귀 모델을 만들 수 있습니다. 가격과 광고의 관계가 비선형적이라는 것을 알게 되면, 먼저 논리적 회귀 모델을 만들어 분석할 수 있다.

일반적으로 회귀 분석 방법은 분석 요구 사항의 상당 부분을 충족시킬 수 있습니다. 물론 모델을 최적화하고 더 나은 결과를 얻기 위해 데이터 마이닝 알고리즘과 피쳐 추출 방법을 배울 수도 있습니다.

5. 데이터 시각화 및 데이터 보고서 작성

분석 결과의 가장 직접적인 결과는 통계의 설명과 전시이다.

예를 들어, 데이터 분포를 통해 우리는 임금이 가장 높은 5 개 도시를 찾았고, 현재 다양한 언어의 유행 순위, 최근 몇 년간 베이징의 공기질 변화 추세, 콘돔 소비의 지역 분포 ... 이것들은 우리가 간단한 데이터 분석과 시각화를 통해 전시할 수 있는 결과이다.

기타 제품 품질에 영향을 미치는 몇 가지 핵심 지표와 같은 내부 관계를 탐구해야 합니다. 너는 서로 다른 지표와 제품 품질의 상관관계를 분석해야 정확한 결론을 얻을 수 있다. 예를 들어, 미래의 제품 판매량을 예측할 필요가 있습니다. 과거의 데이터를 모델링하여 분석해야 미래의 상황을 더 정확하게 예측할 수 있습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 성공명언)

데이터 분석 보고서는 분석 결과의 직접적인 제시 일뿐만 아니라 관련 상황에 대한 포괄적 인 이해이기도합니다. 우리는 종종 여러 각도에서 다양한 관계를 분석하는 업계 분석 보고서를 본다. 그래서, 당신은 스토리 텔링의 논리가 필요합니다. 거시적인 문제에서 문제의 모든 측면에 이르기까지 어떻게 설득력 있는 결과를 얻을 수 있는지를 실천에서 끊임없이 훈련해야 한다. (존 F. 케네디, 공부명언)

일반적으로 데이터 분석의 일반적인 프로세스는 문제 정의, 데이터 수집, 데이터 사전 처리, 데이터 분석 모델링, 데이터 시각화 및 데이터 보고서 작성과 같은 단계입니다.

copyright 2024회사기업대전