1. 문제 정의
일반적인 시나리오는 기업 데이터를 분석해야 한다는 것입니다. 예를 들어 회사에는 일반적으로 판매 데이터, 사용자 데이터, 운영 데이터, 제품 생산 데이터가 있습니다. ...전략 수립을 안내하기 위해 이 데이터에서 어떤 유용한 정보를 얻어야 합니까? 또 다른 예로, 시장 조사나 업계 분석을 수행해야 한다면 해당 업계에 대해 어떤 정보를 얻어야 하는지 알아야 합니다.
먼저 어떤 문제를 분석해야 할까요? 당신은 어떤 결론을 내리고 싶나요?
예를 들어 특정 지역의 대기 질 변화 추세는 어떻습니까?
Honour of Kings 플레이어의 사용자 초상화는 어떤 모습인가요? 그들은 어떤 종류의 사람들을 자주 소비합니까?
회사의 매출 성장에 영향을 미치는 주요 요인은 무엇입니까?
생산과정에서 생산능력과 품질에 영향을 미치는 핵심지표는 무엇인가요?
사용자 인물 사진을 분석하고 정확한 마케팅을 수행하는 방법은 무엇입니까?
과거 데이터를 기반으로 미래 특정 단계의 사용자 행동을 예측하는 방법은 무엇입니까?
이러한 질문은 귀하의 기존 경험과 지식에서 발생할 수 있습니다. 예를 들어, 사용자가 주중 서로 다른 시간대에 서로 다른 금액을 구매한다는 것을 이미 알고 있는 경우 매출과 시간 간의 정확한 관계를 분석하여 정확하게 재고를 준비할 수 있습니다. 또 다른 예로, 최근 몇 년 동안 베이징의 대기 질이 악화되고 있다는 것을 알고 있습니다. 가능한 요인은 공장 배출, 모래폭풍, 주민 배출, 기상 요인 등입니다. 그런 다음 문제를 정의할 때 어떤 요인이 필요한지 명확하게 생각해야 합니다. 분석에 집중합니다.
몇 가지 질문은 명확하지 않습니다. 예를 들어 생산 과정에서 품질, 원자재에 영향을 미치는 핵심 지표는 무엇입니까? 장비레벨? 노동자 수준? 기상 조건? 특정 링크의 프로세스는 얼마나 복잡합니까? 작업을 몇 번 반복해야 합니까? ...이것들은 명확하지 않을 수도 있고, 새로운 분야에 진입하고 있고 전문적인 지식이 없기 때문에 정의해야 할 문제는 더 광범위하고 더 많은 가능성을 포괄해야 합니다.
문제를 정의하려면 비즈니스의 핵심 지식을 이해하고 분석 수행에 도움이 될 수 있는 경험을 쌓아야 할 수도 있습니다. 어느 정도는 우리가 흔히 말하는 데이터 사고이기도 하다. 데이터 분석은 우리가 찾기 어려운 상관관계를 발견하는 데 도움이 되는 경우가 많지만, 문제를 정확하게 정의하면 데이터 분석의 효율성이 크게 향상될 수 있습니다.
문제를 어떻게 더 잘 정의할 수 있나요?
장기 훈련을 하면서 데이터에 대한 느낌을 찾는 것이 필요합니다. 처음에는 필드가 많고 매우 많은 양의 데이터를 얻으면 어디에서 해야 할지 혼란스러울 수 있습니다. 시작해야 합니다. 어디서부터 시작해야 할까요?
하지만 경험이 있으면 훨씬 더 좋을 것 같아요. 예를 들어, 주자의 속도에 영향을 미치는 신체적 요인을 연구하려는 경우 운동선수의 키, 다리 길이, 체중, 심박수, 혈압, 팔 길이까지 연구할 수 있지만 운동선수의 겨드랑이 털 길이는 연구할 수 없습니다. . 이것은 우리가 이미 갖고 있는 지식을 바탕으로 한 것입니다. 또 다른 예로, 특정 장소의 주택 가격에 영향을 미치는 요소를 분석하려면 도시 인구, 지리적 위치, GDP, 토지 가격, 가격 수준과 같은 상식이 있을 수 있으며 더 심층적인 정보에는 다음이 포함될 수 있습니다. 산업 구조, 문화적 지위, 기후 조건. 그런데 일반적으로 우리는 도시 소녀들의 외모나 미인의 비율을 연구하지 않습니다.
그래서 더 많은 문제를 분석하다 보면 어느 정도 데이터에 대한 민감도가 생기고, 그리하여 데이터를 활용해 분석하고 데이터로 말하는 습관이 생기게 됩니다. 이때 일부 데이터와 자신의 경험을 바탕으로 예비적인 판단과 예측도 할 수 있습니다(물론 이것이 완전한 표본의 정확한 예측을 대체할 수는 없습니다). 이때 기본적으로 데이터 사고가 있습니다.
2. 데이터 수집
구체적인 질문에 대해서는 관련 데이터를 수집해야 합니다. 예를 들어 베이징의 대기질 변화 추세를 탐색하려면 최근 몇 년간 베이징의 대기질 데이터, 날씨 데이터는 물론 공장 데이터, 가스 배출 데이터, 중요한 일정 데이터 등을 수집해야 할 수도 있습니다. 기업의 매출에 영향을 미치는 주요 요인을 분석하려면 해당 기업의 과거 매출 데이터, 사용자 인물 데이터, 광고 데이터 등을 불러와야 합니다.
데이터를 얻는 방법에는 여러 가지가 있습니다.
먼저 회사의 매출 및 사용자 데이터를 기업 데이터베이스에서 직접 검색할 수 있기 때문에 데이터 추출 등 데이터베이스 관리 작업을 완료하려면 SQL 기술이 필요합니다.
예를 들어, 필요에 따라 2017년 전체 판매 데이터를 추출하고, 올해 가장 많이 판매된 50개 제품의 데이터를 추출하고, 상하이와 광동 지역 사용자의 소비 데이터를 추출할 수 있습니다... SQL은 다음을 통해 이러한 작업을 완료하는 데 도움을 줄 수 있습니다. 간단한 명령.
두 번째는 외부 공개 데이터 세트를 얻는 것입니다. 일부 과학 연구 기관, 기업 및 정부에서는 이러한 데이터를 다운로드하려면 특정 웹사이트로 이동해야 합니다. 이러한 데이터 세트는 일반적으로 상대적으로 완전하고 품질이 상대적으로 높습니다. 물론 이 방법에도 몇 가지 단점이 있습니다. 일반적으로 데이터가 늦게 공개되지만 객관성과 권위성 때문에 여전히 큰 가치를 갖습니다.
세 번째 방법은 웹 크롤러를 작성하여 인터넷에서 데이터를 수집하는 것입니다. 예를 들어, 크롤러를 사용하여 채용 웹사이트에서 특정 직위에 대한 채용 정보를 얻고, 대여 웹사이트에서 특정 도시의 대여 정보를 크롤링하고, Douban에서 평점이 가장 높은 영화 목록을 크롤링하고, Zhihu는 순위 및 NetEase Cloud 음악 리뷰 순위 목록을 좋아합니다. 인터넷에서 크롤링된 데이터를 기반으로 특정 산업과 특정 그룹을 분석할 수 있으며 이는 매우 신뢰할 수 있는 시장 조사 및 경쟁 제품 분석 방법입니다.
물론 버그는 일반적으로 필요한 모든 데이터를 얻을 수 없다는 점이며 이는 분석 결과에 일정한 영향을 주지만 더 유용한 정보를 추출하기 위해 얻을 수 있는 데이터에는 영향을 미치지 않습니다.
3. 데이터 전처리
실제 데이터는 일반적으로 불완전하고 일관성이 없으며 더러운 데이터이므로 데이터를 직접 분석하는 것이 불가능하거나 분석 결과가 만족스럽지 않습니다. 데이터 전처리 방법에는 데이터 정리, 데이터 통합, 데이터 변환, 데이터 축소 등 다양한 방법이 있습니다. 분석에 영향을 미치는 데이터를 처리해야만 보다 정확한 분석 결과를 얻을 수 있습니다.
예를 들어 대기 질 데이터의 경우 장비 문제로 모니터링되지 않는 데이터가 많고, 일부 데이터는 반복적으로 기록되고, 일부 데이터는 장비 고장으로 인해 모니터링에 유효하지 않은 경우도 있습니다.
그러면 불완전한 데이터 등 상응하는 방법을 사용하여 처리해야 합니다. 이 데이터를 직접 제거해야 할까요, 아니면 가까운 값을 사용하여 완료해야 할까요? .
물론 여기에는 데이터 그룹화, 기본 기술 통계 계산, 기본 통계 그래픽 그리기, 데이터 값 변환, 데이터 정규화 등이 있을 수 있으며 이는 분포 특성을 익히는 데 도움이 됩니다. 데이터는 추가 심층 분석 및 모델링의 기초가 됩니다.
4. 데이터 분석 및 모델링
이 부분에서는 기본 데이터 분석 방법, 데이터 마이닝 알고리즘을 이해하고 다양한 방법의 적용 가능한 시나리오와 적합한 문제를 이해해야 합니다. 분석 중에는 통계 분석 방법의 남용 및 오용을 피해야 합니다. 통계분석 방법의 남용과 오용은 주로 그 방법이 어떤 유형의 문제를 해결할 수 있는지, 방법의 적용을 위한 전제조건, 방법의 데이터 요구사항에 대한 불분명한 이해에서 발생합니다.
또한 데이터에 대한 탐색적이고 반복적인 분석을 수행하려면 여러 가지 통계 분석 방법을 선택하는 것도 매우 중요합니다. 각 통계 분석 방법에는 고유한 특성과 한계가 있으므로 분석을 반복적으로 확인하려면 일반적으로 여러 가지 방법을 선택해야 합니다. 단 하나의 분석 방법의 결과를 바탕으로 범주적인 결론을 내리는 것은 비과학적입니다.
예를 들어 특정 조건에서 판매량과 가격이 정비례한다는 사실을 발견했다면 이를 기반으로 가격과 광고가 비선형임을 발견하면 선형 회귀 모델을 구축할 수 있습니다. 먼저 로지스틱 회귀 모델을 구축하여 분석을 수행할 수 있습니다.
일반적으로 회귀 분석 방법은 분석 요구 사항의 상당 부분을 충족할 수 있습니다. 물론 일부 데이터 마이닝 알고리즘과 특징 추출 방법을 배워 자신의 모델을 최적화하고 더 나은 결과를 얻을 수도 있습니다.
5. 데이터 시각화 및 데이터 보고서 작성
분석 결과의 가장 직접적인 결과는 통계의 설명과 표시입니다.
예를 들어, 데이터 분포를 통해 데이터 분석을 통해 임금이 가장 높은 5개 도시, 현재 다양한 언어의 인기 순위, 최근 몇 년간 베이징의 대기 질 변화 추세, 콘돔 소비의 지역 분포... ...간단한 데이터 분석과 시각화를 통해 확인할 수 있는 결과입니다.
제품 품질에 영향을 미치는 가장 중요한 지표와 같은 내부 관계에 대한 심층적인 탐색이 필요한 경우도 있으며 올바른 결론을 내리기 전에 다양한 지표와 제품 품질 간의 상관관계 분석을 수행해야 합니다. 또 다른 예로, 미래 특정 기간 동안의 제품 판매를 예측해야 한다면, 미래 상황을 보다 정확하게 예측하기 위해서는 과거 데이터를 모델링하고 분석해야 합니다.
데이터 분석 보고서는 분석 결과를 직접적으로 제시할 뿐만 아니라 관련 상황에 대한 포괄적인 이해를 제공합니다. 우리는 다양한 관계를 다양한 각도와 깊이에서 분석하는 일부 업계 분석 보고서를 자주 봅니다. 따라서 설득력 있는 결과에 도달하려면 거시적 문제부터 문제 내 모든 측면까지 깊고 자세하게 설명하는 스토리텔링 논리가 필요하며, 이를 위해서는 실제로 지속적인 훈련이 필요합니다.
일반적인 데이터 분석 과정은 문제 정의, 데이터 수집, 데이터 전처리, 데이터 분석 및 모델링, 데이터 시각화, 데이터 보고서 작성 등의 단계로 구성됩니다.