빅데이터는 어디에나 있습니다. 오늘 이 시대에는 좋든 싫든 성공적인 기업을 경영하는 과정에서 만날 수 있다.
큰 데이터란 무엇입니까?
큰 데이터는 그것이 어떻게 생겼는지입니다. 많은 양의 데이터가 있습니다. 개인적으로, 네가 단일 데이터에서 얻은 통찰력은 한계가 있다. 그러나 복잡한 수학적 모델과 테라바이트급 데이터를 강력한 컴퓨팅 기능과 결합하면 인간이 만들 수 없는 통찰력을 만들 수 있다. 빅데이터 분석이 상업에 제공하는 가치는 무형이며, 매일 인간의 능력을 초월하고 있다.
빅 데이터 분석의 첫 번째 단계는 데이터 자체, 즉 "데이터 마이닝" 를 수집하는 것입니다. 대부분의 기업은 사용자 데이터, 제품 데이터 및 지리적 위치 데이터를 포함한 기가바이트급 데이터를 처리합니다. 오늘 Python 을 사용하여 큰 데이터 마이닝 및 분석을 수행하는 방법을 알아보겠습니다.
왜 파이썬?
파이썬의 가장 큰 장점은 사용하기 쉽다는 것이다. 이 언어는 직관적인 문법을 가지고 있으며, 강력한 다목적 언어이기도 하다. 이는 빅데이터 분석 환경에서 매우 중요합니다. 파이썬은 구글, 유튜브, 디즈니 등 많은 기업에서 이미 사용되고 있습니다. 또한, 파이썬 오픈 소스, 많은 데이터 과학 클래스 라이브러리가 있습니다.
자, 만약 당신이 정말로 파이썬으로 큰 데이터 분석을 하고 싶다면, 파이썬 구문, 정규식, 그리고 튜플, 문자열, 사전, 사전 파생, 목록, 목록 파생이 무엇인지 알아야 합니다. 이것은 시작에 불과합니다.
데이터 분석 프로세스
일반적인 데이터 분석 프로젝트는 "데이터 수집-데이터 저장 및 추출-데이터 사전 처리-데이터 모델링 및 분석-데이터 시각화" 단계에 따라 구현할 수 있습니다. 이 프로세스에 따라 각 섹션에서 파악해야 할 세분화된 지식 포인트는 다음과 같습니다.
데이터 수집: 오픈 데이터, 파이썬 크롤러
외부 데이터를 가져오는 두 가지 주요 방법이 있습니다.
첫 번째는 외부 공용 데이터 세트를 가져오는 것입니다. 일부 과학연구기관, 기업, 정부는 데이터를 개방할 것이며, 특정 웹사이트에 가서 다운로드해야 합니다. 이러한 데이터 세트는 일반적으로 비교적 완전하고 품질이 비교적 높습니다.
외부 데이터를 얻는 또 다른 방법은 파충류입니다.
예를 들어, 파충류를 통해 채용 사이트의 한 직위에 대한 채용 정보, 임대 사이트의 한 도시에 대한 임대 정보, 콩꽃잎 점수가 가장 높은 영화 목록, 잘 알려진 점찬, 넷이즈 클라우드 뮤직 댓글 목록을 얻을 수 있습니다. 인터넷에서 수집한 데이터를 바탕으로 어떤 업종, 어떤 인파를 분석할 수 있다.
기어가기 전에 요소 (목록, 사전, 튜플 등 Python 의 기본 사항을 이해해야 합니다. ), 변수, 루프, 함수 ...
파이썬 라이브러리 (URL, BeautifulSoup, requests, scrapy) 를 사용하여 웹 파충류를 구현하는 방법을 설명합니다.
기본 파충류를 파악한 후에는 정규 표현식, 쿠키 정보 사용, 사용자 로그인 시뮬레이션, 패킷 캡처 분석, 프록시 풀 구축 등 고급 기술도 필요합니다. , 다른 웹 사이트의 안티 크롤러 제한을 처리 할 수 있습니다.
데이터 액세스: SQL 언어
10,000 개 이내의 데이터를 처리할 때 Excel 일반 분석에는 문제가 없습니다. 일단 데이터의 양이 크면 부족할 것이고, 데이터베이스는 이 문제를 잘 해결할 수 있다. 그리고 대부분의 기업은 SQL 형식으로 데이터를 저장합니다.
SQL 은 가장 고전적인 데이터베이스 도구로서 대용량 데이터의 저장 및 관리를 가능하게 하며 데이터 추출의 효율성을 크게 향상시킵니다. 다음과 같은 기술을 습득해야 합니다.
특정 상황에서 데이터 추출
데이터베이스 추가, 삭제, 검색 및 수정
데이터 그룹화 및 합산, 여러 테이블 간의 관계 설정 방법
데이터 전처리: 파이썬 (팬더)
많은 경우, 우리가 얻은 데이터는 깨끗하지 않고, 데이터 중복, 누락, 이상치 등이 있다. 이때 데이터를 정리하고 분석에 영향을 미치는 데이터를 잘 처리해야 보다 정확한 분석 결과를 얻을 수 있다.
데이터 사전 처리의 경우 팬더 (파이썬 패키지) 의 사용법을 배우고 일반 데이터 클리닝을 완벽하게 처리합니다. 파악해야 할 지식 포인트는 다음과 같습니다.
선택: 데이터 액세스
누락된 값 처리: 누락된 데이터 행을 제거하거나 채웁니다.
중복 값 처리: 중복 값 결정 및 삭제
예외 처리: 불필요한 공백과 극단적인 예외 데이터를 삭제합니다.
관련 작업: 기술 통계, 응용 프로그램, 히스토그램 등
병합: 다양한 논리적 관계를 따르는 병합 작업입니다.
그룹화: 데이터 분할, 개별 실행 기능 및 데이터 재구성
새로 고침: 빠른 피벗 테이블 생성
확률론과 통계 지식
파악해야 할 지식 포인트는 다음과 같습니다.
기본 통계: 평균, 중앙값, 대중 수, 백분위수, 극값 등.
기타 기술 통계: 편향, 분산, 표준 편차, 중요도 등
기타 통계 지식: 전체와 샘플, 매개변수와 통계, 오차선.
확률 분포 및 가설 검정: 다양한 분포 및 가설 검정 과정
확률 이론 기타 지식: 조건 확률, 베이지안 등.
통계학의 기초지식을 통해 이러한 통계를 이용하여 기초분석을 할 수 있다. Seaborn, matplotlib 등을 사용할 수 있습니다. (파이썬 패키지) 다양한 시각화된 통계 차트를 통해 지도적인 결과를 얻을 수 있는 시각화 분석을 합니다.
파이썬 데이터 분석
회귀 분석 방법을 파악하고 선형 회귀와 논리적 회귀를 통해 실제로 대부분의 데이터에 대한 회귀 분석을 수행하여 비교적 정확한 결론을 도출할 수 있다. 이 섹션에서 파악해야 할 지식 포인트는 다음과 같습니다.
회귀 분석: 선형 회귀 및 논리적 회귀.
기본 분류 알고리즘: 의사 결정 트리, 무작위 숲 ...
기본 클러스터링 알고리즘: k-means ...
피쳐 공학 기초: 피쳐 선택을 통해 모형을 최적화하는 방법
매개 변수 조정 방법: 매개 변수 최적화 모델을 조정하는 방법
파이썬 데이터 분석 패키지: scipy, numpy, scikit-learn 등.
데이터 분석의 이 단계에서 대부분의 문제는 회귀 분석에 집중하여 해결할 수 있으며, 설명적인 통계 분석과 회귀 분석을 통해 좋은 분석 결론을 얻을 수 있습니다.
물론 실천이 늘어남에 따라 복잡한 문제가 발생할 수 있으므로 분류 및 클러스터링과 같은 고급 알고리즘을 이해해야 할 수도 있습니다.
그런 다음 다른 유형의 문제, 어떤 알고리즘 모델이 더 적합한지 알 수 있습니다. 모형 최적화의 경우 피쳐 추출 및 매개변수 조정을 통해 예측 정확도를 향상시키는 방법을 알아야 합니다.
Python 의 scikit-learn 라이브러리를 통해 데이터 분석, 데이터 마이닝 모델링 및 분석의 전 과정을 수행할 수 있습니다.
요약
사실 데이터 마이닝을 하는 것은 꿈이 아니다. 5 단계는 파이썬 크롤링 마스터가 될 수 있습니다!