1, 데이터 수집
SQL 질의문을 통해 데이터베이스에서 필요한 데이터를 얻을 수 있습니다. 파이썬은 이미 SQL server, MySQL, orcale 등 주요 데이터베이스를 연결하는 인터페이스 팩 (예: pymssql, pymysql, cx_Oracle 등) 을 보유하고 있습니다.
2. 데이터 저장소
기업의 데이터 저장소는 Mysql 과 같은 데이터베이스를 통해 저장 및 관리되며, MongoDB 는 구조화되지 않은 데이터 저장에 사용할 수 있습니다. 또한 pymysql 패키지를 사용하여 Python 이 캡처한 데이터를 MySQL 에 빠르게 저장할 수 있습니다.
3. 데이터 전처리/데이터 정리
대부분의 경우 원본 데이터 형식이 일치하지 않고 비정상적인 값, 누락된 값 등의 문제가 있으며 프로젝트마다 데이터를 사전 처리하는 방법이 다릅니다. 파이썬은 Numpy 와 Pandas 의 두 도구 라이브러리를 사용하여 데이터를 정리할 수 있습니다.
4. 데이터 모델링 및 분석
일반적인 데이터 마이닝 모델에는 분류, 클러스터링, 회귀 등이 포함됩니다. 파이썬은 또한 이러한 일반적인 알고리즘 모델을 지원하기 위해 Scikit-learn 과 Tensorflow 도구 라이브러리를 가지고 있습니다.
5, 데이터 시각화 분석
Python 은 데이터 시각화를 위해 Matplotlib, Seaborn, Pyecharts 등의 도구 라이브러리를 사용할 수 있습니다.