파이썬 데이터 마이닝은 어떤 라이브러리와 도구가 필요합니까?

1, 숫자

Numpy 는 파이썬 과학 컴퓨팅의 기본 패키지로서 빠르고 효율적인 다차원 배열 객체 ndarray, 배열에 요소 레벨 계산 및 직접 수학 연산을 수행하는 함수, 하드 디스크의 배열 기반 데이터 세트를 읽고 쓰는 도구, 선형 대수학 연산, 푸리에 변환 및 난수 생성 등의 기능을 제공합니다. NumPy 는 데이터 분석에서 알고리즘과 라이브러리 간에 데이터를 전달하는 컨테이너로 사용되는 주요 기능도 있습니다.

팬더

Pandas 는 구조화된 데이터를 빠르고 쉽게 처리할 수 있는 다양한 데이터 구조와 함수를 제공합니다. 20 10 부터 Python 을 강력하고 효율적인 데이터 분석 환경으로 도왔습니다. 가장 일반적으로 사용되는 팬더 오브젝트는 열 지향 2 차원 테이블 구조인 DataFrame 과 1 차원 태그 배열 객체인 Series 입니다. Pandas 는 Numpy 의 고성능 배열 계산 기능과 스프레드시트 및 관계형 데이터베이스의 유연한 데이터 처리 기능을 결합합니다. 또한 데이터 하위 세트 재구성, 슬라이스 및 슬라이스, 합산 및 선택 등의 작업을 보다 쉽게 수행할 수 있는 복잡한 인덱싱 기능도 제공합니다.

3, matplotlib

Matplotlib 는 차트 및 기타 2D 데이터 시각화를 그리는 데 가장 널리 사용되는 파이썬 라이브러리입니다. 그것은 원래 존이 쓴 것이다

D. 헌트 (JDH) 가 설립되어 현재 거대한 개발팀이 유지하고 있다. 출판에 사용되는 차트를 만드는 데 적합합니다. 다른 파이썬 시각화 라이브러리도 있지만 matplotlib 가 가장 널리 사용되고 있습니다.

4, 심술 궂다

SciPy 는 과학 컴퓨팅에서 다양한 표준 문제 영역을 해결하기 위해 노력하는 패키지 세트입니다. Numpy 와 결합하면 상당히 완전하고 성숙한 컴퓨팅 플랫폼이 형성되어 많은 전통적인 과학 컴퓨팅 문제를 처리할 수 있다.

5, sci kit- 학습

20 10 이 탄생한 이후 scikit-learn 은 파이썬의 범용 기계 학습 키트가 되었습니다. 하위 모듈에는 분류, 회귀, 클러스터, 차원 축소, 선택, 사전 처리 등이 포함됩니다. Scikit-learn 은 pandas, statsmodels 및 IPython 과 함께 Pithon 이 효율적인 데이터 과학 프로그래밍 언어가 되는 데 중요한 역할을 했습니다.

6, 통계 모델

Statsmodels 는 스탠퍼드 대학의 통계학 교수에서 유래한 통계 분석 패키지입니다. 그는 R 언어에서 유행하는 다양한 회귀 분석 모델을 설계했다. 선장 시볼더와 조셉

20 10, 페크톨드는 statsmodels 프로젝트를 공식 설립한 뒤 많은 사용자와 기여자들을 모았다. Scikit-learn 에 비해 statsmodels 에는 고전적인 통계 및 계량 경제학 알고리즘이 포함되어 있습니다.

上篇: 천진 공공기관 입장권 인쇄 방법 下篇: 놀이터가 또 폐쇄되기 시작했는데, 전염병 기간 동안 노동관계를 어떻게 처리합니까?