데이터 과학자가 마스터해야 할 상위 10가지 통계 기술에 대한 자세한 설명
"데이터 과학자는 프로그래머보다 통계를 더 잘하고, 통계학자보다 프로그래밍을 더 잘합니다." 데이터 과학자가 마스터해야 하는 10가지 통계 기법(선형 회귀, 분류, 리샘플링, 차원 축소, 비지도 학습 등)
데이터 과학에 대한 당신의 태도가 어떠하든, 데이터를 분석하고 정리하고 분류하는 것의 중요성을 무시할 수는 없습니다. 글래스도어(Glassdoor)라는 웹사이트는 수많은 고용주와 직원들의 피드백 데이터를 바탕으로 '미국 내 상위 25개 직업' 목록을 작성했는데, 그 첫 번째가 데이터 과학자다. 이미 순위는 상위권이지만, 데이터 사이언티스트의 업무 내용은 여기서 끝나지 않습니다. 딥 러닝과 같은 기술이 더욱 일반화되고 딥 러닝과 같은 인기 있는 분야가 연구원과 엔지니어는 물론 이를 사용하는 기업으로부터 더 많은 관심을 받게 되면서 데이터 과학자는 계속해서 혁신과 기술 발전의 최전선에 서게 되었습니다.
강력한 프로그래밍 기술을 갖추는 것이 중요하지만, 데이터 과학이 소프트웨어 엔지니어링의 전부는 아닙니다(실제로 프로그래밍 요구사항을 충족하려면 Python에 대한 지식만으로도 충분합니다). 데이터 과학자는 프로그래밍, 통계, 비판적 사고 능력을 모두 갖추어야 합니다. Josh Wills가 말했듯이 "데이터 과학자는 프로그래머보다 통계를 더 잘하고, 통계학자보다 프로그래밍을 더 잘합니다." 저는 개인적으로 데이터 과학자로 변신하고 싶어하는 많은 소프트웨어 엔지니어를 알고 있지만 그들은 TensorFlow나 Apache Spark와 같은 머신러닝 프레임워크를 맹목적으로 사용합니다. 데이터 뒤에 숨어 있는 통계 이론에 대한 포괄적인 이해 없이 데이터를 처리하는 것입니다. 따라서 통계 및 기능 분석에서 파생되고 정보 이론, 최적화 이론, 선형 대수학 및 기타 학문을 결합하는 통계 기계 학습을 체계적으로 연구해야 합니다.
왜 통계학습을 공부하는가? 다양한 기술을 사용하는 방법과 시기를 이해하려면 다양한 기술의 개념을 이해하는 것이 중요합니다. 동시에 특정 방법이 특정 문제에 대해 얼마나 잘 수행되는지 알려줄 수 있기 때문에 방법의 성능을 정확하게 평가하는 것도 매우 중요합니다. 또한 통계 학습은 과학, 산업, 금융 분야에 중요한 응용이 가능한 흥미로운 연구 분야이기도 합니다. 마지막으로, 통계 학습은 현대 데이터 과학자 교육의 기본 구성 요소입니다. 통계 학습 방법의 고전적인 연구 주제는 다음과 같습니다:
선형 회귀 모델
퍼셉트론
k 최근접 이웃 방법
나이브 베이즈 방법
p>의사결정 트리
최대 엔트로피 모델에 대한 로지스틱 회귀
지원 벡터 머신
부스팅 방법
EM 알고리즘
p>
은닉 마르코프 모델
조건부 무작위 필드
이후에는 데이터 과학자가 대용량 데이터 세트의 통계를 보다 효율적으로 처리하는 데 도움이 되는 10가지 통계 기법을 소개하겠습니다. 그 전에 통계 학습과 머신 러닝의 차이점을 명확히 말씀드리고 싶습니다.
머신 러닝은 인공 지능에 편향된 분야입니다.
통계 학습 방법은 인공 지능에 편향된 분야입니다. 통계에 편향되어 있다.
머신러닝은 대규모 애플리케이션과 예측 정확도에 더 중점을 둡니다.
통계학과는 모델과 모델의 해석 가능성, 정확성과 불확실성에 중점을 둡니다.
둘 사이의 구분이 점점 모호해지고 있습니다.
1. 선형 회귀
통계에서 선형 회귀는 종속변수와 독립변수 사이의 가장 좋은 선형 관계를 맞춰 목표 변수를 예측합니다. 최적의 맞춤은 예측된 선형 표현과 실제 관측치 사이의 거리의 합을 최소화하여 달성됩니다. 이 모양보다 오류가 적은 위치는 없으며 이러한 관점에서 볼 때 이 모양의 핏이 "최고"입니다. 선형 회귀의 두 가지 주요 유형은 단순 선형 회귀와 다중 선형 회귀입니다.
단순 선형 회귀는 독립 변수를 사용하여 최상의 선형 관계를 맞춰 종속 변수의 변화를 예측합니다. 다중 선형 회귀는 여러 독립 변수를 사용하여 최상의 선형 관계를 피팅함으로써 종속 변수의 변화 추세를 예측합니다.
매일 사용되는 관련 개체 중 무작위로 사용되는 두 가지를 선택하세요.
예를 들어 지난 3년간 월 지출, 월 소득, 월 여행 횟수에 대한 데이터가 있습니다. 이제 다음 질문에 답해야 합니다.
내년 월별 지출은 얼마입니까?
월 지출을 결정하는 데 있어 어떤 요소(월 소득 또는 월 여행 횟수)가 더 중요한가요?
월 수입과 월 여행 횟수 및 월 지출 사이에는 어떤 관계가 있나요?
2. 분류
분류는 보다 정확한 예측과 분석을 돕기 위해 데이터에 카테고리를 할당하는 데이터 마이닝 기술입니다. 분류는 대규모 데이터 세트를 효율적으로 분석하는 방법으로 로지스틱 회귀 분석과 판별 분석이라는 두 가지 주요 분류 기술이 있습니다.
로지스틱 회귀 분석은 종속 변수가 이진 범주인 회귀 분석에 적합합니다. 모든 회귀 분석과 마찬가지로 로지스틱 회귀도 예측 분석입니다. 로지스틱 회귀는 데이터를 설명하고 이진 종속 변수와 무언가의 특성을 설명하는 하나 이상의 독립 변수 간의 관계를 설명하는 데 사용됩니다. 로지스틱 회귀 분석에서 조사할 수 있는 질문 유형은 다음과 같습니다.
표준 체중 대비 체중 1파운드 또는 하루에 피우는 담배 갑이 폐암 발병 확률에 미치는 영향(예 또는 아니요) .
칼로리 섭취, 지방 섭취, 나이가 심장병에 영향을 미치나요(예, 아니오)?
판별 분석에서는 두 개 이상의 세트와 군집을 선험적 범주로 사용할 수 있으며, 측정의 특성을 기반으로 하나 이상의 새로운 관측값을 알려진 범주로 분류합니다. 판별 분석은 각 해당 클래스의 예측 변수 분포 X를 개별적으로 모델링한 다음 베이즈 정리를 사용하여 이를 X 값을 기반으로 해당 클래스의 확률 추정치로 변환합니다. 이러한 유형의 모델은 선형 판별 분석(선형 판별 분석) 또는 2차 판별 분석(2차 판별 분석)일 수 있습니다.
선형 판별 분석(LDA): 각 관측값에 대한 '판별 값'을 계산하여 해당 관측치가 속한 반응 변수 클래스를 분류합니다. 이러한 점수는 독립변수의 선형 연결을 찾아 얻을 수 있습니다. 각 클래스에 대한 관측값은 다변량 가우스 분포에서 얻어지고 예측 변수의 공분산은 응답 변수 Y의 모든 k 수준에서 공통적이라고 가정합니다.
QDA(2차 판별 분석): 또 다른 방법을 제공합니다. LDA와 유사하게 QDA는 Y의 각 범주에 대한 관측값이 가우스 분포에서 얻어지는 것으로 가정합니다. 그러나 LDA와 달리 QDA는 각 클래스마다 고유한 공분산 행렬이 있다고 가정합니다. 즉, 예측 변수는 Y 의 모든 k 수준에서 보편적이지 않습니다.
3. 리샘플링 방법
리샘플링 방법(리샘플링)은 원본 데이터 샘플에서 반복되는 샘플을 추출하는 것입니다. 이는 통계적 추론의 비모수적 방법입니다. 즉, 리샘플링에서는 확률 p 값을 근사화하기 위해 보편적인 분포를 사용하지 않습니다.
리샘플링은 실제 데이터를 기반으로 고유한 샘플링 분포를 생성합니다. 이 샘플링 분포를 생성하기 위해 분석적 방법보다는 경험적 방법을 사용합니다. 리샘플링은 데이터의 가능한 모든 결과에 대한 편견 없는 표본을 기반으로 편견 없는 추정치를 얻습니다. 리샘플링의 개념을 이해하려면 먼저 부트스트래핑과 교차 검증을 이해해야 합니다.
부트스트래핑은 예측 모델의 성능 검증, 앙상블 방법, 편향 추정 및 모델과 같은 다양한 상황에 적합합니다. 변화. "선택되지 않은" 데이터 포인트를 테스트 샘플로 사용하여 원본 데이터에서 대체 샘플링을 수행하여 데이터를 샘플링합니다. 이 작업을 여러 번 수행하고 모델 성능의 추정치로 평균을 계산할 수 있습니다.
교차 검증은 모델 성능을 검증하는 데 사용되며 훈련 데이터를 k개 부분으로 나누어 수행됩니다. k-1 부분을 훈련 세트로 사용하고 "따로 보관" 부분을 테스트 세트로 사용합니다. 이 단계를 k 번 반복하고 마지막으로 k 점수의 평균을 성능 추정치로 사용합니다.
일반적으로 선형 모델의 경우 일반 최소 제곱이 데이터 피팅의 주요 기준입니다. 다음 3가지 방법은 더 나은 예측 정확도와 모델 해석성을 제공할 수 있습니다.
4 하위 집합 선택
이 방법은 p개의 예측 변수 중 하위 집합을 선택하며, 이 하위 집합이 해결해야 할 문제와 매우 관련이 있다고 믿고 다음을 적용할 수 있습니다. 이 기능 하위 집합과 최소 제곱을 사용하는 모델입니다.
최상의 하위 집합 선택: 각 p 예측 변수 조합에 대해 별도의 OLS 회귀 분석을 적용한 다음 각 모델이 얼마나 잘 맞는지 조사할 수 있습니다. 알고리즘은 두 단계로 나뉩니다. (1) k개의 예측 변수가 포함된 모든 모델을 피팅합니다. 여기서 k는 모델의 최대 길이입니다. (2) 교차 검증 예측 손실을 사용하여 단일 모델을 선택합니다. RSS와 R^2는 변수가 증가함에 따라 단조롭게 증가하므로 모델 적합성을 평가하기 위해 단순히 훈련 오류를 사용하는 것이 아니라 검증 또는 테스트 오류를 사용하는 것이 중요합니다. 이를 수행하는 가장 좋은 방법은 테스트 세트에서 가장 높은 R^2와 가장 낮은 RSS를 갖는 교차 검증된 모델을 선택하는 것입니다.
순방향 단계적 선택에서는 p 예측 변수의 더 작은 하위 집합을 고려합니다. 예측 변수가 없는 모델로 시작하여 모든 예측 변수가 모델에 포함될 때까지 점차적으로 모델에 예측 변수를 추가합니다. 예측 변수 추가 순서는 다양한 변수가 모델 피팅 성능을 향상시키는 정도에 따라 결정됩니다. 교차 검증 오류에서 모델을 개선할 수 있는 예측 변수가 더 이상 없을 때까지 변수를 추가합니다.
먼저 역방향 단계적 선택을 수행합니다. 모델의 모든 p 예측 변수로 시작한 다음 가장 유용하지 않은 예측 변수를 한 번에 하나씩 반복적으로 제거합니다.
혼합 방법은 전단계적 접근 방식을 따르지만, 새로운 변수가 추가될 때마다 모델을 피팅하는 데 유용하지 않은 변수도 제거할 수 있습니다.
5. 축소
이 방법은 모델링을 위해 p개의 예측 변수를 모두 사용하는 것과 관련이 있지만 예측 변수의 중요도를 추정하는 계수는 최소 제곱 오차에 따라 0으로 줄어듭니다. 이러한 축소를 정규화라고도 하며, 이는 모델의 과적합을 방지하기 위해 분산을 줄이는 것을 목표로 합니다. 다양한 수축 방법을 사용하기 때문에 추정치가 0이 되는 일부 변수가 있습니다. 따라서 이 방법은 변수 선택을 수행할 수도 있습니다. 변수를 0으로 축소하는 가장 일반적인 기술은 Ridge 회귀 및 Lasso 회귀입니다.
능형 회귀는 약간 다른 값을 최소화하여 계수를 추정한다는 점을 제외하면 최소 제곱법과 매우 유사합니다. 능형 회귀는 OLS와 마찬가지로 RSS의 계수 추정치를 줄이려고 합니다. 그러나 계수가 0에 가깝게 줄어들면 모두 이러한 축소에 불이익을 줍니다. Ridge Regression이 기능을 가능한 가장 작은 공간으로 축소하는 데 매우 능숙하다는 것을 확인하기 위해 수학적 분석이 필요하지 않습니다. 주성분 분석과 같은 Ridge 회귀는 데이터를 D차원 공간에 투영하고 분산이 높은 성분을 유지하면서 계수 공간에서 분산이 낮은 성분을 축소합니다.
Ridge 회귀에는 적어도 한 가지 단점이 있습니다. , 최종 모델의 모든 p 예측 변수를 포함해야 합니다. 이는 페널티 항으로 인해 많은 예측 변수의 계수가 0에 가까워지지만 0이 되지 않기 때문입니다. 이는 일반적으로 예측 정확도에 문제가 되지 않지만 모델 결과를 해석하기가 더 어려워집니다. Lasso는 s 그룹이 작을 때 일부 예측 변수의 계수를 0으로 만들 수 있기 때문에 이러한 단점을 극복합니다. s = 1이면 일반적인 OLS 회귀가 발생하고 s가 0에 가까워지면 계수가 0으로 줄어들기 때문입니다. 따라서 올가미 회귀는 변수 선택을 수행하는 좋은 방법이기도 합니다.
6. 차원 축소
차원 축소 알고리즘은 p 1 계수 문제를 M1 계수 문제로 단순화합니다. 여기서 Mlt는 다음과 같습니다. 알고리즘 실행은 M개의 서로 다른 선형 조합 또는 변수 투영을 계산하는 것으로 구성됩니다. 그런 다음 이러한 M 투영은 최소 제곱을 통해 선형 회귀 모델을 맞추기 위한 예측 변수로 사용됩니다.
두 가지 주요 방법은 주성분 회귀와 부분 최소 제곱입니다.
주성분 회귀(PCR)는 큰 변수 세트에서 저차원 특징 세트를 도출하는 방법으로 볼 수 있습니다. 데이터의 첫 번째 주성분은 관측된 데이터가 이 변수를 따라 가장 많이 변경되는 방향을 나타냅니다. 즉, 첫 번째 주성분은 데이터에 가장 잘 맞는 선이고, 전체 ***는 p개의 서로 다른 주성분으로 피팅될 수 있습니다. 두 번째 주성분은 첫 번째 주성분과 상관관계가 없으며 이 제약 조건 하에서 가장 큰 분산을 갖는 변수의 선형 조합입니다. 주요 아이디어는 주성분이 모든 상호 수직 방향에서 데이터의 선형 조합을 사용하여 최대 분산을 캡처할 수 있다는 것입니다. 이 방법을 사용하면 관련 변수의 효과를 결합하여 데이터에서 더 많은 정보를 얻을 수도 있습니다. 결국 기존 최소 제곱 방법에서는 관련 변수 중 하나를 삭제해야 합니다.
위에 설명된 PCR 방법에서는 예측 변수 쌍의 최적 표현을 얻기 위해 X의 선형 조합을 추출해야 합니다. X의 출력은 주성분 방향을 결정하는 데 사용될 수 없으므로 이러한 조합(방향)은 비지도 방법을 사용하여 추출됩니다. 즉, Y는 주성분 추출을 감독할 수 없으므로 이러한 방향이 예측 변수의 최적 표현임을 보장할 수 없으며 최적의 예측 출력이 얻어질 것이라고 보장할 수도 없습니다(종종 가정됨). PLS(Partial Least Squares)는 PCR의 대안으로 사용되는 지도 방법입니다. PCR과 마찬가지로 PLS도 차원 축소 방법입니다. 먼저 새로운 작은 특성 세트(원래 특성의 선형 조합)를 추출한 다음 최소 제곱법을 통해 원래 모델을 M 특성이 있는 새 모델에 맞춥니다. .
7. 비선형 모델
통계에서 비선형 회귀는 관찰된 데이터가 모델 매개변수의 비선형 조합의 함수로 사용되는 회귀 분석의 한 형태입니다(하나에 따라 다름). 이상의 독립변수) 모델링. 데이터를 맞추기 위해 연속 근사법을 사용합니다. 다음은 비선형 모델을 처리하기 위한 몇 가지 중요한 기술입니다.
스텝 함수(step function), 변수는 실수이고 구간의 지시함수의 유한선형결합 형태로 쓸 수 있다. 비공식적인 설명은 계단 함수가 유한 부분만 포함하는 조각별 상수 함수라는 것입니다.
조각별 함수는 여러 하위 함수를 통해 정의되며, 각 하위 함수는 주 함수 영역의 일정 간격으로 정의됩니다. 분할은 실제로 함수 자체의 특성이라기보다는 함수를 표현하는 방법이지만, 추가 조건을 사용하면 함수의 본질을 설명하는 데 사용할 수 있습니다. 예를 들어, 조각별 다항식 함수는 모든 하위 정의에서 다항식인 함수이며, 여기서 각 다항식은 다를 수 있습니다.
스플라인은 다항식을 사용하여 조각별로 정의된 특수 함수입니다. 컴퓨터 그래픽에서 스플라인은 조각별 다항식 매개변수화된 곡선입니다. 스플라인 곡선은 구성의 단순성, 평가의 용이성과 정확성, 곡선 맞춤 및 대화형 곡선 설계를 통해 복잡한 곡선을 근사화하는 기능으로 인해 일반적으로 사용됩니다.
일반화된 덧셈 모델은 선형 예측자가 일부 예측 변수의 알려지지 않은 평활 함수에 선형적으로 의존하는 일반화된 선형 모델이며, 주요 기능은 이러한 평활 함수를 추측하는 것입니다.
p>
8. 트리 기반 방법
트리 기반 방법은 예측 변수 공간을 여러 개의 간단한 영역으로 계층화하거나 분할하는 것을 포함하여 회귀 및 분류 문제에 사용할 수 있습니다. 예측변수 공간에 대한 분리된 규칙 세트는 트리로 요약될 수 있으므로 이러한 방법을 의사결정 트리 방법이라고 합니다. 아래 방법은 하나의 일관된 예측을 출력하기 위해 결합할 수 있는 여러 가지 다른 트리입니다.
배깅은 학습을 위해 원본 데이터에서 추가 데이터를 생성(결합 및 반복을 통해 원본 데이터와 동일한 크기의 여러 세그먼트 생성)함으로써 예측의 분산을 줄일 수 있습니다.
훈련 세트를 늘려도 모델의 예측력을 향상시킬 수는 없습니다. 단지 분산을 줄이고 예측을 신중하게 조정하여 원하는 결과를 얻을 수 있을 뿐입니다.
부스팅은 여러 다른 모델을 사용하여 출력을 계산한 다음 가중 평균을 사용하여 결과를 평균하는 방법입니다. 우리는 일반적으로 이러한 방법에 할당된 가중치를 변경하여 각 방법의 장점을 결합합니다. 또한 다양한 미세 조정을 사용하여 더 넓은 범위의 입력 데이터에 대한 예측력을 얻을 수도 있습니다.
랜덤 포레스트 알고리즘은 실제로 배깅 알고리즘과 매우 유사하며 훈련 세트에서 무작위 부트스트랩 샘플을 추출합니다. 그러나 부트스트랩 샘플 외에도 개별 트리를 훈련하기 위해 기능의 무작위 하위 집합을 추출할 수 있지만, 배깅에서는 각 트리에 전체 기능 세트를 제공해야 합니다. 특징 선택이 무작위이기 때문에 각 트리는 기존 배깅 알고리즘보다 서로 더 독립적이며, 이는 일반적으로 더 나은 예측 성능을 제공합니다(더 나은 분산-편향 균형 덕분에). 또한 각 트리는 기능의 하위 집합만 학습하면 되므로 계산 속도도 더 빠릅니다.
9. 지원 벡터 머신
SVM(지원 벡터 머신)은 일반적으로 사용되는 지도 학습 분류 기술입니다. 비공식적으로 말하자면, 두 가지 유형의 점 집합(2차원 공간의 선, 3차원 공간의 표면, 고차원 공간의 초평면인 초평면)을 가장 잘 분리하는 초평면을 찾는 데 사용됩니다. 보다 공식적으로는 다음과 같은 주장이 있습니다. 초평면은 n차원 공간의 n-1차원 부분공간입니다. 서포트 벡터 머신은 가장 큰 마진을 유지하는 분리 초평면이므로 본질적으로 제약 조건 하에서 서포트 벡터 머신의 마진이 최대화되어 데이터를 완벽하게 분류하는 제약 최적화 문제이다(하드 마진 분류 장치) .
초평면을 "지원"하는 데이터 포인트를 "지원 벡터"라고 합니다. 위 이미지에서 채워진 파란색 원과 두 개의 채워진 사각형이 지원 벡터입니다. 두 가지 유형의 데이터가 선형으로 분리 가능하지 않은 경우 데이터 포인트는 더 높은 차원 공간으로 투영되어 데이터가 선형으로 분리 가능해집니다. 여러 범주의 데이터 포인트가 포함된 문제는 여러 "일대일" 또는 "일대나머지" 이진 분류 문제로 분해될 수 있습니다.
10. 비지도 학습
지금까지 우리는 데이터 분류가 알려져 있고 알고리즘에 제공되는 경험이 개체와 분류 관계인 지도 학습 기술에 대해서만 논의했습니다. . 데이터의 분류를 알 수 없는 경우 다른 기술이 사용됩니다. 데이터 자체에서 패턴을 발견해야 하기 때문에 비지도 학습이라고 합니다. 클러스터링은 데이터를 상관 관계에 따라 클러스터로 나누는 비지도 학습의 한 유형입니다. 다음은 가장 일반적으로 사용되는 비지도 학습 알고리즘 중 일부입니다.
주성분 분석: 분산이 최대이고 서로 상관되지 않는 특성 간의 선형 연결을 보존하여 데이터 세트의 저차원 표현을 생성하는 데 도움이 됩니다. . 이 선형 차원 축소 기술은 비지도 학습의 잠재 변수 상호 작용을 이해하는 데 도움이 됩니다.
K-평균 군집화: 군집 중심으로부터의 거리를 기준으로 데이터를 k개의 서로 다른 군집으로 나눕니다.
계층적 클러스터링: 데이터의 계층적 표현을 통해 다양한 클러스터를 구성합니다.