데이터 마이닝 건조 제품 요약 (d)-클러스터링 알고리즘

이 기사 * * * 2680 단어, 읽기 시간은 7 분으로 추산됩니다.

클러스터링 알고리즘

-응?

I. 본질

유사한 데이터가 같은 클래스에 있고, 유사하지 않은 데이터가 다른 클래스에 있도록 데이터를 여러 클래스로 나눕니다.

-응?

둘째, 분류 알고리즘은 어떤 문제를 해결하는 데 사용됩니까?

텍스트 클러스터, 이미지 클러스터, 상품 클러스터는 법칙을 쉽게 발견하고 데이터 희소성 문제를 해결합니다.

셋째, 클러스터링 알고리즘의 기본 지식

1. 계층 클러스터링? 대? 비계층 클러스터링

-범주 간에 포함 관계가 있습니까?

2. 하드 클러스터링? 대? 소프트 클러스터

–하드 클러스터링: 각 객체는 하나의 클래스에만 속합니다.

–소프트 클러스터링: 각 객체는 특정 확률로 각 클래스에 속합니다.

3. 벡터로 물체를 표현합니다

각 물체는 벡터로 표현되며 고차원 공간의 한 점으로 볼 수 있습니다.

–모든 개체가 하나의 데이터 공간 (매트릭스) 을 형성합니다

-유사성 계산: 코사인, 점 곱 및 중심 거리.

객체 간의 거리와 유사성을 매트릭스로 나열하십시오.

5. 위의 행렬을 사전으로 저장합니다 (공간 절약)

D={( 1, 1):0, (1, 2):2, (1,;

6. 평가 방법

–내부 평가 방법:

-응? 외부 표준도 없고, 감독도 없습니다.

-응? 동류가 비슷한지, 클래스 간에 다른지 여부.

DB 값이 작을수록 클러스터링 효과가 좋아집니다. 그렇지 않으면 좋지 않습니다.

–외부 평가 방법:

-응? 정밀도: (c11+c22)/(c11+c1

-응? 정확도: c11/(c11+C21)

-응? 리콜: c11/(c11+c12)

-응? F 값 (f 값):

베타는 정확도 P 에 대한 중요도를 나타낼수록 값이 커질수록 중요하다. 기본 설정은 1 입니다. 즉, f 의 값이 되고 f 가 높을수록 클러스터 효과가 더 좋습니다.

4. 어떤 클러스터링 알고리즘이 있습니까?

주로 계층 클러스터 알고리즘, 분할 클러스터 알고리즘, 밀도 기반 클러스터 알고리즘, 그리드 기반 클러스터 알고리즘, 모델 기반 클러스터 알고리즘 등으로 나뉩니다.

4. 1 계층 클러스터링 알고리즘

트리 클러스터링 알고리즘이라고도 하며 계층 구조를 통해 데이터를 반복적으로 분할하거나 집계합니다. 일반적인 알고리즘으로는 BIRCH 알고리즘, CURE 알고리즘, CHAMELEON 알고리즘, 시퀀스 데이터 러프 클러스터링 알고리즘, 그룹 간 평균 알고리즘, 가장 먼 이웃 알고리즘, 가장 가까운 이웃 알고리즘 등이 있습니다.

내부 집계 계층 클러스터링:

먼저 각 오브젝트를 클러스터로 처리한 다음 모든 오브젝트가 하나의 클러스터에 있거나 특정 종료 조건이 충족될 때까지 클러스터를 점점 더 큰 클러스터로 결합합니다.

알고리즘 프로세스:

1. 각 객체를 하나의 클래스로 취급하여 둘 사이의 최소 거리를 계산합니다.

2. 거리가 가장 작은 두 클래스를 하나의 새 클래스로 결합합니다.

새 범주와 모든 범주 간의 거리를 다시 계산하십시오.

4. 모든 클래스가 결국 하나의 클래스로 병합될 때까지 2 와 3 을 반복합니다.

특징:

1. 단순 알고리즘

2. 계층은 개념 클러스터링에 사용됩니다 (개념 및 문서 계층 트리 생성).

클러스터 객체의 두 가지 표현이 모두 적용됩니다.

4. 크기가 다른 클러스터 처리

클러스터 선택 단계는 트리 맵을 생성 한 후에 수행됩니다.

4.2 파티션 클러스터링 알고리즘

클러스터 수 또는 클러스터 센터를 미리 지정하여 대상 함수의 오차 값을 수렴할 때까지 반복적으로 줄여 최종 결과를 얻습니다. K-means, k-modes-Huang, k-means-CP, 클러스터, 피쳐 가중치 퍼지 클러스터링, CLARANS 등.

클래식 K-means:

알고리즘 프로세스:

1. 각각 처음에 클러스터의 중심을 나타내는 k 개의 오브젝트를 임의로 선택합니다.

2. 나머지 각 오브젝트에 대해 각 클러스터 중심까지의 거리에 따라 가장 가까운 클러스터에 할당합니다.

3. 각 클러스터의 평균을 다시 계산하고 새 클러스터 센터로 업데이트합니다.

4. 표준 함수가 수렴될 때까지 2 와 3 을 반복합니다.

특징:

1 을 선택합니다. K

2. 중심점 선택

-임의

–다중 라운드 임의화: 가장 작은 WCSS 를 선택합니다.

3. 이점

-알고리즘이 간단하고 효과적입니다.

–시간 복잡도: O(nkt)

4. 부족한 점

-구형 데이터 작업에 적합하지 않습니다.

-밀도와 크기가 다른 클러스터는 k 로 제한되므로 자연 클러스터를 찾기가 어렵습니다.

4.3 모델 기반 클러스터링 알고리즘

각 클러스터에 대해 하나의 모델을 가정하여 지정된 모델에 가장 적합한 데이터 맞춤을 찾습니다. 동일한 "클래스" 의 데이터는 동일한 확률 분포에 속합니다. 즉, 데이터가 잠재적 확률 분포에 따라 발생한다고 가정합니다. 주로 통계 모델과 신경망 모델, 특히 확률 모델을 기반으로 하는 방법이 있습니다. 모델 기반 알고리즘은 데이터 포인트의 공간 분포를 반영하는 밀도 함수를 구성하여 클러스터를 찾을 수 있습니다. 모델 기반 클러스터는 주어진 데이터와 일부 데이터 모델 간의 적응성을 최적화하려고 합니다.

SOM 신경망 알고리즘;

이 알고리즘은 입력 공간 (N 차원) 에서 출력 평면 (2 차원) 으로 차원 축소 매핑을 수행할 수 있는 입력 객체에 토폴로지 또는 시퀀스가 있다고 가정합니다. 이 매핑은 토폴로지 특징을 유지하는 성질을 가지고 있으며 실제 뇌 처리와 강한 이론적 관계를 가지고 있습니다.

SOM 네트워크에는 입력 및 출력 레이어가 포함됩니다. 입력 레이어는 2D 메쉬에 구성된 일련의 정렬된 노드로 구성된 고차원 입력 벡터에 해당합니다. 입력 노드와 출력 노드는 가중치 벡터로 연결됩니다. 학습 과정에서 가장 짧은 거리의 출력 레이어 단위, 즉 승리 단위를 찾아 업데이트합니다. 또한 인접한 영역의 가중치를 업데이트하여 입력 벡터의 위상 특성을 유지합니다.

알고리즘 프로세스:

출력 레이어에 있는 각 노드의 가중치에 초기 값을 할당하는 1. 네트워크 초기화 ：

2. 입력 샘플에서 입력 벡터를 임의로 선택하여 입력 벡터와 거리가 가장 작은 가중치 벡터를 찾습니다.

3. 승리 단위를 정의하고 승리 단위 근처의 가중치를 입력 벡터에 가깝게 조정합니다.

4. 새로운 샘플을 제공하고 교육을 실시합니다.

5. 이웃 반경을 줄이고 학습률을 낮추며 허용되는 값보다 작을 때까지 반복하고 클러스터 결과를 출력합니다.

4.4 밀도 기반 클러스터링 알고리즘

인접한 영역의 밀도 (개체 또는 데이터 포인트 수) 가 특정 임계값을 초과하는 한 클러스터링이 계속되고 불규칙한 모양의 클러스터링 문제를 해결하는 데 능숙하며 공간 정보 처리, SGC, GCHL, DBSCAN 알고리즘, OPTICS 알고리즘 및 DENCLUE 알고리즘에 널리 사용됩니다.

데이터베이스 검색:

그것은 집중 지역에 매우 효과적이다. 임의 모양의 클러스터를 찾기 위해 이 메서드는 클러스터를 저밀도 영역으로 분리된 데이터 공간의 조밀한 오브젝트 영역으로 간주합니다. 고밀도 영역을 기반으로 하는 밀도 기반 클러스터링 방법으로, 밀도가 충분한 영역을 클러스터로 분할하고 소음이 있는 공간 데이터에서 임의 모양의 클러스터를 찾습니다.

4.5 그리드 기반 클러스터링 알고리즘

메쉬 기반 방법은 객체 공간을 제한된 수의 셀로 수량화하여 메쉬 구조를 형성합니다. 모든 클러스터 작업은 이 그리드 구조, 즉 정량화된 공간에서 수행됩니다. 이 방법의 주요 장점은 그것의 처리인가? 이 속도는 매우 빠르며 처리 속도는 데이터 객체의 수와 무관하며 정량화 공간의 1 차원당 단위 수에만 관련됩니다. 그러나 이 알고리즘의 효율성 향상은 클러스터 결과의 정확성을 희생하는 것을 대가로 한다. 일반적으로 밀도 기반 알고리즘과 함께 사용됩니다. 대표적인 알고리즘으로는 STING 알고리즘, CLIQUE 알고리즘, WAVE-CLUSTER 알고리즘 등이 있습니다. -응?

上篇: 예방 접종 기록을 확인하는 방법 下篇: 호남 장빈 피스톤은 어때요?