현재 위치 - 회사기업대전 - 기업 정보 공시 - 어떤 종류의 클러스터링 알고리즘이 있습니까?

어떤 종류의 클러스터링 알고리즘이 있습니까?

클러스터 분석의 계산 방법은 주로 계층, 분할, 밀도 기반, 그리드 기반, 모델 기반 등이 있습니다. 여기서 처음 두 알고리즘은 통계적으로 정의된 거리를 사용하여 측정됩니다.

K-means 알고리즘은 다음과 같이 작동합니다. 먼저 N 개의 데이터 객체 중에서 K 개의 객체를 초기 클러스터 센터로 무작위로 선택합니다. 나머지 오브젝트의 경우 이러한 클러스터 센터와의 유사성 (거리) 에 따라 가장 유사한 클러스터 (클러스터 센터로 표시) 에 각각 할당됩니다. 그런 다음 각 새 클러스터의 클러스터 센터 (해당 클러스터에 있는 모든 객체의 평균) 를 계산합니다. 표준 측정 함수가 수렴하기 시작할 때까지 이 과정을 반복합니다. 일반적으로 평균 분산은 표준 측정 함수로 사용됩니다. K 클러스터에는 각 클러스터 자체가 가능한 한 촘촘하고 각 클러스터가 가능한 한 독립적이라는 특징이 있습니다.

프로세스는 다음과 같습니다.

(1) n 개의 데이터 객체 중에서 k 개의 객체를 무작위로 선택하여 초기 클러스터 센터로 사용합니다.

(2) 각 클러스터 오브젝트의 평균 (중심 오브젝트) 을 기준으로 각 오브젝트와 중심 오브젝트 간의 거리를 계산합니다. 최소 거리에 따라 해당 객체를 다시 나눕니다.

(3) 각 (변경된) 클러스터의 평균 (중심 객체) 을 다시 계산합니다.

(4) 각 클러스터가 더 이상 변경되지 않을 때까지 (2) 및 (3) 루프를 반복합니다 (표준 측정 함수 수렴).

장점: 이 알고리즘에 의해 결정된 k 분할의 제곱 오차가 가장 적습니다. 클러스터가 밀집되어 있고 클래스 간의 차이가 뚜렷할 때 효과가 더 좋다. 큰 데이터 세트 처리의 경우 이 알고리즘은 비교적 확장 가능하고 효율적이며 계산 복잡성은 O(NKt) 입니다. 여기서 N 은 데이터 객체 수이고 T 는 반복 횟수입니다.

단점:

1.k 는 미리 주어진 것이지만 선택하기가 어렵습니다.

2. 초기 클러스터 센터의 선택은 클러스터 결과에 큰 영향을 미칩니다.

copyright 2024회사기업대전