이 문서의 Apriori 알고리즘은 주로 빈번한 세트의 연관 분석을 기반으로 합니다. 주요 목적은 강력한 연관 규칙을 찾는 것이다.
잦은 세트와 강력한 연관 규칙을 이해하려면 먼저 다음과 같은 상황을 이용하여 몇 가지 중요한 개념을 소개해야 한다.
다음 표는 일부 구매 기록을 보여줍니다.
구매 기록을 정리하면 아래 표를 얻을 수 있습니다. 행과 열의 숫자는 두 상품을 동시에 구매하는 거래 횟수를 나타냅니다. 예를 들어, Orange 와의 거래 수는 4 이고 Orange 및 Coke 와의 거래 수는 2 입니다.
신뢰도는 규칙의 신뢰성을 나타냅니다.
조건 항목의 집합은 A 이고, 결과 집합은 B 이고, 신뢰도는 A 에서 계산되며, B 의 확률, 즉 신뢰도 (A->; B)=P(B|A). 예를 들어 "콜라 오렌지" 의 신뢰도를 계산합니다. Orange 가 포함된 네 개의 거래 중 두 개만 쿠키를 포함하기 때문이다. 신뢰도는 0.5 입니다.
지원, 모든 트랜잭션 세트에 A 와 B 가 모두 존재할 확률을 계산합니다.
예를 들어, 5 개의 레코드 중 2 개는 Orange 와 Coke 를 모두 가지고 있습니다. 그럼 이 규칙의 지지도는 2/5=0.4 입니다. 지금 이 법칙은 한 고객이 오렌지를 사면 콜라를 살 확률이 50% 라고 할 수 있다. 이런 경우 (즉, 오렌지를 사면 콜라를 다시 살 수 있음) 40% 의 확률이 있습니다.
지지도가 미리 결정된 최소 지지도보다 큰 항목 세트입니다.
상호 관계 규칙: 항목 세트 I={i 1, I2, ... in} 에 데이터 세트 d 가 있고 각 레코드 t 가 I 의 하위 세트인 경우 상호 관계 규칙은 a->; B 의 표현식에서 a 와 b 는 모두 I 의 하위 세트이고 a 와 b 의 교차는 비어 있습니다. 이 상호 관계 규칙의 지원 정도: support = P(A 와 b). 이 상호 관계 규칙의 신뢰도: 신뢰도 = 지지도 (A 와 B)/ 지지도 (A).
강력한 상호 관계 규칙: 상호 관계 규칙의 지원 및 신뢰도가 미리 정의된 최소 지원 및 신뢰도보다 큰 경우 이를 강력한 상호 관계 규칙이라고 합니다.
여기 알고리즘의 과정을 보여주는 예가 있습니다.
항목 세트 I = {1, 2,3,4,5};
거래 세트 t:
최소 지지도 설정 (minsup)=3/7, 최소 신뢰도 (misconf)=5/7.
가정: n- 빈번항목 세트는 n 개 요소가 있는 항목 세트입니다. 예를 들어 1- 빈번항목 세트는 1 개 요소가 있는 항목 세트입니다.
그럼 여기서 1- 빈번항목 세트는 {1}, {2}, {3}, {4}, {5} 입니다
2- 자주 항목 세트를 생성하는 프로세스는 다음과 같습니다.
먼저 가능한 모든 2- 프로젝트 세트를 다음과 같이 나열합니다.
{1,2}, {1,3}, {1,4}, {1,5
{2,3},{2,4},{2,5}
{3,4},{3,5}
{4,5}
그들의 지지도를 계산해 보니 {1, 2}, {1, 3}, {1, 4}, {2,3 만 발견됐다
{1,2}, {1,3}, {1,4}, {2,3}, {2,;
3- 자주 사용하는 항목 세트 생성:
기존 2- 빈번항목 세트의 경우 2- 2 합집합을 취하고, 세 번째 이진 그룹도 2-빈번항목 세트에 있으며, 각각 계산된 모든 3- 항목 세트의 지원을 보장하고, 최소 지지도를 충족하지 못하는 항목 세트를 제거합니다.
예를 들어,
{1, 2} 및 {1, 3} 의 및 {1, 2,3};
{1, 2} 및 {1, 4} 의 및 {1, 2,4};
{1, 3} 및 {1, 4} 의 및 {1, 3,4};
{2,3} 및 {2,4} 의 및 {2,3,4};
그러나 {1, 3,4} 의 하위 집합 {3,4} 가 2- 빈번 항목 세트에 없으므로 {1, 3,4} 를 제외해야 합니다. {2,3,4} 같은 방식으로 거절합니다.
그런 다음 {1, 2,3} 및 {1, 2,4} 에 대한 지원을 계산하고 {1, 2,3} 을 발견했습니다. 그래서 우리는 3- 빈번 항목 집합: {1, 2,3} 을 얻었다.
더 큰 빈번 항목 세트를 찾을 수 없을 때까지 위 단계를 반복하여 n 개의 빈번 항목 세트를 계속 검색합니다. 이 시점에서 빈번 항목 세트 생성 프로세스가 종료됩니다.
여기서는 3- 빈번 항목 세트에서 상호 관계 규칙을 생성하는 프로세스만 설명합니다. 즉, 집합 {1, 2,3} 을 예로 들 수 있습니다.
뒤돌아 보면, 쳉 씨 1- 연관 규칙의 후기:
(1, 2)--> 3, 신뢰도 =3/4 (( 1, 2) 레코드 ***4, 3 포함, 그래서 3/4);
(1, 3)--> 2, 믿음 = 3/5;
(2,3)--> 1, 신뢰도 = 3/3;
제 2 조 신뢰 3 과 (2,3)->1.
즉, 1 및 2 가 나타나면 3 이 발생할 가능성이 높습니다. 2,3, 1 이 있을 가능성이 높습니다.
Blogs.com/junyu Huang/p/5572364.html