본문 바로가기
Data-driven Methodology/DS (Data Science)

[Data Science] 연관분석

by goatlab 2022. 3. 8.
728x90
반응형
SMALL

연관규칙분석

 

  • 연관성 분석은 흔히 장바구니 분석 또는 서열 분석이라고도 함
  • 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용
  • 장바구니 분석
    • 장바구니에 무엇이 같이 들어 있는지에 대한 분석
  • 서열 분석
    • A를 산 다음에 B를 산다.
  • 상품 배치

 

연관규칙의 형태

 

  • 조건과 반응의 형태 (if-then)로 이루어짐
    • if A then B
      • 만일 A가 일어나면 B가 일어난다.
      • 아메리카노를 마시는 손님 중 10%가 브라우니를 먹는다.
      • 샌드위치를 먹는 고객의 30%가 탄산수를 함께 마신다.

 

연관규칙의 측도

 

  • 산업의 특성에 따라 지지도, 신뢰도, 향상도 값을 잘 보고 규칙을 선택
  • 지지도
    • 전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율
    • 지지도 = A와 B가 동시에 포함된 거래수/전체 거래수
  • 신뢰도
    • 항목 A를 포함하는 거래 중에서 항목 A와 항목 B가 같이 포함될 확률
    • 연관성의 정도
    • 신뢰도 = A,B가 동시에 포함된 거래수/A를 포함하는 거래수
  • 향상도
    • A가 구매되지 않았을 때 품목 B의 구매확률에 비해 A가 구매됐을 때 품목 B의 구매확률의 증가 비
    • 연관규칙 A->B는 품목 A와 품목 B의 구매가 서로 관련이 없는 경우에 향상도가 1이 됨
    • 향상도 = A,B동시구매/A구매*B구매

 

연관규칙의 절차

 

  • 최소 지지도보다 큰 집합만을 대상으로 높은 지지도를 갖는 품목 집합을 찾는 것
  • 처음에는 5%로 잡고 규칙이 충분히 도출되는지를 보고 다양하게 조절
  • 절차
    1. 최소지지도 결정
    2. 품목 중 최소 지지도를 넘는 품목 분류
    3. 2가지 품목 집합 생성
    4. 반복적으로 수행해 빈발품목 집합을 찾음

 

순차패턴

 

  • 동시에 구매될 가능성이 큰 상품군을 찾아내는 연관성분석에 시간이라는 개념을 포함시켜 순차적으로 구매 가능성이 큰 상품군을 찾아낸는 것
  • 구매 시점에 대한 정보가 포함되어 있음

 

연관성 분석 알고리즘

 

  • 1세대 알고리즘인 Apriori나 2세대인 FP-Growth에서 발전하여 3세대 FPV를 이용해 메모리를 효율적으로 사용함으로써 SKU 레벨의 연관성분석을 성공적으로 적용
    • 1세대: Apriori
    • 2세대: FP-Growth
    • 3세대: FPV
  • 모든 가능한 품목 부분집합의 개수를 줄이는 방식으로 작동하는 것이 Apriori 알고리즘이며 거래내역 안에 포함된 품목의 개수를 줄요 비교하는 횟수를 줄이는 방식으로 작동하는 것이 FP-Growth 알고리즘
  • Apriori 알고리즘
    • 최소 지지도이상의 빈발항목집합을 찾은 후 그것들에 대해서만 연관규칙을 계산
  • FP-Growth 알고리즘
    • 후보 빈발항목 집합을 생성하지 않고 FP-Tree를 만든 후 분할정복 방식을 통해 사용

 

https://wikidocs.net/48117

 

3.4.6.연관분석

# 연관규칙분석 + 연관성 분석은 흔히 장바구니 분석 또는 서열 분석이라고도 함 + 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 ...

wikidocs.net

 

728x90
반응형
LIST