본문 바로가기
Data-driven Methodology/DS (Data Science)

[Data Science] 군집 분석

by goatlab 2022. 3. 8.
728x90
반응형
SMALL

군집 분석

 

  • 각 객체의 유사성이 높은 대상 집단으로 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명하는 분석 방법
  • 특성에 따라 고객을 여러 개의 배타적인 집단으로 나누는 것
  • 결과는 구체적인 군집분석 방법에 따라 차이가 나타날 수 있음
  • 군집의 개수나 구조에 대한 가정 없이 데이터들 사이의 거리를 기준으로 군집화를 유도
  • 사용예
    • 마케팅 조사에서 소비자들의 상품구매행동
    • 라이프 스타일에 따른 소비자군을 분류하여 시장 전략 수립등에 활용

 

거리

 

군집 분석에서는 관측 데이터 간 유사성이나 근접성을 측정해 어느 군집으로 묶을 수 있는지 판단한다.

 

연속형 변수

 

  • 유클리디안 거리
    • 데이터간의 유사성을 측정할 때 많이 사용하는 거리
    • 통계적 개념이 내포되어 있지 않아 변수들의 산포 정도가 전혀 감안되어 있지 않음
  • 표준화 거리
    • 해당변수의 표준편차로 척도 변환한 후 유클리디안 거리를 계산하는 방법
    • 표준화하게 되면 척도의 차이, 분산의 차이로 인한 왜곡을 피할 수 있음
  • 마할라노비스 거리
    • 통계적 개념이 포함된 거리이며 변수들의 산포를 고려하여 이를 표준화한 거리
    • 두 벡터 사이의 거리를 산포를 의미하는 표본공분산으로 나눠주어야 하며, 그룹에 대한 사전 지식 없이는 표본공분산 S를 계산할 수 없으므로 사용하기 곤란
    • 변수의 표준화와 변수 간의 상관성을 동시에 고려한 통계적 거리
  • 체비셰프 거리
  • 맨하탄 거리
    • 유클리디안 거리와 함께 가장 많이 사용되는 거리로 맨하탄 도시에서 건물에서 건물로 가기위한 최단거리를 구하기 위해 고안된 거리
  • 캔버라 거리
  • 민코우스키 거리
    • 맨하탄 거리와 유클리디안 거리를 한번에 표현한 공식으로 L1거리, L2거리라 불림

 

범주형 변수

 

  • 자카드 거리
  • 자카드 계수
  • 코사인 거리
    • 문서를 유사도를 기준으로 분류 혹은 그룹핑 할 때 유용하게 사용
  • 코사인 유사도
    • 두 개체의 벡터 내적의 코사인 값을 이용하여 측정된 벡터간의 유사한 정도

 

군집 분석 종류

 

  • 계층적 군집 분석
    • 자료의 크기가 작을 때
    • n개의 군집으로 시작해 점차 군집의 개수를 줄여 나가는 방법
    • 덴드로그램을 이용하여 분석
    • 군집 병합 방법
    • 단일, 완전, 평균, 중심결합기준, 와드
  • 비계층적 군집 분석
    • 자료의 크기에 제약이 없음
    • K-Means 군집분석
    • 혼합 군포 군집
    • SOM

 

계층적 군집 분석

 

  • 계층적 군집 방법은 n개의 군집으로 시작해 점차 군집의 개수를 줄여 나가는 방법
    • 계층적 군집을 형성하는 방법
      • 합병형 방법
        • 최단 연결법, 최장 연결법, 평균 연결법, 와드연결법, 중심 연결법
      • 분리형 방법
        • 다이아나 방법
  • 최단 연결법 / 단일 연결법
    • n*n 거리 행렬에서 거리가 가장 가까운 데이터를 묶어서 군집을 형성
    • 군집과 군집 또는 데이터와의 거리를 계산 시 최단 거리를 거리로 계산하여 거리행렬 수정을 진행
  • 최장 연결법 / 완전 연결법
    • 군집과 군집 또는 데이터와의 거리를 계산할 때 최장 거리를 거리로 계산하여 거리행렬을 수정하는 방법
  • 평균 연결법
    • 군집과 군집 또는 데이터와의 거리를 계산할 때 평균을 거리로 계산하는 방법
  • 와드 연결법
    • 군집내 편차들의 제곱합을 고려한 방법
  • 군집화
    • 거리행렬을 통해 가장 가까운 거리의 객체들간의 관계를 규명하고 덴드로그램을 그림

 

비계층적 군집 분석

 

  • n개의 개체를 g개의 군집으로 나눌 수 있는 모든 가능한 방법을 점검해 최적화한 군집을 형성
  • 프로토타입
    • K-평균 군집
    • 퍼지 군집
  • 분포기반
    • 혼합분포군집
  • 밀도기반
    • 중심밀도기반

 

군집 분석 방법

 

1. K-평균 군집분석

 

  • 주어진 데이터를 K개의 클러스터로 묶는 알고리즘
  • 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작
  • 연속형 변수에 활용이 가능
  • 초기 중심값은 임의로 선택이 가능
  • 한번 군집이 형성되어도 군집 내 객체들은 다른 군집으로 이동할 수 있음
  • 볼록한 형태가 아닌 군집이 존재하면 성능이 떨어짐
  • 사전에 주어진 목적이 없으므로 결과 해석이 어려움
  • 잡음이나 이상값에 영향을 많이 받음
    • PAM: 이상값에 민감한 단점을 극복하기 위해 등장한 비계층적 군집 방법
  • 집단 내 제곱합 그래프
    • 군집의 개수인 K를 미리 정해주는 데 활용할 수 있는 그래프

 

2. 혼합 분포 군집

 

  • 모형 기반의 군집 방법
  • 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에서 모수와 함께 가중치를 자료로부터 추정하는 방법
  • K-평균 군집의 절차와 유사하지만 확률분포를 도입하여 군집을 수행
  • 군집을 몇개의 모수로 표현할 수 있으며, 서로 다른 크기나 모양의 군집을 찾을 수 있음

 

3. SOM (Self-Organizing Map)

 

  • 자가조직화지도 (SOM) 알고리즘은 코호넨에 의해 제시 개발되었으며 코호넨 맵이라고도 알려져 있음
  • 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬화하여 지도의 형태로 형성화 하는 클러스터링 방법
  • 단 하나의 전방 패스를 사용
  • Map으로 형상화는 입력 변수의 위치 관계를 그대로 보존한다는 특징이 있다. SOM을 이용한 군집 분석은 역전파 (Back Propagation) 알고리즘 등을 이용하는 인공신경망과는 달리 단 하나의 전방 패스(Feed-forward flow)를 사용함으로써 수행 속도가 매우 빠름

 

https://wikidocs.net/48116

 

3.4.5.군집분석

+ 각 객체의 유사성이 높은 대상 집단으로 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명하는 분석 방법 + 특성에 따라 고객을 여 ...

wikidocs.net

 

728x90
반응형
LIST

'Data-driven Methodology > DS (Data Science)' 카테고리의 다른 글

캐글 (Kaggle)  (0) 2022.08.13
[Data Science] 연관분석  (0) 2022.03.08
[Data Science] 인공신경망 분석  (0) 2022.03.08
[Data Science] 앙상블 분석  (0) 2022.03.08
[Data Science] 분류 분석  (0) 2022.03.08