각 객체의 유사성이 높은 대상 집단으로 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명하는 분석 방법
특성에 따라 고객을 여러 개의 배타적인 집단으로 나누는 것
결과는 구체적인 군집분석 방법에 따라 차이가 나타날 수 있음
군집의 개수나 구조에 대한 가정 없이 데이터들 사이의 거리를 기준으로 군집화를 유도
사용예
마케팅 조사에서 소비자들의 상품구매행동
라이프 스타일에 따른 소비자군을 분류하여 시장 전략 수립등에 활용
거리
군집 분석에서는 관측 데이터 간 유사성이나 근접성을 측정해 어느 군집으로 묶을 수 있는지 판단한다.
연속형 변수
유클리디안 거리
데이터간의 유사성을 측정할 때 많이 사용하는 거리
통계적 개념이 내포되어 있지 않아 변수들의 산포 정도가 전혀 감안되어 있지 않음
표준화 거리
해당변수의 표준편차로 척도 변환한 후 유클리디안 거리를 계산하는 방법
표준화하게 되면 척도의 차이, 분산의 차이로 인한 왜곡을 피할 수 있음
마할라노비스 거리
통계적 개념이 포함된 거리이며 변수들의 산포를 고려하여 이를 표준화한 거리
두 벡터 사이의 거리를 산포를 의미하는 표본공분산으로 나눠주어야 하며, 그룹에 대한 사전 지식 없이는 표본공분산 S를 계산할 수 없으므로 사용하기 곤란
변수의 표준화와 변수 간의 상관성을 동시에 고려한 통계적 거리
체비셰프 거리
맨하탄 거리
유클리디안 거리와 함께 가장 많이 사용되는 거리로 맨하탄 도시에서 건물에서 건물로 가기위한 최단거리를 구하기 위해 고안된 거리
캔버라 거리
민코우스키 거리
맨하탄 거리와 유클리디안 거리를 한번에 표현한 공식으로 L1거리, L2거리라 불림
범주형 변수
자카드 거리
자카드 계수
코사인 거리
문서를 유사도를 기준으로 분류 혹은 그룹핑 할 때 유용하게 사용
코사인 유사도
두 개체의 벡터 내적의 코사인 값을 이용하여 측정된 벡터간의 유사한 정도
군집 분석 종류
계층적 군집 분석
자료의 크기가 작을 때
n개의 군집으로 시작해 점차 군집의 개수를 줄여 나가는 방법
덴드로그램을 이용하여 분석
군집 병합 방법
단일, 완전, 평균, 중심결합기준, 와드
비계층적 군집 분석
자료의 크기에 제약이 없음
K-Means 군집분석
혼합 군포 군집
SOM
계층적 군집 분석
계층적 군집 방법은 n개의 군집으로 시작해 점차 군집의 개수를 줄여 나가는 방법
계층적 군집을 형성하는 방법
합병형 방법
최단 연결법, 최장 연결법, 평균 연결법, 와드연결법, 중심 연결법
분리형 방법
다이아나 방법
최단 연결법 / 단일 연결법
n*n 거리 행렬에서 거리가 가장 가까운 데이터를 묶어서 군집을 형성
군집과 군집 또는 데이터와의 거리를 계산 시 최단 거리를 거리로 계산하여 거리행렬 수정을 진행
최장 연결법 / 완전 연결법
군집과 군집 또는 데이터와의 거리를 계산할 때 최장 거리를 거리로 계산하여 거리행렬을 수정하는 방법
평균 연결법
군집과 군집 또는 데이터와의 거리를 계산할 때 평균을 거리로 계산하는 방법
와드 연결법
군집내 편차들의 제곱합을 고려한 방법
군집화
거리행렬을 통해 가장 가까운 거리의 객체들간의 관계를 규명하고 덴드로그램을 그림
비계층적 군집 분석
n개의 개체를 g개의 군집으로 나눌 수 있는 모든 가능한 방법을 점검해 최적화한 군집을 형성
프로토타입
K-평균 군집
퍼지 군집
분포기반
혼합분포군집
밀도기반
중심밀도기반
군집 분석 방법
1. K-평균 군집분석
주어진 데이터를 K개의 클러스터로 묶는 알고리즘
각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작
연속형 변수에 활용이 가능
초기 중심값은 임의로 선택이 가능
한번 군집이 형성되어도 군집 내 객체들은 다른 군집으로 이동할 수 있음
볼록한 형태가 아닌 군집이 존재하면 성능이 떨어짐
사전에 주어진 목적이 없으므로 결과 해석이 어려움
잡음이나 이상값에 영향을 많이 받음
PAM: 이상값에 민감한 단점을 극복하기 위해 등장한 비계층적 군집 방법
집단 내 제곱합 그래프
군집의 개수인 K를 미리 정해주는 데 활용할 수 있는 그래프
2. 혼합 분포 군집
모형 기반의 군집 방법
데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에서 모수와 함께 가중치를 자료로부터 추정하는 방법
K-평균 군집의 절차와 유사하지만 확률분포를 도입하여 군집을 수행
군집을 몇개의 모수로 표현할 수 있으며, 서로 다른 크기나 모양의 군집을 찾을 수 있음
3. SOM (Self-Organizing Map)
자가조직화지도 (SOM) 알고리즘은 코호넨에 의해 제시 개발되었으며 코호넨 맵이라고도 알려져 있음
고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬화하여 지도의 형태로 형성화 하는 클러스터링 방법
단 하나의 전방 패스를 사용
Map으로 형상화는입력 변수의 위치 관계를 그대로 보존한다는 특징이 있다. SOM을 이용한 군집 분석은 역전파 (Back Propagation) 알고리즘 등을 이용하는 인공신경망과는 달리단 하나의 전방 패스(Feed-forward flow)를 사용함으로써 수행 속도가 매우 빠름