본문 바로가기
Data-driven Methodology/DS (Data Science)

[Data Science] 분류 분석

by goatlab 2022. 3. 8.
728x90
반응형
SMALL

분류 분석

 

  • 분류 분석, 예측 분석은 레코드의 특정 속성의 값을 미리 알아 맞히는 것을 목적으로 함
    • 분류 분석은 범주형 속성의 값을 알아맞히는 것
    • 예측 분석은 연속형 속성의 값을 알아맞히는 것
  • 데이터가 어떤 그룹에 속하는지 예측하는데 사용
  • 클러스터링과 유사하지만, 분류 분석은 각 그룹이 정의되어 있음
  • 지도 학습에 속함
  • 레코드의 범주형 속성의 값을 알아맞히는 것

 

분류 예

 

  • 학생들의 국어, 영어, 수학 점수를 통해 내신등급을 알아맞히는 것
  • 카드회사에서 회원들의 가입정보를 통해 1년후 신용 등급을 알아 맞히는 것
  • 고객들의 속성을 이용해 이탈일자를 예측

 

분류 모델링

 

  • 신용 평가 모형
    • 우량, 불량
  • 사기 방비 모형
    • 사기, 정상
  • 이탈 모형
    • 이탈, 유지

 

예측 분석

 

  • 시계열 분석처럼 시간에 따른 값 두 개만을 이용해 앞으로의 매출 또는 온도 등을 예측
  • 모델링을 하는 입력 데이터가 어떤 것인지에 따라 특성이 다름
  • 여러 개의 다양한 설명변수 (독립 변수)가 아닌 한개의 설명 변수로 생각
  • 레코드의 연속형 속성의 값을 알아맞히는 것

 

예측 예

 

  • 학생들의 여러가지 정보를 입력하여 수능 점수를 알아 맞히는 것
  • 카드회사 회원들의 가입 정보를 통해 연 매출액을 알아 맞히는 것

 

분류기법

 

  • 회귀 분석, 로지스틱 회귀 분석
  • 의사결정나무, CART
  • 베이지안 분류
  • 인공신경망
  • 지지도벡터기계
  • K-최근접 이웃
  • Suport Vector Machine

 

로지스틱 회귀 분석

 

  • 반응변수가 범주형인 경우에 적용되는 회귀 분석 모형
  • 새로운 설명 변수가 주어질 때 반응변수의 각 범주에 속할 확률이 얼마인지를 추정하여, 추정 확률을 기준치에 따라 분류하는 목적으로 활용
  • 이때 모형의 적합을 통해 추정된 확률을 사후 확률이라 함
    • 역 S자 그래프
      • 설명 변수가 한 개인 경우 해당 회귀 계수의 부호가 0보다 작을 때 표현되는 그래프

 

의사결정나무

 

  • 의사결정나무는 분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법
  • 나무구조는 연속적으로 발생하는 의사결정 문제를 시각화해 의사결정이 이뤄지는 시점과 성과를 한눈에 볼 수 있게 함
  • 누구나 이해가 쉽고 설명이 용이
  • 대용량의 데이터에서도 빠르게 만들 수 있고 데이터의 분류 작업도 신속히 진행 가능
  • 비정상적인 잡음 데이터에서도 민감함 없이 분류 가능
  • 과대 적합을 방지하기 위해서 가지치기 방법이 필요함
  • 세분화, 분류, 예측, 교호작용효과의 파악 등에 사용
  • 계산결과가 의사결정나무에 직접 나타나기 때문에 해석이 간편
    • 알고리즘
      • CART
        • 불순도의 측도: 지니지수
      • C4.5와 C5.0
        • 불순도의 측도: 엔트로피 지수
      • CHAID
        • 불순도의 측도: 카이제곱 통계량
  • 가지치기
    • 오차를 크게 할 위험이 높거나 부적절한 추론규칙을 가지고 있는 가지 또는 불필요한 가지를 제거하는 단계
  • 활용분야
    • 세분화, 분류, 예측, 차원 축소, 교호작용효과의 파악, 범주의 병합

 

https://wikidocs.net/48113

 

3.4.2.분류분석

+ 분류분석, 예측분석은 레코드의 특정 속성의 값을 미리 알아 맞히는 것을 목적으로 함 + 분류 분석은 범주형 속성의 값을 알아맞히는 것 + 예측 분석은 연 ...

wikidocs.net

 

728x90
반응형
LIST