goatlab
2022. 3. 8. 13:35
분류 분석
- 분류 분석, 예측 분석은 레코드의 특정 속성의 값을 미리 알아 맞히는 것을 목적으로 함
- 분류 분석은 범주형 속성의 값을 알아맞히는 것
- 예측 분석은 연속형 속성의 값을 알아맞히는 것
|
- 데이터가 어떤 그룹에 속하는지 예측하는데 사용
- 클러스터링과 유사하지만, 분류 분석은 각 그룹이 정의되어 있음
- 지도 학습에 속함
- 레코드의 범주형 속성의 값을 알아맞히는 것
|
분류 예
- 학생들의 국어, 영어, 수학 점수를 통해 내신등급을 알아맞히는 것
- 카드회사에서 회원들의 가입정보를 통해 1년후 신용 등급을 알아 맞히는 것
- 고객들의 속성을 이용해 이탈일자를 예측
|
분류 모델링
예측 분석
- 시계열 분석처럼 시간에 따른 값 두 개만을 이용해 앞으로의 매출 또는 온도 등을 예측
- 모델링을 하는 입력 데이터가 어떤 것인지에 따라 특성이 다름
- 여러 개의 다양한 설명변수 (독립 변수)가 아닌 한개의 설명 변수로 생각
- 레코드의 연속형 속성의 값을 알아맞히는 것
|
예측 예
- 학생들의 여러가지 정보를 입력하여 수능 점수를 알아 맞히는 것
- 카드회사 회원들의 가입 정보를 통해 연 매출액을 알아 맞히는 것
|
분류기법
- 회귀 분석, 로지스틱 회귀 분석
- 의사결정나무, CART
- 베이지안 분류
- 인공신경망
- 지지도벡터기계
- K-최근접 이웃
- Suport Vector Machine
|
로지스틱 회귀 분석
- 반응변수가 범주형인 경우에 적용되는 회귀 분석 모형
- 새로운 설명 변수가 주어질 때 반응변수의 각 범주에 속할 확률이 얼마인지를 추정하여, 추정 확률을 기준치에 따라 분류하는 목적으로 활용
- 이때 모형의 적합을 통해 추정된 확률을 사후 확률이라 함
- 역 S자 그래프
- 설명 변수가 한 개인 경우 해당 회귀 계수의 부호가 0보다 작을 때 표현되는 그래프
|
의사결정나무
- 의사결정나무는 분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법
- 나무구조는 연속적으로 발생하는 의사결정 문제를 시각화해 의사결정이 이뤄지는 시점과 성과를 한눈에 볼 수 있게 함
- 누구나 이해가 쉽고 설명이 용이
- 대용량의 데이터에서도 빠르게 만들 수 있고 데이터의 분류 작업도 신속히 진행 가능
- 비정상적인 잡음 데이터에서도 민감함 없이 분류 가능
- 과대 적합을 방지하기 위해서 가지치기 방법이 필요함
- 세분화, 분류, 예측, 교호작용효과의 파악 등에 사용
- 계산결과가 의사결정나무에 직접 나타나기 때문에 해석이 간편
- 가지치기
- 오차를 크게 할 위험이 높거나 부적절한 추론규칙을 가지고 있는 가지 또는 불필요한 가지를 제거하는 단계
- 활용분야
- 세분화, 분류, 예측, 차원 축소, 교호작용효과의 파악, 범주의 병합
|
https://wikidocs.net/48113
3.4.2.분류분석
+ 분류분석, 예측분석은 레코드의 특정 속성의 값을 미리 알아 맞히는 것을 목적으로 함 + 분류 분석은 범주형 속성의 값을 알아맞히는 것 + 예측 분석은 연 ...
wikidocs.net