데이터 마이닝
- 대용량의 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법
- 통계분석과의 차이
- 가설이나 가정에 따른 분석, 검증을 하는 통계분석과 달리 데이터마이닝은 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미있는 정보를 추출
- 활용분야
- 방법론
- 인공지능
- 의사결정나무
- K-평균군집화
- 연관분석
- 회귀분석
- 로짓 (Logit) 분석
- 최근접이웃법
|
데이터마이닝 방법
지도학습
- 정답을 알려주고 학습을 진행
- 분류분석
- 집단을 알려주고 구분하게 함
- 고양이, 사자, 강아지로 사진을 구분하게 함
- 회귀분석
- 독립변수에 따라 종속변수가 어떻게 변화하는지를 예측
- 강남, 강북 지역의 아파트값 예측
분석방법
- 의사결정나무
- 인공신경망
- 로지스틱회귀분석
- 최근접이웃법 (KNN)
- 사례기본 추론
- 앙상블 분석
|
비지도학습
- 정답을 알려주지 않고 데이터 들을 군집화
- 데이터의 숨겨진 특징이나 구조를 발견하는데 사용
- 연관성 분석
- 연속규칙
- 군집분석 (clustering)
- 특성에 따라 고객을 여러 개의 배타적인 집단으로 나누는 것
분석방법
- OLAP
- 연관규칙분석
- K-군집분석
- SOM(Self-Organizing Map)
|
데이터마이닝 데이터 분할
- 훈련용 / training
- 50%의 데이터를 모델링을 위한 훈련용(구축용)으로 활용
- 검정용 / validation
- 30%의 데이터를 구축된 모형의 과대/과소 추정의 판정 목적으로 활용
- 시험용 / test
- 20%의 데이터를 테스트데이터나 과거 데이터를 활용하여 모델의 성능 평가에 활용
|
과대적합, 과소적합
- 과적합 / 과대적합/ overfitting
- 모형이 학습용 데이터를 과하게 학습하여, 학습 데이터에 대해서는 높은 정확도를 나타내지만 테스트 데이터나 다른 데이터에 적용할 때는 성능이 떨어지는 현상
- 과소적합 / underfitting
- 모형이 너무 단순하여 데이터 속에 내제되어 있는 패턴이나 규칙을 제대로 학습하지 못하는 경우
|
데이터 양이 충분하지 않거나 입력 변수에 대한 설명이 충분한 경우 검정방법
- 홀드아웃 방법
- 주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용하는 방법
- 구축용과 시험용으로 분리
- 교차확인 방법
- 주어진 데이터를 k개의 하부집단으로 구분하여, k-1개의 집단을 학습용으로 나머지는 하부집단 검증용으로 설정하여 학습
- k번 반복 측정한 결과를 평균낸 값을 최종값으로 사용
|
성과 분석
1. 오분류에 대한 추정치
- 정분류율/Accuracy
- 오분류율/Error Rate
- 특이도/Specificicy
- TN/TN+FP
- 불량을 불량으로 판정하는 정도
- 민감도/Sensitivity
- TP=TP+FN
- 우량을 우량으로 판정하는 정도
- 정확도/Precisison
- 재현율/Recall = 민감도
- 실제값이 True인 관측치 중에 예측치가 맞는 정도를 나타내어 모형의 완전성을 평가하는 지표
- F1 Score
- 정확도와 재현율은 한 지표의 값이 높아지면 다른 지표의 값이 낮아질 가능성이 높은 관계를 지니고 있어 이러한 효과를 보정하여 하나의 지표로 생성
- 2 * (정확도*민감도 / 정확도+민감도)
|
2. ROC Curve
ROC Curve란 가로축을 FPR (False Positive Rate = 1-특이도) 값으로 두고, 세로축을 TPR (True Positive Rate, 민감도)로 두어 시각화한 그래프
3. 이익도표
분류 모형의 성능을 평가하기 위한 척도로, 분류된 관측치에 대해 얼마나 예측이 잘 이루어졌는지를 나타내기 위해 임의로 나눈 각 등급별로 반응검출율, 반응률, 리프트 등의 정보를 산출하여 나타내는 도표
https://wikidocs.net/48112