본문 바로가기
Data-driven Methodology/DS (Data Science)

[Data Science] 데이터 마이닝

by goatlab 2022. 3. 8.
728x90
반응형
SMALL

데이터 마이닝

 

  • 대용량의 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법
  • 통계분석과의 차이
    • 가설이나 가정에 따른 분석, 검증을 하는 통계분석과 달리 데이터마이닝은 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미있는 정보를 추출
  • 활용분야
    • 분류
    • 예측
    • 군집화
    • 시각화
  • 방법론
    • 인공지능
    • 의사결정나무
    • K-평균군집화
    • 연관분석
    • 회귀분석
    • 로짓 (Logit) 분석
    • 최근접이웃법

 

데이터마이닝 방법

 

  • 지도학습
  • 비지도학습

 

지도학습

 

  • 정답을 알려주고 학습을 진행
    • 1등급, 2등급으로 구분
  • 분류분석
    • 집단을 알려주고 구분하게 함
    • 고양이, 사자, 강아지로 사진을 구분하게 함
  • 회귀분석
    • 독립변수에 따라 종속변수가 어떻게 변화하는지를 예측
    • 강남, 강북 지역의 아파트값 예측

분석방법

  • 의사결정나무
  • 인공신경망
  • 로지스틱회귀분석
  • 최근접이웃법 (KNN)
  • 사례기본 추론
  • 앙상블 분석
    • 배깅
    • 부스팅
    • 랜덤 포레스트

 

비지도학습

 

  • 정답을 알려주지 않고 데이터 들을 군집화
  • 데이터의 숨겨진 특징이나 구조를 발견하는데 사용
  • 연관성 분석
    • 상품 배치
  • 연속규칙
  • 군집분석 (clustering)
    • 특성에 따라 고객을 여러 개의 배타적인 집단으로 나누는 것

분석방법

  • OLAP
  • 연관규칙분석
  • K-군집분석
  • SOM(Self-Organizing Map)
  1. 목적설정
    • 데이터 마이닝을 위한 명확한 목적 설정
  2. 데이터준비
    • 다양한 데이터 준비
  3. 데이터가공
    • 모델링의 목적에 따라 목적 변수를 정의
  4. 기법적용
  5. 검증

 

데이터마이닝 데이터 분할

 

  • 훈련용 / training
    • 50%의 데이터를 모델링을 위한 훈련용(구축용)으로 활용
  • 검정용 / validation
    • 30%의 데이터를 구축된 모형의 과대/과소 추정의 판정 목적으로 활용
  • 시험용 / test
    • 20%의 데이터를 테스트데이터나 과거 데이터를 활용하여 모델의 성능 평가에 활용

 

과대적합, 과소적합

 

  • 과적합 / 과대적합/ overfitting
    • 모형이 학습용 데이터를 과하게 학습하여, 학습 데이터에 대해서는 높은 정확도를 나타내지만 테스트 데이터나 다른 데이터에 적용할 때는 성능이 떨어지는 현상
  • 과소적합 / underfitting
    • 모형이 너무 단순하여 데이터 속에 내제되어 있는 패턴이나 규칙을 제대로 학습하지 못하는 경우

 

데이터 양이 충분하지 않거나 입력 변수에 대한 설명이 충분한 경우 검정방법

 

  • 홀드아웃 방법
    • 주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용하는 방법
    • 구축용과 시험용으로 분리
  • 교차확인 방법
    • 주어진 데이터를 k개의 하부집단으로 구분하여, k-1개의 집단을 학습용으로 나머지는 하부집단 검증용으로 설정하여 학습
    • k번 반복 측정한 결과를 평균낸 값을 최종값으로 사용

 

성과 분석

 

1. 오분류에 대한 추정치

 

  • 정분류율/Accuracy
    • TN+TP / ALL
  • 오분류율/Error Rate
    • 1-Accuracy = FN+FP/ALL
  • 특이도/Specificicy
    • TN/TN+FP
    • 불량을 불량으로 판정하는 정도
  • 민감도/Sensitivity
    • TP=TP+FN
    • 우량을 우량으로 판정하는 정도
  • 정확도/Precisison
    • TP/TP+FP
  • 재현율/Recall = 민감도
    • 실제값이 True인 관측치 중에 예측치가 맞는 정도를 나타내어 모형의 완전성을 평가하는 지표
  • F1 Score
    • 정확도와 재현율은 한 지표의 값이 높아지면 다른 지표의 값이 낮아질 가능성이 높은 관계를 지니고 있어 이러한 효과를 보정하여 하나의 지표로 생성
    • 2 * (정확도*민감도 / 정확도+민감도)

 

2. ROC Curve

 

ROC Curve란 가로축을 FPR (False Positive Rate = 1-특이도) 값으로 두고, 세로축을 TPR (True Positive Rate, 민감도)로 두어 시각화한 그래프

 

3. 이익도표

 

분류 모형의 성능을 평가하기 위한 척도로, 분류된 관측치에 대해 얼마나 예측이 잘 이루어졌는지를 나타내기 위해 임의로 나눈 각 등급별로 반응검출율, 반응률, 리프트 등의 정보를 산출하여 나타내는 도표

 

https://wikidocs.net/48112

 

3.4.1.데이터 마이닝

+ 대용량의 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법 + 통계분석과의 차이 + 가설이나 가정에 따른 분석, 검증을 하는 통계분석과 ...

wikidocs.net

 

728x90
반응형
LIST