[Data Science] 데이터 마이닝

728x90

SMALL

데이터 마이닝

대용량의 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법
통계분석과의 차이
- 가설이나 가정에 따른 분석, 검증을 하는 통계분석과 달리 데이터마이닝은 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미있는 정보를 추출
활용분야
- 분류
- 예측
- 군집화
- 시각화
방법론
- 인공지능
- 의사결정나무
- K-평균군집화
- 연관분석
- 회귀분석
- 로짓 (Logit) 분석
- 최근접이웃법

데이터마이닝 방법

지도학습
비지도학습

지도학습

정답을 알려주고 학습을 진행
- 1등급, 2등급으로 구분
분류분석
- 집단을 알려주고 구분하게 함
- 고양이, 사자, 강아지로 사진을 구분하게 함
회귀분석
- 독립변수에 따라 종속변수가 어떻게 변화하는지를 예측
- 강남, 강북 지역의 아파트값 예측

분석방법

의사결정나무
인공신경망
로지스틱회귀분석
최근접이웃법 (KNN)
사례기본 추론
앙상블 분석
- 배깅
- 부스팅
- 랜덤 포레스트

비지도학습

정답을 알려주지 않고 데이터 들을 군집화
데이터의 숨겨진 특징이나 구조를 발견하는데 사용
연관성 분석
- 상품 배치
연속규칙
군집분석 (clustering)
- 특성에 따라 고객을 여러 개의 배타적인 집단으로 나누는 것

분석방법

OLAP
연관규칙분석
K-군집분석
SOM(Self-Organizing Map)

목적설정
- 데이터 마이닝을 위한 명확한 목적 설정
데이터준비
- 다양한 데이터 준비
데이터가공
- 모델링의 목적에 따라 목적 변수를 정의
기법적용
검증

데이터마이닝 데이터 분할

훈련용 / training
- 50%의 데이터를 모델링을 위한 훈련용(구축용)으로 활용
검정용 / validation
- 30%의 데이터를 구축된 모형의 과대/과소 추정의 판정 목적으로 활용
시험용 / test
- 20%의 데이터를 테스트데이터나 과거 데이터를 활용하여 모델의 성능 평가에 활용

과대적합, 과소적합

과적합 / 과대적합/ overfitting
- 모형이 학습용 데이터를 과하게 학습하여, 학습 데이터에 대해서는 높은 정확도를 나타내지만 테스트 데이터나 다른 데이터에 적용할 때는 성능이 떨어지는 현상
과소적합 / underfitting
- 모형이 너무 단순하여 데이터 속에 내제되어 있는 패턴이나 규칙을 제대로 학습하지 못하는 경우

데이터 양이 충분하지 않거나 입력 변수에 대한 설명이 충분한 경우 검정방법

홀드아웃 방법
- 주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용하는 방법
- 구축용과 시험용으로 분리
교차확인 방법
- 주어진 데이터를 k개의 하부집단으로 구분하여, k-1개의 집단을 학습용으로 나머지는 하부집단 검증용으로 설정하여 학습
- k번 반복 측정한 결과를 평균낸 값을 최종값으로 사용

성과 분석

1. 오분류에 대한 추정치

정분류율/Accuracy
- TN+TP / ALL
오분류율/Error Rate
- 1-Accuracy = FN+FP/ALL
특이도/Specificicy
- TN/TN+FP
- 불량을 불량으로 판정하는 정도
민감도/Sensitivity
- TP=TP+FN
- 우량을 우량으로 판정하는 정도
정확도/Precisison
- TP/TP+FP
재현율/Recall = 민감도
- 실제값이 True인 관측치 중에 예측치가 맞는 정도를 나타내어 모형의 완전성을 평가하는 지표
F1 Score
- 정확도와 재현율은 한 지표의 값이 높아지면 다른 지표의 값이 낮아질 가능성이 높은 관계를 지니고 있어 이러한 효과를 보정하여 하나의 지표로 생성
- 2 * (정확도*민감도 / 정확도+민감도)

2. ROC Curve

ROC Curve란 가로축을 FPR (False Positive Rate = 1-특이도) 값으로 두고, 세로축을 TPR (True Positive Rate, 민감도)로 두어 시각화한 그래프

3. 이익도표

분류 모형의 성능을 평가하기 위한 척도로, 분류된 관측치에 대해 얼마나 예측이 잘 이루어졌는지를 나타내기 위해 임의로 나눈 각 등급별로 반응검출율, 반응률, 리프트 등의 정보를 산출하여 나타내는 도표

https://wikidocs.net/48112

3.4.1.데이터 마이닝

+ 대용량의 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법 + 통계분석과의 차이 + 가설이나 가정에 따른 분석, 검증을 하는 통계분석과 ...

wikidocs.net

728x90

LIST

저작자표시 비영리 변경금지

'Data-driven Methodology > DS (Data Science)' 카테고리의 다른 글

[Data Science] 앙상블 분석 (0)	2022.03.08
[Data Science] 분류 분석 (0)	2022.03.08
[Data Science] 주성분 분석 (0)	2022.03.08
[Data Science] 다차원 척도법 (0)	2022.03.08
[Data Science] 시계열 분석 (0)	2022.03.08

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

GOATLAB

[Data Science] 데이터 마이닝

데이터 마이닝

데이터마이닝 방법

지도학습

분석방법

비지도학습

분석방법

데이터마이닝 데이터 분할

과대적합, 과소적합

데이터 양이 충분하지 않거나 입력 변수에 대한 설명이 충분한 경우 검정방법

성과 분석

'Data-driven Methodology > DS (Data Science)' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

[Data Science] 데이터 마이닝

데이터 마이닝

데이터마이닝 방법

지도학습

분석방법

비지도학습

분석방법

데이터마이닝 데이터 분할

과대적합, 과소적합

데이터 양이 충분하지 않거나 입력 변수에 대한 설명이 충분한 경우 검정방법

성과 분석

'Data-driven Methodology > DS (Data Science)' 카테고리의 다른 글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역