본문 바로가기
Data-driven Methodology/DS (Data Science)

[Data Science] 앙상블 분석

by goatlab 2022. 3. 8.
728x90
반응형
SMALL

앙상블 분석

 

  • 주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종 예측 모형을 만드는 방법
  • 다중모델조합, 분류기조합이 있음
  • 훈련을 한 뒤 예측을 하는데 사용하므로 지도학습
  • 학습방법의 불안전성
    • 학습자료의 작은 변화에 의해 예측모형이 크게 변하는 경우 그 학습방법은 불안정
    • 안정적인 방법
      • 1-nearest neighbor
      • 선형회귀모형
    • 불안정적인 방법
      • 의사결정모형

 

앙상블 기법의 종류

 

1. 배깅

 

  • 주어진 자료에서 여러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 최종 예측 모형을 만드는 방법
  • 배깅은 반복추출 방법을 사용하기 때문에 같은 데이터가 한 표본에 여러번 추출될 수 있고, 어떤 데이터는 추출되지 않을 수도 있음
  • 배깅은 가지치기를 하지 않고 최대로 설정한 의사결정나무들을 활용
    • 붓스트랩
      • 주어진 자료에서 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료
    • 보팅
      • 여러 개의 모형으로부터 산출된 결과를 다수결에 의해서 최종 결과를 선정하는 과정

 

2. 부스팅

 

  • 예측력이 약한 모형을 결합하여 강한 예측모형을 만드는 방법
  • 분류가 잘못된 데이터에 더 큰 가중치를 주어 표본을 추출하는 기법
  • 배깅에 비해 많은 경우 예측오차가 향상 되어 Adaboost의 성능이 배깅보다 뛰어는 경우가 많음

 

3. 랜덤 포레스트

 

의사결정나무의 특정인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법

 

https://wikidocs.net/48114

 

3.4.3.앙상블 분석

+ 주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종 예측 모형을 만드는 방법 + 다중모델조합, 분류기조합이 있음 + 훈련을 한 뒤 예 ...

wikidocs.net

 

728x90
반응형
LIST