728x90 반응형 SMALL 랜덤 포레스트3 Sleep stages classification based on heart rate variability and random forest (4) Classifier model: Random Forest RF는 각 내부 노드에서 p 기능의 부트스트랩 샘플링 하위 집합에서 분할 기능을 선택하는 많은 수의 결정 트리로 구성된다. 트리는 가지치기 없이 CART (Classification And Regression Tree) 방법론을 통해 구축된다. 최종 예측은 앙상블 예측의 다수결로 결정된다. RF의 중요한 기능은 훈련 과정에서 각 기능의 중요성을 평가하는 것이다. 실제로 RF를 구성하는 동안 OOB (out-of-bag) 샘플이라고 하는 원래 훈련 세트의 약 33%가 일반적인 부트스트랩 샘플에서는 발생하지 않는다. 특정 기능의 중요성을 평가하기 위해 처음에는 OOB 샘플에 대한 해당 값을 임의로 치환한다. 그런 다음 수정된 OOB 샘플이 새로운 예측.. 2023. 6. 29. [Data Science] 앙상블 분석 앙상블 분석 주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종 예측 모형을 만드는 방법 다중모델조합, 분류기조합이 있음 훈련을 한 뒤 예측을 하는데 사용하므로 지도학습 학습방법의 불안전성 학습자료의 작은 변화에 의해 예측모형이 크게 변하는 경우 그 학습방법은 불안정 안정적인 방법 1-nearest neighbor 선형회귀모형 불안정적인 방법 의사결정모형 앙상블 기법의 종류 1. 배깅 주어진 자료에서 여러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 최종 예측 모형을 만드는 방법 배깅은 반복추출 방법을 사용하기 때문에 같은 데이터가 한 표본에 여러번 추출될 수 있고, 어떤 데이터는 추출되지 않을 수도 있음 배깅은 가지치기를 하지 않고 최대.. 2022. 3. 8. 13. 랜덤 포레스트 (Random Forest) / 에이다부스트 (AdaBoost) 부스팅 (Boosting) 여러 개의 분류기가 순차적으로 학습 수행, 다음 분류기에게는 가중치 (weight)를 부여하면서 학습, 예측 진행한다. 예측 성능이 뛰어나 앙상블 학습을 주도한다. 학습 라운드를 차례로 진행하면서 각 예측이 틀린 데이터에 점점 가중치를 주는 방식이다. 라운드별로 잘못 분류된 데이터를 좀 더 잘 분류하는 모델로 만들어 최종 적으로 모델들의 앙상블을 만드는 방식으로 배깅 알고리즘이 처음 성능을 측정하기 위한 기준 (baseline) 알고리즘으로 많이 사용 된다면, 부스팅 알고리즘은 높은 성능을 내야 하는 상황에서 가장 좋은 선택지이다. 첫 번째 라운드 결과 모델에서 어떤 점은 오차가 큰 부분이다. 두 번째 라운드에서 오답으로 분류된 어떤 점에 가중치를 줘 학습한다. 다시 오류가 큰.. 2021. 12. 22. 이전 1 다음 728x90 반응형 LIST