본문 바로가기
728x90
반응형
SMALL

교차 검증3

리샘플링 방법 (Resampling Methods) 리샘플링 방법 (Resampling Methods) 리샘플링 방법은 현대 통계학에서 없어서는 안 될 도구이다. 이 방법은 훈련 세트에서 샘플을 반복적으로 추출하고 각 샘플에서 관심 있는 모델을 재추출하여 추정된 모델에 대한 추가 정보를 얻는다. 예를 들어, 선형 회귀식의 변동성을 추정하기 위해 훈련 데이터에서 여러 샘플을 반복적으로 추출하고 각각의 새로운 샘플에 선형 회귀식을 적용한 다음 결과값이 어느 정도 다른지 조사할 수 있다. 이러한 접근 방식을 사용하면 원래 학습 샘플을 사용하여 모델을 한 번만 프팅하면 얻을 수 없는 정보를 얻을 수 있다. 리샘플링 접근 방식은 훈련 데이터의 다른 하위 집합을 사용하여 동일한 통계적 방법을 여러 번 수행해야 하므로 계산 비용이 많이 들 수 있다. 그러나 최근 컴퓨.. 2024. 1. 30.
[Machine Learning] 그리드 탐색 (GridSearchCV) 그리드 탐색 (GridSearchCV) 머신 러닝에서 하이퍼파라미터란 간단하게 말해 사용자의 입력값 또는 설정 가능한 입력값이라고 이해할 수 있다. 사용할 데이터에 따라 가장 적합한 모델과 모델의 하이퍼파라미터값이 다르다. sklearn의 모듈 GridSearchCV는 머신 러닝 알고리즘에 사용되는 하이퍼 파라미터를 입력해 학습하고 검증하면서 가장 좋은 파라미터를 알려준다. 따라서, 학습하려는 하이퍼파라미터와 값 범위를 지정하기만 하면 GridSearchCV는 교차 검증을 사용하여 하이퍼파라미터 값의 가능한 모든 조합을 수행한다. 매개 변수 estimator 모델 객체 지정 param_grid 하이퍼파라미터 목록을 dictionary로 전달 scoring 평가 지표 cv 교차 검증시 fold 개수 n_j.. 2023. 7. 10.
[Data Science] 모델 평가 일반화 평가 모델이 학습 데이터가 아닌 새로운 데이터에 대해서도 좋은 성능을 내는지 일반화 에러를 통해 평가한다. 일반화 에러를 구하는 방법은 다양하지만 일반적으로 학습-평가 데이터 나누기, 교차검증을 통해 구할 수 있다. 학습-평가 데이터 나누기 (Train-Test data Split) 데이터를 학습용과 평가용으로 나눠 평가하는 방법이다. 일반적으로 8:2 비율이 가장 흔하게 사용된다. 무작위로 비율만큼의 데이터를 선택해 학습용 데이터를 만들고 나머지를 평가용 데이터로 사용해 모델이 학습용 데이터에만 최적화 되어있는지 검증한다. 교차 검증 학습-평가 데이터 나누기를 한 번만 하는 것이 아니라 여러 번 반복해서 일반화 에러를 평가하는 방법이다. K-Fold 교차 검증 (K-Fold Cross Valid.. 2022. 11. 29.
728x90
반응형
LIST