728x90
반응형
SMALL
일반화 평가
모델이 학습 데이터가 아닌 새로운 데이터에 대해서도 좋은 성능을 내는지 일반화 에러를 통해 평가한다. 일반화 에러를 구하는 방법은 다양하지만 일반적으로 학습-평가 데이터 나누기, 교차검증을 통해 구할 수 있다.
학습-평가 데이터 나누기 (Train-Test data Split)
데이터를 학습용과 평가용으로 나눠 평가하는 방법이다. 일반적으로 8:2 비율이 가장 흔하게 사용된다. 무작위로 비율만큼의 데이터를 선택해 학습용 데이터를 만들고 나머지를 평가용 데이터로 사용해 모델이 학습용 데이터에만 최적화 되어있는지 검증한다.
교차 검증
학습-평가 데이터 나누기를 한 번만 하는 것이 아니라 여러 번 반복해서 일반화 에러를 평가하는 방법이다.
K-Fold 교차 검증 (K-Fold Cross Validation)
데이터를 k개로 나눈다. 첫 번째 데이터 세트를 제외하고 나머지에 대해 학습 후 제외된 데이터로 평가하며 마지막 세트까지 진행한다. 각 세트에 대해 구한 평가 결과의 평균을 구한다.
728x90
반응형
LIST
'Data-driven Methodology > DS (Data Science)' 카테고리의 다른 글
[Data Science] 데이터 불균형 (0) | 2023.09.06 |
---|---|
[Data Science] 탐색적 데이터 분석 (Exploratory Data Analysis) (0) | 2023.07.17 |
[Data Science] 경사 하강법 (Gradient Descent) (0) | 2022.11.10 |
[Data Science] 손실 함수 (Loss Function) (0) | 2022.11.08 |
[Data Science] 데이터 전처리 (0) | 2022.11.01 |