본문 바로가기
Data-driven Methodology/DS (Data Science)

[Data Science] 모델 평가

by goatlab 2022. 11. 29.
728x90
반응형
SMALL

일반화 평가

 

모델이 학습 데이터가 아닌 새로운 데이터에 대해서도 좋은 성능을 내는지 일반화 에러를 통해 평가한다. 일반화 에러를 구하는 방법은 다양하지만 일반적으로 학습-평가 데이터 나누기, 교차검증을 통해 구할 수 있다.

 

학습-평가 데이터 나누기 (Train-Test data Split)

 

 

데이터를 학습용과 평가용으로 나눠 평가하는 방법이다. 일반적으로 8:2 비율이 가장 흔하게 사용된다. 무작위로 비율만큼의 데이터를 선택해 학습용 데이터를 만들고 나머지를 평가용 데이터로 사용해 모델이 학습용 데이터에만 최적화 되어있는지 검증한다.

 

교차 검증

 

학습-평가 데이터 나누기를 한 번만 하는 것이 아니라 여러 번 반복해서 일반화 에러를 평가하는 방법이다.

 

K-Fold 교차 검증 (K-Fold Cross Validation)

 

 

데이터를 k개로 나눈다. 첫 번째 데이터 세트를 제외하고 나머지에 대해 학습 후 제외된 데이터로 평가하며 마지막 세트까지 진행한다. 각 세트에 대해 구한 평가 결과의 평균을 구한다.

728x90
반응형
LIST