728x90 반응형 SMALL 데이터 불균형1 [Data Science] 데이터 불균형 데이터 불균형 편향된 클래스 비율이 포함된 분류 데이터 세트를 불균형이라고 한다. 데이터 세트의 상당 부분을 차지하는 클래스를 메이저 클래스라고 한다. 더 작은 비율을 구성하는 항목은 다수 클래스이다. 불균형도 소수 집단 비율 약간 전체 데이터셋의 20~40% 보통 전체 데이터셋의 1~20% 높음 전체 데이터셋의 1%미만 대부분의 머신러닝 모델은 클래스 간의 데이터 비율이 비슷한 것이 바람직하다. 데이터 불균형이 크면 메이저 클래스로 치우치게 predict하는 문제가 발생한다. 데이터 불균형을 해결하는 방법으로는 크게 다음과 같다. 리샘플링 (Resampling) Weighting in Loss Function 리샘플링 (Resampling) 리샘플링 기법은 클래스별 불균형한 데이터의 수를 맞춰주기 위해.. 2023. 9. 6. 이전 1 다음 728x90 반응형 LIST