728x90
반응형
SMALL
데이터 불균형
편향된 클래스 비율이 포함된 분류 데이터 세트를 불균형이라고 한다. 데이터 세트의 상당 부분을 차지하는 클래스를 메이저 클래스라고 한다. 더 작은 비율을 구성하는 항목은 다수 클래스이다.
불균형도 | 소수 집단 비율 |
약간 | 전체 데이터셋의 20~40% |
보통 | 전체 데이터셋의 1~20% |
높음 | 전체 데이터셋의 1%미만 |
대부분의 머신러닝 모델은 클래스 간의 데이터 비율이 비슷한 것이 바람직하다. 데이터 불균형이 크면 메이저 클래스로 치우치게 predict하는 문제가 발생한다.
데이터 불균형을 해결하는 방법으로는 크게 다음과 같다.
|
리샘플링 (Resampling)
리샘플링 기법은 클래스별 불균형한 데이터의 수를 맞춰주기 위해 클래스간 sampling을 달리해 학습하는 방법이다. 효과적으로 문제를 해결하는데 어려움이 있으며 다른 문제점을 만들수도 있다.
Undersampling for majority class |
|
Oversampling for minority class |
|
Weighting in Loss Function
클래스 별로 loss function에 weight를 주는 방식과 sample별로 weight를 주는 방식이다. 마이너 클래스의 데이터 샘플에 더 학습할 수 있도록 loss 값에 weight를 부여하는 방법이다.
728x90
반응형
LIST
'Data-driven Methodology > DS (Data Science)' 카테고리의 다른 글
[Data Science] 주성분 분석 (Principal Component Analysis, PCA) (0) | 2023.10.30 |
---|---|
[Data Science] Random UnderSampling (0) | 2023.10.04 |
[Data Science] 탐색적 데이터 분석 (Exploratory Data Analysis) (0) | 2023.07.17 |
[Data Science] 모델 평가 (0) | 2022.11.29 |
[Data Science] 경사 하강법 (Gradient Descent) (0) | 2022.11.10 |