본문 바로가기
728x90
반응형
SMALL

리샘플링2

[Data Science] 데이터 불균형 데이터 불균형 편향된 클래스 비율이 포함된 분류 데이터 세트를 불균형이라고 한다. 데이터 세트의 상당 부분을 차지하는 클래스를 메이저 클래스라고 한다. 더 작은 비율을 구성하는 항목은 다수 클래스이다. 불균형도 소수 집단 비율 약간 전체 데이터셋의 20~40% 보통 전체 데이터셋의 1~20% 높음 전체 데이터셋의 1%미만 대부분의 머신러닝 모델은 클래스 간의 데이터 비율이 비슷한 것이 바람직하다. 데이터 불균형이 크면 메이저 클래스로 치우치게 predict하는 문제가 발생한다. 데이터 불균형을 해결하는 방법으로는 크게 다음과 같다. 리샘플링 (Resampling) Weighting in Loss Function 리샘플링 (Resampling) 리샘플링 기법은 클래스별 불균형한 데이터의 수를 맞춰주기 위해.. 2023. 9. 6.
특성 엔지니어링 특성 엔지니어링 (Feature engineering) 생체의학 신호의 특성화는 잡음, 신호의 확률적 특성, 개인 내 및 개인 간의 큰 변동성으로 인해 어렵다. 따라서, 통계적 특징 생성, 변환 기반 특징 생성 및 추출, 시간-주파수 분석이 필요하다. 기능 선택은 중복되고 정보가 없는 기능을 제거하는 것을 목표로 하므로 광범위한 테스트 모집단에서 일반화하는 모델을 구축할 수 있다. 파이프라인은 "실제 세계"에서 데이터를 캡처하고 이러한 데이터를 원시 데이터 개체로 표시하는 센서로 구성된다. 아티팩트 및 원치 않는 노이즈 제거, 대체 양식을 얻기 위한 데이터 변환, 평균 강도 / 진폭 수준 조정, 다운샘플링 (decimation) 또는 업샘플링 (보간, interpolation)과 같은 다음 단계를 위해 .. 2022. 4. 27.
728x90
반응형
LIST