통계적 특징 (Statistical features)
통계 기능은 다양한 지능형 신호 처리 응용 프로그램에서 사용되었다. 통계적 특징은 정보 기반 측정과 같은 다른 측정 외에 최대, 최소, 범위, 사분위수 범위, 중앙값, 최빈값 및 평균, 분산, 첨도 및 왜도와 같은 통계적 모멘트와 같은 통계적 특성 측면에서 데이터 모델링을 고려한다.
통계적 모멘트는 피처의 분포 속성에 대한 정보를 캡처할 수 있다. 무작위 변수 X의 샘플이 주어지면 기하학적 시리즈를 사용하여 차수 p의 원점에 대한 통계적 모멘트를 정의할 수 있다.
평균은 중심 경향의 척도이다. 중심 경향을 측정하기 위해 평균을 사용하면 이상치에 민감하기 때문에 때때로 오도될 수 있다. 모드 (가장 빈번한 데이터 값) 또는 중앙값 (데이터가 정렬될 때 중간 데이터 포인트)과 같은 대체 측정은 이상값에 대해 더 강력하다. 단일 모드 확률 변수에 대한 이상값을 테스트하는 한 가지 방법은 평균과 중위수 값을 비교하는 것이다. 평균과 중위수 간의 차이가 크면 데이터에 이상값이 있을 가능성이 높다.
평균 주변의 두 번째 순간을 분산이라고 한다 . σ2는 식에서 얻어진다. 각 데이터 포인트에서 데이터의 평균, 즉 x_n−μ를 빼고 p=2로 설정한다. 분산의 제곱근을 표준 편차라고 한다. σ는 평균 주변의 데이터 산포 (농도)를 나타낸다. 작은 표준 편차는 값이 데이터의 평균과 매우 유사하다는 것을 의미한다.
세 번째 및 네 번째 모멘트는 표준화된 측정값이다 (즉, 표준 편차로 정규화됨).
왜도는 모드에 대한 비대칭을 수량화하여 분포의 모양을 설명한다. 동일한 분산의 정규 분포에서 데이터 분포의 거리를 측정하는 데 사용된다. 왜도가 0이면 대칭 분포를 나타내고 양수 왜도는 양의 방향으로 긴 꼬리를 나타낸다. 왜도는 (μ−중앙값)/σ로 근사화될 수 있다. 그림은 평균이 중앙값보다 큰 오른쪽으로 치우친 분포를 보여준다. 네 번째 모멘트 (p=4)를 첨도 (kurtosis)라고 한다 .
첨도는 분포의 모양을 설명할 수도 있다. 분포의 평탄도를 나타낸다. 양의 첨도는 분포가 뾰족한 (첨두) 모양을 가짐을 나타내고 음의 첨도는 넓은 평평한 분포를 나타낸다.
다섯 번째 모멘트는 분포의 꼬리에 의해 완전히 결정되는 측도이다. 이는 꼬리 왜곡의 양적 표현이다 (즉, 일변량 분포의 꼬리 비대칭). 또한 비대칭을 유발하는 모드 대 꼬리의 상대적 중요성을 수량화한다. 일반인의 용어로 근사하고 설명하기 어렵기 때문에 데이터 분석에 더 높은 모멘트를 거의 사용하지 않는다.
'Biomedical & AI > Characterization' 카테고리의 다른 글
시간-주파수 분석 (0) | 2022.04.27 |
---|---|
이산 푸리에 변환 (0) | 2022.04.27 |
특성 엔지니어링 (0) | 2022.04.27 |