본문 바로가기
Data-driven Methodology/DS (Data Science)

[Data Science] 추정과 검정

by goatlab 2022. 3. 7.
728x90
반응형
SMALL

 

추정

 

  • 추정
    • 표본으로부터 미지의 모수를 추측하는 것
    • 표본의 통계량으로 부터 모수의 특성을 추측하는 것
  • 확률표본
    • 확률분포는 분포를 결정하는 평균, 분산 등의 모수를 가지고 있음
    • 특정한 확률분포로부터 독립적으로 반복해 표본을 추출
      • 동일한 모수에서 표본추출 방법을 통해 표본을 추출
    • 각 관찰값들은 서로 독립적이며 동일한 분포를 가짐

 

점추정

 

  • '모수가 특정한 값일 것'이라고 추정하는 것
    • 20대 남자의 평균키는 170cm 이다.
  • 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정
  • 평균, 표준편차, 중앙값 등을 추정
  • 조건
    • 불편성
    • 효율성
    • 일치성
    • 충족성

 

구간추정

 

  • 점추정을 보완하기 위해 모수가 특정 구간에 있을 것이라고 추정하는 것
    • 20대 남자의 평균키는 167cm~173cm 사이이며 신뢰수준은 95%이다.
  • 항상 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간 안에 모수가 있을 가능성의 크기(신뢰 수준)가 주어져야 함
  • 모분산을 알거나 대표본의 경우
    • 표준정규분포 활용
  • 모분산을 모르거나 소표본일 경우
    • t분포 활용

 

가설검정

 

  • 모집단에 대한 가설을 설정한 뒤, 그 가설의 채택여부를 결정하는 방법
  • 귀무가설 (null hypothesis, H0) vs 대립가설 (alternative hypothesis, H1)
    • 귀무가설
      • '비교하는 값과 차이가 없다, 동일하다'를 기본개념으로 하는 가설
      • 현재 믿어지고 있지만 틀렸다는 것을 증명하고 싶은 내용
      • 귀무 = 없음으로 돌아감. 그래서 0
      • 귀무가설은 기각이 목표
    • 대립가설
      • 뚜렷한 증거가 있을 때 주장하는 가설
      • 귀무가설이 기각될 때 받아들여지는 가설
      • 새로운 주장 또는 실제로 입증하고픈 가설
    • 검정통계량
      • 관찰된 표본으로부터 구하는 통계량, 검정 시 가설의 진위를 판단하는 기준
    • 유의수준
      • 귀무가설을 기각하게 되는 확률의 크기
      • 귀무가설이 옳은데도 이를 기각하는 확률의 크기
    • 임계값
      • 주어진 유의수준에서 귀무가설의 채택과 기각에 관련된 의사를 결정 할 때 그 기준이 되는 값
    • 기각역
      • 귀무가설이 옳다는 전제 하에서 구한 검정통계량의 분포에서 확률이 유의수준인 a인 부분
      • 귀무가설을 기각시키는 검정통계량들의 범위
    • 채택역
      • 기각역의 반대

 

오류

 

  • 1종 오류
    • 귀무가설이 옳은데도, 귀무가설을 기각하게 되는 오류
  • 2종 오류
    • 귀무가설이 옳지 않은데도, 귀무가설을 채택하게 되는 오류
  • 1종 오류의 크기를 0.1, 0.05, 0.01로 고정시키고 2종 오류가 최소가 되도록 기각역을 설정

가설 검정의 예

  • 가설: A반 남학생의 평균키 (180cm)가 대한민국 남성의 평균 키 (172cm) 보다 크다.
    • H0 = 평균은 172cm
    • H1 = 172cm보다 크다
  • 귀무가설 (평균은 172), 대립가설 (172보다 크다)을 세운뒤, 모집단은 표준편차가 5인 정규분포를 따른다고 가정
  • A반 남자의 평균키가 180일때, 유의수준 0.05에서의 임계값은 180.2로 계산된다.
  • A반 남자의 평균 180은 유의수준 0.05에서 임계값 180.2보다 작은 값이므로 귀무가설 H0이 맞고 대립가설은 기각된다.

 

모수 검정과 비모수 검정

 

통계적 검정에서 모집단의 모수에 대한 검정은 모수적 검정과 비모수적 검정으로 구분

 

모수 검정

 

  • 검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정하에서 검정 통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법
  • 모집단은 정규분포를 따른다고 가정
  • 관측된 자료를 이용해 구한 표분평균, 표본분산 등을 이용해 검정을 실시
  • 사용 예
    • 모평균과 표본평균의 차이
      • z분포, t분포
    • 모분산과 표본분산과의 차이
      • F분포, 카이제곱분포
  • 모집단의 평균에 대한 검정
    • 표본집단의 크기가 n>30이면 정규분포로 가정하여 z분포를 이용
    • 표본이 30이하면 t분포 이용, 이때 자유도를 고려함

t-검정

  • 하나 또는 두 개의 집단의 평균을 비교하는 모수적 검정
  • 평균을 비교
  • 측정값들이 정규분포를 하여, 평균이 그 집단의 대표값으로서의 역할을 하고 있다는 것을 의미
  • 이상점이 있는 비정규분포 자료는 t-검정의 대상이 아님

 

비모수 검정

 

  • 모집단의 분포에 대한 제약을 가하지 않고 검정을 실시
  • 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우에 이용
    • 정규분포를 따르지 않는 경우
  • 관측된 자료수가 많지 않거나 자료가 개체간의 서열관계를 나타내는 경우 이용
  • 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위나 두 관측값의 차이의 부호 등을 이용해 검정
  • 모집단이 정규분포한다는 가정을 할 수 없는 경우
    • 모집단의 분포 유형에 관계없이 적용
  • 변수가 명목척도나 서열척도로 측정하는 경우
    • 분류기준과 분류방법의 독립성 검정
  • 모집단의 특성을 나타내는 모수에 대한 검정의 목적이 아닐경우
    • 이론분포와 경험분포간의 적합도를 검정
  • 비모수 검정의 예
    • 부호검정
    • 윌콕슨의 순위합검정
    • 윌콕슨의 부호순위합검정
    • 만-위트니의 U검정
    • 런검정
    • 스피어만의 순위 상관계수

 

모수 검정 vs 비모수 검정

 

 

https://wikidocs.net/48105

 

3.3.4.추정과 검정

![ssss](https://wikidocs.net/images/page/48105/%E1%84%80%E1%85%B3%E1%84%85%E1%85%B5%E1%86%B74.jp ...

wikidocs.net

 

728x90
반응형
LIST