본문 바로가기
Data-driven Methodology/DS (Data Science)

[Data Science] 확률 및 확률 분포

by goatlab 2022. 3. 7.
728x90
반응형
SMALL

확률 및 확률 분포

 

  • 표본공간 (Sample case)
    • 어떤 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합
  • 사건 (event)
    • 관찰자가 관심이 있는 사건으로 표본공간의 부분 집합
  • 확률변수
    • 특정값이 나타날 가능성이 확률적으로 주어지는 변수
    • 이산확률 변수(변수가 끊어짐)
      • 주사위 두개를 던질때의 합 x = { 4, 3, 2, 5, 9, ... }
    • 연속확률 변수(변수가 연속적임)
      • 주사위 두개를 던지는 횟수 x = { 1, 2, 3, 4, 5, ... }
  • 확률분포
    • 확률변수가 특정한 값을 가질 확률을 나타내는 함수
    • 주사위 두개를 던졌을 때 두눈의 합에 대한 확률 분포

 

이산형 확률분포

 

  • 0이 아닌 확률값을 갖는 확률 변수를 셀수 있는 경우
    • 동전 2개를 던져서 앞 / 뒷면이 나오는 경우의 수
    • HH : 1 / 4, HT : 1 / 4, TH : 1 / 4, TT : 1 / 4
  • 종류
    • 베르누이분포
    • 이항분포
    • 기하분포
    • 다항분포
    • 포아송분포

 

베르누이분포

 

  • 결과가 2개만 나오는 경우
  • 동전던지기
  • 시험 합격 / 불합격
  • 추신수가 안타를 칠 확률은 베르누이 분포를 따른다.
    • 안타를 치는 사건을 x=1이라고 할 때 안타를 칠 확률은 타율로 적용 가능

 

이항분포

 

  • 베르누이 시행을 n번 반복했을 때 k번 성공할 확률
  • 추신수가 오늘 경기에서 5번 타석에 들어와서 3번 안타를 칠 확률은 이항 분포를 따른다. (n=5, k=3)

 

기하분포

 

  • 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률
  • 추신수가 오늘 경기에서 5번 타석에 들어와서 3번째 타석에서 안타를 칠 확률은 기하분포를 따른다.

 

다항분포

 

  • 이항 분포를 확장한 것으로 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포
  • 주사위를 6회 던져서 1의 눈이 1회, 2 또는 3의 눈이 2회, 4 또는 5 또는 6의 눈이 3회 나올 확률

 

포아송분포

 

  • 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률 분포
  • 책에 오타가 5page당 10개씩 나온다고 할 때, 한 페이지에 오타가 3개 나올 확률
  • 추신수가 최근 5경기에서 10개의 홈런을 때렸다고 할 때, 오늘 경기에서 홈런을 못 칠 확률은 포아송 분포를 따른다.

 

연속형 확률분포

 

  • 가능한 값이 실수의 어느 특정구간 전체에 해당하는 확률 변수
  • 종류
    • 균일분포
    • 정규분포
    • 지수 분포
    • t-분포
    • 카이제곱분포
    • F-분포

 

균일분포

 

모든 확률변수 X가 균일한 확률을 가지는 확률 분포

 

 

정규분포

 

평균이 u이고, 표준편차가 o인 x의 확률밀도 함수

 

 

지수분포

 

  • 어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포
  • 전자레인지의 수명시간.
  • 콜센터에 전화가 걸려올 때까지의 시간, 은행에 고객이 내방하는데 걸리는 시간. 정류소에 버스가 올 때까지의 시간

 

t분포

 

  • 표준정규분포와 같이 평균이 0을 중심으로 좌우가 동일한 분포를 따름
  • 표준의 크기가 적을때는 표준 정규분포를 위에서 눌러 놓은 것과 같은 형태를 보이지만 표본이 커져서 자유도가 증가하면 표준 정규분포와 거의 같은 분포가 됨
  • 데이터가 연속형일 경우 활용
  • 두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용
  • 0을 중심으로 좌우대칭
  • 분포의 모양은 자유도 (df, degree of freedom)에 따라 달라지므로 자유도가 t분포의 모수
  • 자유도가 커질수록 꼬리가 얇아지고 중심부분이 높아져, 자유도가 무한대가 되면 표준정규분포와 동일한 모양

 

x^2분포 (카이제곱 분포)

 

  • 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포
  • 두 집단 간의 동질성 검정에 활용
    • 범주형 자료에 대해 얻어진 관측값과 기대값의 차이를 보는 적합성 검정에 활용

 

F분포

 

  • 두 집단간 분산의 동일성 검정에 사용되는 검정 통계량의 분포
  • 확률변수는 항상 양의 값만을 갖고 카이제곱 분포와 달리 자유도를 2개 가지고 있으며 자유도가 커질수록 정규분포에 가까워짐

 

https://wikidocs.net/48104

 

3.3.3.확률 및 확률 분포

+ 표본공간(Sample case) + 어떤 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합 + 사건(event) + 관찰자가 관심이 있는 사건으로 표본공간의 부분 ...

wikidocs.net

 

728x90
반응형
LIST