확률 및 확률 분포
- 표본공간 (Sample case)
- 어떤 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합
- 사건 (event)
- 관찰자가 관심이 있는 사건으로 표본공간의 부분 집합
- 확률변수
- 특정값이 나타날 가능성이 확률적으로 주어지는 변수
- 이산확률 변수(변수가 끊어짐)
- 주사위 두개를 던질때의 합 x = { 4, 3, 2, 5, 9, ... }
- 연속확률 변수(변수가 연속적임)
- 주사위 두개를 던지는 횟수 x = { 1, 2, 3, 4, 5, ... }
- 확률분포
- 확률변수가 특정한 값을 가질 확률을 나타내는 함수
- 주사위 두개를 던졌을 때 두눈의 합에 대한 확률 분포
|
이산형 확률분포
- 0이 아닌 확률값을 갖는 확률 변수를 셀수 있는 경우
- 동전 2개를 던져서 앞 / 뒷면이 나오는 경우의 수
- HH : 1 / 4, HT : 1 / 4, TH : 1 / 4, TT : 1 / 4
- 종류
- 베르누이분포
- 이항분포
- 기하분포
- 다항분포
- 포아송분포
|
베르누이분포
- 결과가 2개만 나오는 경우
- 동전던지기
- 시험 합격 / 불합격
- 추신수가 안타를 칠 확률은 베르누이 분포를 따른다.
- 안타를 치는 사건을 x=1이라고 할 때 안타를 칠 확률은 타율로 적용 가능
|
이항분포
- 베르누이 시행을 n번 반복했을 때 k번 성공할 확률
- 추신수가 오늘 경기에서 5번 타석에 들어와서 3번 안타를 칠 확률은 이항 분포를 따른다. (n=5, k=3)
|
기하분포
- 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률
- 추신수가 오늘 경기에서 5번 타석에 들어와서 3번째 타석에서 안타를 칠 확률은 기하분포를 따른다.
|
다항분포
- 이항 분포를 확장한 것으로 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포
- 주사위를 6회 던져서 1의 눈이 1회, 2 또는 3의 눈이 2회, 4 또는 5 또는 6의 눈이 3회 나올 확률
|
포아송분포
- 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률 분포
- 책에 오타가 5page당 10개씩 나온다고 할 때, 한 페이지에 오타가 3개 나올 확률
- 추신수가 최근 5경기에서 10개의 홈런을 때렸다고 할 때, 오늘 경기에서 홈런을 못 칠 확률은 포아송 분포를 따른다.
|
연속형 확률분포
- 가능한 값이 실수의 어느 특정구간 전체에 해당하는 확률 변수
- 종류
- 균일분포
- 정규분포
- 지수 분포
- t-분포
- 카이제곱분포
- F-분포
|
균일분포
모든 확률변수 X가 균일한 확률을 가지는 확률 분포
정규분포
평균이 u이고, 표준편차가 o인 x의 확률밀도 함수
지수분포
- 어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포
- 전자레인지의 수명시간.
- 콜센터에 전화가 걸려올 때까지의 시간, 은행에 고객이 내방하는데 걸리는 시간. 정류소에 버스가 올 때까지의 시간
|
t분포
- 표준정규분포와 같이 평균이 0을 중심으로 좌우가 동일한 분포를 따름
- 표준의 크기가 적을때는 표준 정규분포를 위에서 눌러 놓은 것과 같은 형태를 보이지만 표본이 커져서 자유도가 증가하면 표준 정규분포와 거의 같은 분포가 됨
- 데이터가 연속형일 경우 활용
- 두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용
- 0을 중심으로 좌우대칭
- 분포의 모양은 자유도 (df, degree of freedom)에 따라 달라지므로 자유도가 t분포의 모수
- 자유도가 커질수록 꼬리가 얇아지고 중심부분이 높아져, 자유도가 무한대가 되면 표준정규분포와 동일한 모양
|
x^2분포 (카이제곱 분포)
- 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포
- 두 집단 간의 동질성 검정에 활용
- 범주형 자료에 대해 얻어진 관측값과 기대값의 차이를 보는 적합성 검정에 활용
|
F분포
- 두 집단간 분산의 동일성 검정에 사용되는 검정 통계량의 분포
- 확률변수는 항상 양의 값만을 갖고 카이제곱 분포와 달리 자유도를 2개 가지고 있으며 자유도가 커질수록 정규분포에 가까워짐
|
https://wikidocs.net/48104