출처: https://3months.tistory.com/307 [Deep Play]

열네번째 이야기 - 이항분포

2019. 8. 6. 05:00통계학이론/통계학개론

안녕하세요 리그레션입니다! 날씨가 많이 덥네요 ㅠㅠ 더불어 내일부터 태풍이 상륙한다 합니다. 몸 관리 잘하시길 바랍니다. 오늘은 통계학하면 이론적으로 많이 쓰이고 대표적으로 떠오르는 이항 분포에 대해 알아보려 합니다.

우리는 각 시행에서 성공할 확률이 p인 베르누이 시행을 n번 할 때 성공한 횟수를 확률변수 X로 나타내면 X의 확률분포를 이항 분포(Binomial distribution)라고 부릅니다.

즉 이항 분포는 n과 p에 의해서 정의가 됩니다.

 

n은 베르누이 시행(이분법적이고, 각 시행들이 독립적)의 횟수,

p는 각 시행에서 성공할 확률

X=n번 시행에서 성공한 횟수라고 할 수 있겠습니다.

 

여기서  X를 이항 확률변수라고도 하며 X의 분포가 이항 분포이죠.

 

이 논리를 n번의 베르누이 시행으로 봤을 때, n번 시행 중 성공이 x번있다고 한다면, 경우의 수는 

이 됩니다. 그리고 실패는 n-x번 있으므로 각 시행의 확률은 

이 되고(q는 1-p값입니다. 즉 실패할 확률), 최종적으로 n번의 시행에서 성공할 확률이 p인 이항 분포는 다음과 같습니다.

예를 들어 드릴게요, 멘델은 멘델의 유전법칙으로 유명한 성직자 출신의 과학자로 유명하죠. 그는 빨간 꽃나무와 흰 꽃나무의 수정을 통해 어린 품종을 얻으면 이들 중 25%만 빨간색으로 자라는 것을 밝혀냈습니다. 5가지 짝을 교배하여 어린 품종을 얻는 다면 다음의 확률은 얼마일까요?

 

1) 빨간 꽃나무가 하나도 없을 확률

2) 4그루 이상의 빨간 꽃나무가 있을 확률

 

확률 변수 X를 5그루의 어린 품종들 중 빨간 꽃나무(R)의 그루 수라고 하겠습니다. 멘델의 법칙에 따르면 p 즉 P(R)은 0.25입니다. n은 5이고요. 위의 소개한 식을 이용하면, 간단하게 이 확률을 구할 수 있습니다.

 

반대로 생각해보면, 더 쉽게 2번의 질문을 구할 방법이 있습니다. 4그루 이상의 어린 품종이 빨갛게 자라야 하므로 전체에서 1그루 이하가 빨갛게 안 자라는 확률을 빼면 구하려는 답이 나옵니다.

 

P [X>=4] = 1-P [X=<1] 이렇게 구하는 방법도 있습니다.

 

그렇담, 이항 분포의 평균, 분산, 표준편차는 어떻게 구할까요?

n번 시행과 성공할 확률이 p인 이항분포의 경우

 

평균은 np

분산은 npq

표준편차는 root(npq)로 구할 수 있습니다. 이에 대한 증명은 기초통계학 카테고리에서 다뤄드리겠습니다.

 

자 오늘은 여기까지! 이항 분포는 매우 중요한 개념이므로 잘 숙지해두시길 바랍니다. 감사합니다.

리그레션이었습니다.