출처: https://3months.tistory.com/307 [Deep Play]

스물두번째이야기 - 대표본에서의 Mu의 신뢰구간

2019. 8. 26. 01:27통계학이론/통계학개론

안녕하세요 리그레션입니다. 스물한 번째 이야기, 앞에서 신뢰구간의 기본적인 개념들을 설명드렸는데요, 오늘은 대표 본에서의 Mu의 신뢰구간에 대해 다뤄보고자 합니다. 다시 말하면, 이제 좀 더 현실적인 상황을 설명해 볼게요. 보통 현실에선 99% 모 표준편차를 모르는 상태에서 신뢰구간을 구합니다. 모집단의 분포가 정규분포라는 가정을 없애기 위해서 표본 크기 n이 커야 하겠죠. 이 경우, 앞서 배웠던 중심 극한 정리에 의하면 모집단의 분포에 관계없이 Xbar의 분포는 정규분포에 가깝습니다. 따라서 구간

이 Mu를 포함할 확률이 약 1-a이지만 이 구간은 미지의 모수인 Sigma를 포함하고 있으므로 신뢰구간이 될 수 없습니다. 그러나, n이 클 때는 이야기가 다릅니다. 시그마/루트 n을 s/루트 n으로 바꾸어도 이 확률 값은 크게 영향을 받지 않습니다. 즉, 

이 여전히 성립합니다. 요약하자면, Mu의 대표본 신뢰구간은 다음과 같이 주어집니다.

 

추정 값 플러스 마이너스 (정규분포의 백분위수)(추정된 표준오차)

 

예를 들어드릴게요, 어떤 대도시의 식당 종업원들이 주당 평균 수입을 추정하기 위해 75명의 식당 종업원들을 표본 추출하여 주급을 조사해봅니다. 표본 평균과 표본 표준편차를 계산한 결과 표본 평균은 150000원, 후자는 10000원이었습니다. 주당 평균 소득의 90%, 80% 신뢰구간을 구해 볼까요?

 

표본의 크기가 n=75이므로 표본평균의 분포를 정규분포로 근사 시킬 수 있습니다.

 

1) 1-a=0.9이므로 a/2는 0.05이고 Za/2는 1.645입니다. 따라서 모평균의 신뢰구간은

 

(150000-1.645*10000/루트 75,150000+1.645*10000/루트 75)입니다.

 

2) 마찬가지로 1-a=0.8이므로 a/2는 0.10이고 Za/2는 1.28입니다. 따라서 모평균의 신뢰구간은

 

(150000-1.28*10000/루트 75,150000+1.28*10000/루트 75)입니다.

 

두 가지 결과를 비교해보면, 80% 신뢰구간이 90% 신뢰구간보다 짧음을 알 수 있습니다. 짧은 구간은 뮤의 위치를 더 정밀하게 추정할 수 있게끔 해주는 것 같지만, 장기적인 관점에서 모수의 참값을 포함하게 되는 상대 도수는 낮아지게 되므로 더 별로입니다.

 

극단적인 예로 우리가 현재 날씨 중 비가 올 확률을 계산하고 있죠? 스마트폰에서 비가 올 확률이 20~30%라고 하는 것은 괜찮습니다만, 만약 비가 올 확률이 0 아니면 100퍼센트입니다 라고 말하는 것은 말이 안 됩니다. 당연한 것이기 때문이죠. 이 경우 참값을 무조건 포함하겠습니다만은 의미가 있는 수치로 나오지 않는 경우가 되겠습니다.

 

감사합니다. 리그레션이었습니다.