출처: https://3months.tistory.com/307 [Deep Play]

스물일곱번째 이야기 - 소표본에서의 추론, t분포 유래, 소개

2019. 9. 2. 01:00통계학이론/통계학개론

안녕하세요 리그레션입니다. 앞서 다루었던 포스트들은 대표본에서의 모평균과 모비율에 대한 추론을 다루었습니다. 이 추론 방법들은 분포가 근사적으로 정규분포임을 말해주는 중심 극한 정리에 의해 가능했습니다. 중심 극한 정리가 모집단의 아주 다양한 분포에 대해 잘 적용되기 때문에 모집단의 분포 모양에 관한 구체적인 정보 없이도 추론을 할 수 있었습니다.

 그러나, 많은 통계적 조사, 특히 비용이나 시간이 많이 소요되는 실험의 경우에는 소표본(일반적으로 30 이하)으로부터 통계적 추론을 해야 합니다.

 

모평균의 추론을 위하여 여전히 표본평균을 사용하긴 할 것입니다. n이 크지 않을 때 중심 극한 정리를 사용 못할 때 표본 분포가 무엇인가?라는 문제를 해결해야 하는데 대표본의 경우와 달리, 이 질문에 대한 절대적인 해답을 얻지 못합니다. n이 작을 때는 표본 분포는 모집단의 분포의 형태에 많이 의존합니다. 때문에 소 표본의 경우 모집단의 분포에 대해 더 많은 정보를 필요로 합니다.

 

모집단의 분포가 정규분포라고 가정할 수 있을 경우, 신뢰구간과 가설검정의 방법에 대해 설명드리겠습니다. 바로 t-분포(Students's t-distribution)이라고 알려진 확률변수의 표본분포입니다.

 

T분포는 student의 t-분포라고도 불리는데요, 이 분포는 영국인 고셋에 의하여 연구되었습니다. 고셋은 1908년에 Student라는 필명으로 자기의 연구 결과를 발표하였습니다. 실명을 적지 않은 이유는 고셋이 일하던 양조회사에서는 자기 회사의 발효과정을 분석하고 개선시키는 데 통계적 기법을 사용하고 있다는 사실을 경쟁회사에 알리고 싶지 않아서라는 주장도 있습니다.

 

정규분포를 따르는 모집단에서 추출된 크기 n인 확률 표본의 표본 평균의 분포는 정확히 N(뮤, 시그마 제곱/n)을 따릅니다. 즉 Z=(Xbar-Mu) / (시그마/루트 n)는 표준 정규분포를 따르죠. 일반적으로 시그마를 모르기에 추정량인 s를 사용하는데 대표 본인 경우와 마찬가지로 비의 분포에 대하여 생각할 수도 있습니다.

 

대표 본에서 시그마 대신 s를 사용해도 분포가 거의 변하지 않지만 소표본에서는 상당한 차이가 날 수밖에 없습니다. 새로운 기호 T는 표준정규확률변수 Z와 구분하기 위하여 사용됩니다. 사실 T는 표준화된 확률변수가 아닙니다. 시그마를 추정량인 S로 대체하면 변동이 커지고 T의 표준편차는 1보다 크게 됩니다.

 

t분포는 표기는 Z와 비슷합니다.

 

T=(Xbar-Mu) / (S/루트n)

의 분포를 자유도 n-1인 t분포라 부릅니다(t-distribution with n-1 degrees of freedom).

이때 기호는 T~t(n-1)로 표기합니다.

 

자유도는 반드시 명시되어야합니다. n이 달라지면 t분포가 달라지기 때문입니다.