출처: https://3months.tistory.com/307 [Deep Play]

열여덟번째 이야기 - 중심극한정리

2019. 8. 14. 01:03통계학이론/통계학개론

안녕하세요! 리그레션입니다. 오늘은 중심 극한 정리에 관한 내용을 다뤄보려 합니다.

 

모집단이 정규분포를 따르지 않으면 어떻게 할까요?

 

이런 경우엔, 표본 평균의 분포는 모집단의 분포가 무엇이냐에 따라 달라집니다.

 

중심 극한 정리(central limit theorem)라고 불리는 정리는 표본의 크기가 크면 모집단의 분포에 상관없이 표본 분포의 분포는 근사적으로 정규분포를 따른다는 정리입니다.

 

가르치는 사람들, 책마다 다르기는 하지만 표본의 크기가 특정 숫자로 되어있습니다. 저의 경우엔 그 숫자를 30으로 정의하는데요, 표본 n의 크기가 30 이상이면 이 정규 근사는 대부분의 경우에 잘 들어맞습니다. 40으로 하는 사람도 있습니다.

 

다시 정의해 볼까요?

 

중심 극한 정리는 매우 중요한 정리입니다.

 

모집단의 분포가 무엇이든 관계없이 n이 크면 표본 평균의 분포는 근사적으로 정규분포가 됩니다.

즉 평균이 뮤이고 표준편차가 시그마인 임의의 모든 모집단으로부터의 표본 평균은 n이 크면 근사적으로 평균이 뮤이고 표준편차는 시그마/루트 n인 정규분포를 따른다는 겁니다.

 

모집단의 분포가 연속형이든 이산형이든, 또는 대칭이든 비대칭이든 상관없이 모 분산이 유한하기만 하면 중심 극한 정리를 사용할 수 있습니다. 

 

이런 의미에서 정규분포는 통계학에서 방법의 개발에서 중심 역할을 수행한다고 할 수 있습니다.

증명을 위해서는 고급수학이 필요하지만, 정리가 어떻게 잘 들어맞는지는 경험적으로 대부분 알 수 있습니다.

 

예를 들어 드릴게요.

 

모집단이 정수 0,1,2 등등 9까지 있다고 하고 각각 0.1씩 확률을 갖는 이산형 균일 분포를 따른다고 할 때, 모평균은 4.5이고 모 표준편차는 2.872입니다.

 

여기서 표본을 크기가 5인 숫자로 잡고 100번을 관찰했다고 가정합니다.

1,5,5,1,9 이런 식으로 요. 이 경우 표본 평균은 4.2가 되겠네요.

 

컴퓨터를 이용해서 크기 5인 100개의 확률 표본을 추출하고 히스토그램을 그려보면, 평균인 4.5를 기준으로 거의 대칭을 이루는 분포 곡선이 나오게 됩니다. 실제로 값을 정확하게 구해보면 100개의 표본에 대한 표본 평균과 표준편차는 각각 4.6848과 1.149가 나오는데요, 이는 모평균은 4.5와 표준편차/루트 n인 1.284와 상당히 비슷한 값임을 알 수 있습니다.

 

어떠세요? 정확하게 모집단에 대한 정보를 알 수 없을 때, 중심 극한 정리를 통해 근사치를 구해보니 정말 편리할 것이란 느낌이 들죠? 실제로 논문에서 통계를 활용할 시에 많이 활용이 되는 정리이자 방법으로 효자노릇을 톡톡히 하고 있는 중심 극한 정리입니다.

 

이상입니다.

 

감사합니다. 리그레션이었습니다.