출처: https://3months.tistory.com/307 [Deep Play]

일곱번째 이야기 - 분산과 편차

2019. 7. 30. 01:00통계학이론/통계학개론

안녕하세요 리그레션입니다! 오늘은 분산과 편차 사분위수 이야기입니다.

 

먼저 분산과 편차에 대해 말씀드리자면, 이 두 가지는 저번 시간에 배웠던 평균과 더불어 통계학에서 매우 중요한 개념으로 꼽힙니다.

 

우리가 자료의 퍼짐정도(산포도)를 나타내는 척도가 필요할 때가 있습니다. 그리고 이 척도는 특정 자료 값과 중심 척도 간의 차이에 의하여 나타내는 것이 효율적입니다.

우리는 이렇게 표본의 평균을 중심으로 차이를 나타낸 것을 편차(deviation)이라고 합니다.

 

편차 = 자료값 - 표본 평균

 

그럼 모든 특정값들(모집단)에서 한 번씩 표본 평균을 뺀 편차들의 총합은 얼마가 될까요? 바로 0입니다.

 

표본에선 이야기가 다릅니다. 서로 상쇄되는 값이 안 들어갔을 수도 있어서 표본의 편차합은 0이 안 나올 수도 있거든요.

 

표본 분산(sample variance)은 편차들이 서로 상쇄되는 것을 방지하기 위하여 가장 많이 사용되는 척도입니다.

표본 분산은 각 편차를 제곱하여 합한 것을 (자료의 개수-1)로 나는 것을 의미하며, 표본 표준편차는 표본 분산의 제곱근을 의미합니다. 제곱을 하면 음수였던 편차를 양수로 돌려버릴 수 있기 때문에 퍼짐의 척도를 알기가 편합니다.

일반적으로 표본 분산은 대소문자 s의 제곱으로 쓰고, 모집단 전체 자료의 분산인 모 분산(population variance)은 시그마 제곱으로 표기를 합니다.

S = 표본 표준편차

 

여기서 의문이 생기실겁니다. 표본 분산과 표본 표준편차에선 자료의 개수 n개로 나누지 않고 n-1(자료의 개수 -1)을 나누는데 왜 그런가요?

 

n이 엄청 크다면 n과 n-1로 나누는 차이가 매우 작을 것입니다. 이 경우, 두 수를 나눈 결괏값이 차이가 크지 않아서 오차가 매우 작지요. 하지만 n이 작다면 모 분산, 모표준편차를 작게 추정하는 경향이 있기 때문에 분석에 어려움이 따릅니다. 좋은 추정치인 불편추정치(unbiased estimate)-편향되지 않은 추정치를 만들기 위해서 n-1을 씁니다.

 

결론적으로 모분산 시그마 제곱을 추정하기에 더 합리적이기 때문입니다.

통계학에서의 목적은 표본을 바탕으로 모집단을 올바르게 추정하는 것입니다. 아무리 표본에 대한 정보를 정확히 알아냈다 하더라도 모집단을 추론하는데 방해가 되는 표본 정보는 필요가 없지요.

 

그래도 n과 n-1로 나누는 게 어려우시다면 제가 나중에 통계학 개론 이론이 아닌 기초통계학 이론에서 증명과 함께 알려드리겠습니다. 지금은 고등학교에선 무조건 n으로 나눴다고 배웠지만, 좀 더 정확하게는 표본을 다룬 통계에서는 n-1을 써야 한다는 것만 기억하시면 됩니다. 개론을 다루는 수준에서는 아직 이 차이를 더 깊게 안 파고드셔도 됩니다.

 

꿀팁을 알려드리자면, 표본 분산을 계산하기 위해서는 1. 전체 자료를 읽어 평균을 구하고 2. 다시 읽어서 편차를 구하고 편차의 제곱합을 구한다. 는 자료를 읽어야 하는 과정을 2번 거쳐야 하므로 계산량이 많아집니다. 그래서 다음의 식을 이용하면 계산량이 확 줄어들 겁니다.

 

예를 들어 다음 자료에 대한 표본 분산과 표본 표준편차를 구하라는 문제에서

 

X : 1 3 4 6 6 7 8 8 9 10 15

 

합계 : 77

 

X제곱 : 1 9 16 36 36 49 64 64 81 100 225

 

합계 : 681을 먼저 구하고

 

표본 분산 s제곱은 (1/10)*[681-77의 제곱/11] = 14.2가 한 번에 나옵니다.

표본 표준편차는 s이므로 루트 14.2 즉 3.76829가 나오겠네요.

 

어떠세요? 분산과 편차에 대한 이야기가 좀 어려우셨으리라 생각됩니다. 그만큼 중요한 기초지식이므로 다들 파이팅하셨으면 좋겠습니다. 감사합니다 즐거운 하루 보내세요 리그레션이었습니다.