출처: https://3months.tistory.com/307 [Deep Play]

열두번째 이야기 - 분산과 표준편차

2019. 8. 4. 05:00통계학이론/통계학개론

안녕하세요 리그레션입니다! 오늘은 분산과 표준편차에 대해 얘기해보고자 합니다.

 

원래 저번 시간에 언급했던 기댓값은 평균과 함께 도박의 연구에서 유래되었습니다. 포커 같은 게임에서 기대되는 기대 이익을 구하는 방식에서 기댓값이라는 단어가 나왔죠. 그럼 기댓값의 개념에서 확률 분포의 퍼짐을 나타내는 자료가 필요하지 않을까요?

이를 나타내는 척도를 표준편차라고 합니다. 평균 뮤가 X에 대한 분포의 중심이기 때문에 편차(X-뮤)의 형태로 X의 변동을 표현합니다.

그리고 제곱 편차의 기댓값으로 X의 분산을 정의합니다.

(X-뮤)의 제곱의 기댓값은 X관측치인 Xi에서 평균을 뺀 값의 제곱에 확률을 곱하여 더하면 얻을 수 있습니다.

 

 

X의 분산은 간단히 Var(X)로 쓰고 X의 표준편차는 분산의 양의 제곱근이고 sd(X) 또는 시그마로 표기합니다.

그렇다면 분산을 시그마의 제곱으로 표현할 수가 있겠죠?

 

X의 분산은 모분산이라고도 하고, 시그마는 모 표준편차라고 합니다. 표본을 위한 표기는 따로 있습니다. 앞서 들어 드린 2가지는 모집단용입니다.

 

때론 수치 계산을 간단하게 하기 위해서 다음 계산식을 쓰기도 합니다.

분산이 작으면, 평균 근처에 자료값이 모여있다는 뜻이고 분산이 크면 평균 중심으로 넓게 분포할 가능성이 큽니다.

감사합니다. 이상 리그레션이었습니다.