출처: https://3months.tistory.com/307 [Deep Play]

여섯번째 이야기 - 평균과 중앙값

2019. 7. 29. 20:00통계학이론/통계학개론

안녕하세요 리그레션입니다. 날씨가 많이 습하고 덥네요.. 습도가 90%인데 비는 안 오는 딱 한증막 같은

날씨입니다 ㅠㅠ.

 

오늘은 평균과 중앙값을 가져왔어요. 특히 평균은 통계학 전반에 걸쳐 매우 중요한것 말 안 해도 아실 거라 생각합니다.

 

평균을 정확히 정의를 내릴수 있나요?

 

제 주위에 있는 사람들에게 평균을 정의를 내려보라 라고 말한다면, 식은 쓸 수 있는데 말로 표현하기가 어렵다고 하더라고요. 평균이 왜 필요한지 어디서 출발을 했는지를 잘 모른단 말입니다.

 

평균은 먼저 자료 집합이 갖고 있는 범위, 퍼짐의 정도, 구조의 치우침 등을 수치적으로 표현하기 위해 나타났습니다. 즉 이 자료는 어떤 값을 중심으로 어느 만큼 퍼져있으며 어느 쪽으로 얼마만큼 치우쳐 있다 라는 것을 표현하기 위해 출발하죠. 이때 자료 구조의 중심을 나타내는 대표적인 표현이 바로 평균(mean)과 중앙값(median)입니다.

 

평균을 내는 방법에는 산술평균과 조화평균이 있는데요, 통계학에서는 산술평균을 많이 이용합니다.

산술평균 공식은 다음과 같습니다.

이 산술평균은 x bar라고 읽는데요, 보통 통계학에서 x bar라고 하면 표본 평균을 의미합니다.

표본 평균은 표본자료에 대하여 구한 평균입니다. sample mean이라고도 하죠.

그러면 모집단 전체 자료에 대한 평균은 어떨까요? 모평균이라고 하여 population mean이라고 하고 

라고 읽습니다. x bar는 뮤(mu)를  추정하기 위한 좋은 성질을 많이 갖습니다.

 

중앙값

 

표본평균(sample mean)은 반드시 계산을 해서 산출하므로 자료가 많을 경우에는 시간이 많이 걸린다는 단점이 있습니다. 이러한 단점을 보완하는 척도로 중앙값이 있습니다.

 

중앙값은 자료들을 크기순으로 정렬을 시켰을 때 순서 가운데 있는 값을 의미합니다. 

자료의 개수가 홀수이면 가장 가운데 값이고 자료의 개수가 짝수이면 가운데에 있는 값 두 개가 동시에 중앙값으로 사용됩니다.

 

중앙값은 물론 표본평균에 비해 해당 표본을 대표한다고 보기 어려우나 일손이 바쁜 생산 현장에서 품질관리를 위해 번개 조사를 하는 경우에 유용하게 사용됩니다. 예를 들어 드릴게요

 

크기순으로 정리된 표본에서 표본 평균과 중앙값을 구하고 성질을 비교해 보겠습니다.

 

1 3 4 6 6 7 8 8 9 10 15

 

표본 평균은(1+3+4+6+6+7+8+8+9+10+15)/11 = 7

중앙값은 7

즉 이 경우에는 표본평균을 구하기보다 중앙값을 구하는 게 더 빠르므로 효율적이죠.

 

하지만 만약 표본이

1 3 4 6 6 7 8 8 9 10 150 이면 어떨까요?

 

표본 평균은 19.2727이 되고 중앙값은 변함없이 7입니다. 

150처럼 표본 중 극단적인 값을 우리는 이상치라고 하는데요, 산술평균은 이 이상치에 영향을 많이 받는 반면, 중앙값은 이 이상치에 별 영향을 받지 않습니다.

 

중앙값과 표본 평균을 같이 생각해보면, 자료의 구조를 알아보기 매우 편리합니다.

 

오른쪽으로 긴꼬리 형태 대칭에 가까운 형태 왼편으로 긴꼬리 형태

2.5-------------------------------

7.5---------------

12.5---

17.5--

22.55-

27.5-

 

-7.00-

-4.00----

-1.00-----------

2.00-----------------

5.00--------------------------

8.00-------------------------

11.00-----------------

14.00---

17.0-

-20-

-16

-12

-8-

-4--------

0----------------

4---------------------------

표본 평균 5.491

표본 중앙값 4.267

표본 평균 > 표본 중앙값

표본 평균 5.451

표본 중앙값 5.451

표본 평균=표본 중앙값

표본 평균 4.509

표본 중앙값 5.733

표본 평균 < 표본 중앙값

이상 리그레션이었습니다 더운 날씨 조심하세요~