출처: https://3months.tistory.com/307 [Deep Play]

다섯번째 이야기 - 도수분포표, 히스토그램

2019. 7. 29. 14:00통계학이론/통계학개론

안녕하세요! 리그레션입니다~ 오늘은 저번 이야기 때 마저 못했던 연속형 분포에서의 도수분포표에 대해 먼저 알려드리고 히스토그램을 소개하려고 합니다.

 

연속형 변수는 연속된 구간의 값을 갖는 변수이지만, 이산형 변수라도 관측치가 매우 조밀하게 많을 때도 연속형 변수로 생각하고 도수분포표를 그린답니다. 그리고 연속형 변수 일지라도 조사된 값은 유한하므로 표나 그림으로 나타낼 수 있답니다^^

통계학에서는 실제 자료값보다는 역역을 몇 개의 적절한 구간으로 나누어 구간에 속하는 자료의 개수를 도수로 하여 구간에 의한 도수분포표(frequency table on interval)를 그린답니다. 그 이유는 실제값 하나하나에 대하여 도수분포표를 만들면 도수가 1인데 표의 길이가 너무 길어져서 가독성이 떨어지기 때문이죠.

 

예를 들어 드리자면,

 

대학생들의 평소 운동시간을 100일간 40명을 조사했는데, 관측치는 다음과 같습니다.

90.12 97.29 100.89 14.37 26.94 27.57 35.84 69.48 73.02 89.86 102.71 122.77 75.18 49.70 49.93 50.97

76.34 40.31 1.70 10.20 12.14 14.10 41.85 42.44 48.01 48.32 52.22 52.42 52.353 55.39 62.30 64.90 67.14

68.65 79.41 82.54 84.20 84.98 87.42 87.78

 

이를 도수 분포표로 올바르게 나타낸다면 연속형 분포이므로

일일 평균운동시간(분) 도수 상대도수
0-10 1 0.025
10-30 6 0.150
30-50 8 0.200
50-70 10 0.250
70-90 10 0.250
90-110 4 0.100
110-130 1 0.025
40 1.00

 이렇게 하면 표의 길이도 세로로 적당하게 나오게 됩니다.

 

히스토그램(histogram)

 

히스토그램은 연속형변수 자료를 나타내는데 적절한 그림입니다. 또 다른 방법으로는 점도표(dot diagram)를 사용하지만 잘 쓰진 않습니다. 점도표는 자료의 수가 비교적 적어야 효과적이기 때문입니다.

히스토그램의 특징은 이산형자료와 마찬가지로 해당 도수(또는 상대 도수)가 직사각형 면적이 되도록 가로와 세로의 길이를 맞춰주는 것입니다. 이때 직사각형의 밑변의 길이는 동일하게 하는 것이 보편적이지만 반드시 같을 필요는 없습니다. 그리고 높이는 직사각형의 면적이 해당 도수(또는 상대 도수)가 되도록 결정해줍니다.

 

히스토그램의 주요성질

 

히스토그램의 직사각형의 높이 = 상대 도수/구간의 폭.

 

히스토그램에서 직사각형들의 면적의 합은 1이다.

 

보편적으로 밑변의 길이를 동일하게 해주는 이유는 각 직사각형의 면적을 구하지 않고도 높이만 보고 상대 도수를 비교할 수 있기 때문입니다. 백문이 불여일견, 바로 그림으로 들어가 볼까요?

보시면 각각 밑변이 처음 한 번만 10 나머진 20의 간격을 유지하고, 높이는

0.0025 0.0075 0.0100 0.0125 0.0125 0.005 0.0005 인 히스토그램입니다.

 

면적의 합은 1이 나오는 그래프이며

처음 칸(밑변의 길이가 혼자만 다름)을 제외한 다른 6개의 직사각형들은 밑변이 같으므로 높이로 상대 도수를 비교하기가 쉽습니다. 바로 50~90 사이의 도수가 많다는 것을 알 수가 있고 110부터 130은 매우 숫자가 작군요. 

 

히스토그램은 기초통계학에서 주로 많이 나오는 그래프입니다. 하지만 각 구간에 대한 도수로만 표현되므로 실제론 어떤 값을 가지고 있는지 알 수 없는 단점이 있습니다. 감사합니다 즐거운 하루 보내세요 리그레션이었습니다.