출처: https://3months.tistory.com/307 [Deep Play]

네번째 이야기 - 이산형 변수와 연속형 변수 그리고 도수분포표

2019. 7. 29. 01:00통계학이론/통계학개론

안녕하세요 리그레션입니다! 세 번째 이야기의 자료 종류들은 다들 이해가 되셨는지요? 적는 저도 새내기 때 너무 어려워서 붙들고 있었던 게 기억나네요 ㅎㅎ

 

오늘은 이산형 변수와 연속형 변수에 관한 이야기를 해볼까 합니다.

 

변수(variable)은 관측치(data)들을 몇 개의 그룹으로 묶을 수 있는 특징들을 말합니다. 예를 들면 모 고등학교에서 중간고사를 쳤다고 했을 때, 과목명인 수학, 과학, 그리고 몇 학년 몇 반, 이름, 수학 성적, 과학 성적 등의 특징들을 변수라고 칭합니다. 관측치로는 예를 들면 수학 성적이란 변수 아래 관측치 0점부터 100점이 존재할 수 있는 것이죠.

 

이런 변수는 크게 두가지 종류로 나뉩니다.

 

1) 이산형변수(discrete variable)

2) 연속형변수(continuous variable)입니다.

 

이산형 변수는 변수가 가질 수 있는 값이 똑똑 끊어진 변수를 말합니다. 예를 들면 오늘 하루 서울 강남구에서 밤 10시부터 11시까지 일어나는 범죄사건의 수는 1개.... 9개.... 21개 이렇게 똑똑 하나하나씩 끊어서 셀 수 있는 숫자들이죠.

변수가 가질 수 있는 값의 개수가 유한개이면 당연히 이산형 변수가 됩니다. 그리고 자연수의 개수와 일대일 대응이 된다면 무한개일지라도 이산형 변수가 됩니다.

 

연속형 변수는 변수가 연속된 구간의 값을 가지는 것이죠. 예를 들어 형광등의 수명시간을 나타내는 변수를 들 수 있습니다. 형광등의 수명은 4달 정도로 생각되고 120일이라고 단언하기가 힘들죠. 그래서 나타낼 때 119일에서 121일 사이다 이런 식으로 연속된 구간 속에 있다고 말합니다.

 

두 가지 변수가 가지는 값들의 가장 큰 차이는 간격이 있고(이산형 변수) 없고(연속형 변수)의 차이입니다.

 

도수분포표

 

도수분포표는 통계학에서 가장 기본이 되는 표입니다. 이 표는 모든 자료(이산형이든 연속형이든)에 대해 작성될 수 있고 특히 이산형 자료의 구조를 나타낼 때는 더없이 유용합니다. 

도수분포표의 구성은 자료 값, 도수, 상대도수, 누적도수, 누적상대도수 등이 있습니다.

 

자료값 : 관측치 데이터

도수 : 특정 값이 몇 개인지를 나타내는 수

상대 도수 : 특정 값의 도수 / 전체 도수의 합

누적도수 : 특정 값까지의 도수 합

누적상대도수 : 해당 값까지의 누적도수 / 전체 자료의 누적도수

 

예시를 보시면 단번에 이해가 되실 겁니다.

 

30쪽짜리 책에서 한 페이지당 나오는 오자의 개수가 다음과 같을 때 도수분포표를 작성한다고 하면

 

1 1 1 3 0 0 1 1 1 0 2 2 0 0 0 1 2 1 2 0 0 1 6 4 3 3 1 2 4 0

 

오자의 개수 도수 상대도수 누적도수 누적상대도수
0 9 0.300 9 0.300
1 10 0.333 19 0.633
2 5 0.167 24 0.800
3 3 0.100 27 0.900
4 2 0.067 29 0.967
5 0 0.000 29 0.967
6 1 0.033 30 1.000
30 1.000    

여기에 추가로 오자가 2개 이하일 확률을 묻는다면,

오자의 개수가 0,1,2 일 때의 누적된 상대 도수, 즉 0.800입니다.

 

오자가 4개 이하인 페이지가 몇 개일까요?

역시, 누적도수 중 4에 해당하는 것을 보면 됩니다. 29페이지 입니다. 

(이 책은 1페이지만 오자 없고 29페이지가 다 오자가 있네요;;)

 

이상 이산형 자료에서의 도수분포표와 변수 종류를 알아보았는데요,

오늘은 내용이 비교적 평이한 수준이었습니다 그렇다고 막 쉬운 수준도 아니었고요 ㅎㅎ

다음 이야기에선 연속형도 다뤄 드리고 여러 가지 그림도 소개해 드릴게요 감사합니다 이상 리그레션이었습니다.